显著降低Token消耗,百度百舸推出高效KV Cache系统
2026-04-02 14:25:08AI云资讯1969
2026 开年,OpenClaw的现象级爆发使大模型迅速迈入「超长上下文」时代。在几乎人人手捧「龙虾」穿梭于代码、搜索、办公自动化的当下,Token(词元)消耗成本正在迅速累积。据OpenRouter平台数据,2026年3月单周OpenClaw Token消耗量占平台总量的20%。用户实测单个会话的上下文可膨胀至23万Token;重度使用场景的月成本甚至高达800-1500美元。
这背后,是Agent架构的全量记忆策略——每一轮对话请求都必须携带历史上下文,导致Token消耗随轮次呈滚雪球式增长。
此时,KV Cache的管理方式便成为影响推理效率与成本的关键变量。若无法有效复用历史 KV Cache,系统将重复执行 Prefill 计算——不仅带来了不必要的Token成本花销,也会显著拉长首Token时延(TTFT)。因此,通过提升上下文缓存命中率来降低用户使用成本以及通过减少重复Prefill计算来降低TTFT,成为KV Cache优化的核心方向。
百度智能云旗下百度百舸团队近日推出了一套自主研发的KV Cache系统 —— AttentionStore,并基于昆仑芯 P800 在DeepSeek模型上完成系统验证:在8K+长上下文场景中,TTFT实现了2至5倍的性能提升;而在64K长上下文场景下,TTFT性能提升至6.2倍,显著增强了大模型在长上下文历史条件下的Token 响应能力。
显存瓶颈:长上下文推理的隐形天花板
在当前主流推理引擎(如 SGLang、vLLM 等)中,KV Cache通常被视为一种仅存在于显存中的短生命周期数据结构。其设计目标很明确:在一次请求的解码阶段复用历史 Key / Value,避免重复计算;一旦请求结束或被调度器回收,KV Cache便会被整体释放,以保证显存能够服务更多并发请求。
然而,随着多轮对话等长上下文场景的兴起,推理系统中所能容纳的KV Cache体量逐渐成为了决定系统性能的核心变量。此时,仅依靠显存承载的KV Cache体量远远不能满足长下文推理场景下的会话响应要求。
要准确评估KV Cache存储的瓶颈,就需要综合分析「单个Token所需的KV缓存开销」、「可存放KV Cache的显存容量」、以及「长上下文的会话长度」。
当前,KV缓存的计算公式与模型规模、模型层数、数据精度、以及所采用的注意力头结构相关。以Qwen3-32B模型为例,其采用GQA结构,在FP16精度下,单Token所需的 KV 缓存开销约为 0.25MB,对于一个80GB显存的加速卡来说,除去模型权重需占用的 60GB 以及runtime buffer、临时算子、并发数等占用的约5GB~10GB后,仅剩余的 10GB显存最多容纳约40K Tokens。
而以LLaMA-13B模型为例,其采用 MHA 结构,在FP16精度下,单Token所需的 KV 缓存开销约为0.8MB,在80GB显存的加速卡中,仅剩余的40GB 显存最多容纳约 48K Tokens。
然而,在诸如OpenClaw等长上下文的真实业务场景中,受到多轮对话、多并发用户因素的影响,会话长度可达 64K,甚至 128K。此时,显存容量的有限空间就使得系统经常需要重新计算历史 Token 的 KV 值,引起极大的推理时延。
为了解决显存无法容纳长上下文业务场景所需存放的 KV Cache 问题,业内普遍采用了 KV Cache Offload 方案 —— 它提供了一种兼具性能与成本效益的技术路径:将历史 KV Cache 从昂贵的显存中迁移至更具性价比的存储介质(如内存、SSD 等),在会话延续时按需加载实现数据复用。然而,在将这一方案大规模落地到生产业务过程中,还需要解决三个关键问题:
首先,调度系统要如何匹配到最优节点,避免昂贵的重复计算开销:传统调度系统无法感知缓存的全景分布与介质状态,存在严重的调度盲区。这导致请求往往被分发至无缓存节点,触发大规模重复计算与存储冗余,难以发挥分布式缓存的集群效应。
其次,如何提升多级缓存间的数据搬运效率,加快响应速度:传统方案难以针对异构芯片的底层访存特性进行深度优化,在多级存储介质(HBM - DRAM - SSD)之间搬运动态数据时,数据通路效率低下,极易引入额外的传输时延,抵消掉复用缓存带来的性能增益。
另外,会话中断后,如何避免 KV Cache 丢失:传统方案中,缓存管理与推理进程强耦合:一旦推理引擎进程退出或异常重启,缓存数据即刻失效。
AttentionStore —— KV Cache 全局调度与高效流转系统
正是由于上述问题的存在,KV Cache Offload并不能仅停留在「存储迁移」层面,而必须在调度、数据通路与缓存管理机制上进行系统性升级。
在这一背景下,百度百舸构建了KV Cache分布式缓存管理体系AttentionStore,并基于昆仑芯硬件平台进行了深度适配与调优。
AttentionStore通过在推理集群层面实现多维感知与精准调度,以及在执行节点中加快缓存数据的传输效率,AttentionStore可实现高达80% ~ 90%的KV Cache 缓存命中率,大幅降低推理成本;并系统性减少重复Prefill计算开销,显著降低TTFT。

为了保障KVCache服务连续性,我们将AttentionStore与推理引擎解耦,以独立进程的形式运行在每个推理节点上,当推理进程重启、故障恢复或版本升级时,KVCache依旧可以稳定保存在AttentionStore管理的存储空间中,可在后续推理中重新加载使用。同时,AttentionStore采用共享内存和SSD作为主机缓存介质,其自身重启后可通过本地索引表快速实现数据恢复,实现服务升级与维护期间业务无感切换。
KV Cache 全局感知,优化推理调度决策链

在实际生产环境中,推理请求往往运行在多节点、多实例的分布式架构之上。若推理调度器对缓存分布无感知,仅依据不同实例的状态及负载等因素进行调度决策,极易出现「请求被调度至无缓存节点」的情况,从而触发完整的 Prefill 重算,使得 Offload 带来的性能收益被完全抵消。
为此,凭借行业领先的 KV Cache 多维感知,我们在推理集群内构建了实时 KV Cache 全局索引视图;并将 KV Cache 纳入调度决策,使调度从「只看资源」升级为「资源与缓存协同决策」。
全局 KV Cache 索引:我们在全局层面汇聚了各推理节点的 KV Block 信息,包括 BlockHash、所在存储介质(HBM / DRAM / SSD)等元数据,并实时捕捉 KV Cache 的创建与销毁事件,从而精准掌握最新的全局 KV Cache 索引,形成 Host → Blocks 映射关系;
调度决策优化:在具备全局感知能力之后,KV Cache 的命中情况被正式纳入调度决策路径。在原有基于负载与健康状态筛选候选节点的基础上,调度器会根据请求上下文,将调度目标先收敛到具备高缓存命中率的节点集合,并结合命中长度以及缓存所在存储介质(HBM / DRAM / SSD)的读取效率,对候选节点进行综合打分。
最终,推理集群调度不再仅以「是否可用」为标准,而是以「是否最优」为目标——将请求优先分配至缓存命中率更高、数据加载速度更快的节点,在保障负载均衡的前提下,最大化 KV Cache 复用价值,系统性降低重复 Prefill 开销,并显著优化 TTFT 表现。
KV Cache 多级缓存优化,加速数据传输效率
实现 KV Cache 的全局感知与精准调度,解决了长上下文推理中缓存「调度匹配」的核心问题;而在多级缓存体系中,跨介质的数据传输效率与多数据传输的并行能力,是决定 KV Cache 复用性能的另一关键因素。为此,百度百舸通过 AttentionStore 对 KV Cache 的全生命周期数据通路进行了深度优化,构建了高效的多级缓存体系,实现跨介质数据传输的全面加速。
在典型的长文本推理场景下,KV Cache 在 HBM、DRAM、SSD 多级缓存体系中的数据流转遵循以下逻辑:
请求到达时,Prefill 节点优先尝试从显存 KV Cache 中匹配;
若显存未命中,将借助节点间的 KV Cache 池化能力快速将缓存数据迁移至目标 Prefill 节点的主机内存;仍未命中的部分则由 Prefill 节点即时计算生成;
Prefill 节点生成的 KV 传输至 Decode 节点,并异步回写至主机内存 / SSD;
Decode 节点在推理过程中新生成的 KV 增量,异步回写至 Prefill 节点的主机内存 / SSD。

针对上述链路中的读取、写入及传输环节,我们实施了如下针对性优化:
昆仑芯底层原生适配:面向昆仑芯 XPU 架构,进行了 AttentionStore 方案的深度适配 —— 针对 KV Cache 在显存、内存与 SSD 之间高频流转的特征,通过调用 XPU 原生 API,对数据搬运、缓存访问及执行调度等关键路径进行专项优化,从而充分发挥昆仑芯在带宽与访存效率上的硬件能力。同时,借助统一的硬件抽象与适配层,确保了底层指令集的无缝切换,由此,上层业务无需关注具体运行在何种硬件架构之上,即可获得一致的缓存复用能力与性能表现,实现了跨硬件环境的平滑运行;
KV Cache 读取加速:在 HBM、DRAM 与 SSD 混合命中的场景下,传统的 KV Cache 读取采用串行逻辑(如下图左侧「AttentionStore 优化前」所示),这种方式的读取耗时较长。对此,通过将 KV Cache 的读取过程拆分为并行任务 —— 让高速介质与低速介质同步发起传输(如下图右侧「AttentionStore 优化后」所示),最大程度缩短全部 KV Cache 的读取耗时。此外,将 AttentionStore 管理的共享内存标记为大页内存,显著减少页表项数量,降低地址转换开销,提高内存访问效率;同时,通过全生命周期锁页操作,避免 KV Cache 数据在传输过程中被换出,减少额外的内存拷贝与页错误开销,使数据能够以更稳定、更高带宽的方式直达显存。实测显示,DRAM 到 HBM 的通信效率较基线提升了 4 倍,让 DRAM 与 SSD 中的缓存数据能够更快进入显存参与计算;

KV 传输加速:为了提高 KV 在 Prefill-Decode 节点间的传输效率,首先在推理引擎之外,引入基于 C++ SDK 的高性能数据通路,对 KV Cache 的传输过程进行独立管理与优化。具体而言,通过 C++ SDK 扩展,将 KV 数据的序列化、打包与跨节点传输等操作从推理主进程中解耦出来,并交由独立的异步线程池负责执行,使 KV 传输与模型计算形成并行流水线,避免二者的相互阻塞。其次,在数据流传路径上,我们进一步对 KV 的回写与 P、D节点间传输流程进行了重构:传统模式下,P 节点会先将 KV Cache 完整回写至内存 / SSD,再将其传输至 D 节点;在 AttentionStore 中,我们将这一过程拆分为多个细粒度任务,通过异步机制实现「写回与传输同步进行」。借此,在保障推理任务连续执行的同时,显著提升 KV Cache 的跨节点传输效率。
实践效果:超长上下文场景下的性能飞跃
在 PD 分离推理架构中,我们基于 DeepSeek R1 671B 模型,在昆仑芯 P800 集群环境中对 AttentionStore 的 KV Cache Offload 方案进行了系统验证。
环境及配置:2 台 Prefill 节点,TP4 / DP4 并行配置。
验证效果:
当上下文长度达到 8K 以上时,AttentionStore 的 TTFT 指标具有 50%~80% 的稳定优化收益;多轮对话场景中,通过避免重复 Prefill 并提升 Prefill 节点的可复用性,系统整体吞吐量提升了 5.4 倍;在 64K 长上下文场景中,相较于推理引擎默认 Chunk-Prefill 缓存策略,基于 AttentionStore 的 KV Cache Offload 方案显著减少了历史上下文的 Prefill 重算开销,使 TTFT(首 Token 时延)降低 6.2 倍;

Agent 将大模型推理全面带入长上下文与多轮交互时代,百度百舸的 AttentionStore 让 KV Cache 从「短暂的显存数据结构」演进为「可持久、可调度、可规模化复用的系统资源」,通过对昆仑芯底层算力的深度调优与推理框架的无缝集成。百舸这套系统成功实现了更优的 TTFT 响应与更低的成本开销,成为百度智能云助力大规模国产化算力落地构筑的坚实底座。
相关文章
- 百度营销×喜临门:智能体守护好生意,这些人这样实现睡眠自由
- 百度智能云联合Founder Park举办AI硬件淘金局,聚焦OpenClaw驱动下的产业新机遇
- 全球首款手机龙虾应用线下首秀 百度RedClaw开启AI智能体沉浸式体验新场景
- 百度智能云布局智慧养老:AI重构养老产业供需关系
- 微通人工智能科技到访百度智能云创新基地 共探大模型落地与企业AI转型新路径
- 百度DuMate亮相中关村论坛,让“养龙虾”不再“想用不敢用”
- 微博接入百度智能云DuClaw,AI智能体合作伙伴持续增加
- 两会聚焦AI教育变⾰,百度⽹盘企业版打造智慧教育⼀体化解决⽅案
- 中易物联集团入选百度大模型生态伙伴 筑牢餐饮 AI 技术底座
- 百度网盘GenFlow全新升级,融合OpenClaw,支持多人AI协作
- 百度千帆发布端到端文档智能模型Qianfan-OCR
- 百度生成式推荐系统亮剑GTC 2026,从“匹配”到“生成”重构商业AI技术版图
- 端到端OCR模型第一!百度千帆Qianfan-OCR正式发布
- 从“百城送龙虾”到“龙虾全家桶”,百度智能云推动OpenClaw走向产业落地
- 小熊电器与百度智能云达成战略合作,AI驱动小家电智能升级
- 告别B2B“增长焦虑”,百度爱采购2026开年一课揭秘中小企业如何靠AI实现“降本增效”!









