优刻得(688158)与华中科技大学达成产学研合作,聚焦Agent场景下的大模型推理瓶颈,围绕KV Cache卸载与复用技术展开联合研究,共同探索面向下一代AI推理基础设施的系统级创新方案。
双方结合云基础设施、分布式存储与异构计算等领域能力,从“单请求长上下文推理”与“跨请求前缀复用”两个维度,共同推进多层级KV Cache卸载体系建设,为Agent推理服务提供更高效、更具扩展性的底层支撑。
从算力瓶颈到显存瓶颈
在Coding Agent场景下,大模型的推理请求中会包含项目的代码文件、文档以及多轮思考信息,这使得单个请求的序列长度轻松超过10万个Token。由于KV Cache大小与序列长度成正比,在长上下文推理负载下,单个序列对应的KV Cache可达10GB。
伴随着混合专家模型(MoE)以及稀疏注意力算法的进步,大模型推理所需的计算量有了大幅下降;与此同时,各种Agent应用所需的上下文越来越长,巨大的KV Cache占用和受限的显存大小严重限制了推理的并发,这使得大模型推理正在从算力瓶颈变为显存瓶颈。此外,Agent应用中大量共享前缀(系统提示、代码上下文、文档片段)被反复prefill,造成GPU算力的重复消耗,进一步放大了系统层面的资源压力。
针对上述显存容量与重复计算两大瓶颈,亟需系统层面的创新来突破。
优刻得(688158)与华中科技大学达成产学研合作,从两个维度共同推进KV Cache卸载技术。
单请求纵向卸载:通过GPU-CPU异构注意力计算,将解码过程中的KV Cache卸载到DRAM,显著提高解码吞吐;
跨请求横向扩展:构建UPFS-Cache(内存+分布式两级KV Cache池),避免相同前缀被反复prefill,并支持跨实例、跨重启复用。
两条路径协同发力,从不同维度共同构成完整的多层级KV Cache卸载体系。
单请求纵向卸载:GPU-CPU异构计算
1.现有方案剖析
通过分析现有的KV Cache卸载方案,我们发现KV Cache卸载到内存后,将重要Token从内存加载到显存的同步IO严重影响了GPU利用率,导致卸载后的吞吐提升十分受限。
2.创新方案设计
基于这一观察,结合近数据处理及预取等思路,设计并实现了GPU-CPU协同计算以及CPU侧预计算的创新方案:
KV Cache卸载:将推理请求大部分不重要的Token卸载到内存上,释放宝贵的显存空间,有效提高推理并发。
异构计算:解码阶段GPU和CPU协同执行注意力计算,各自计算一部分Token,并最终在GPU上合并结果。
CPU预计算:为了避免CPU算力瓶颈,CPU侧的注意力计算会提前一层触发,通过流水线优化隐藏CPU计算时延。
纵向卸载——GPU-CPU异构计算架构
3.性能表现
在真实负载下进行验证,纵向卸载方案相较于主流推理框架基线,在解码吞吐上有明显提升。
纵向卸载方案与基线在不同输入长度下的吞吐对比
跨请求横向扩展:UPFS-Cache
1.现有方案剖析
主流推理框架普遍依赖进程内的prefix Cache来复用历史前缀,但容量受限于本机DRAM、进程重启即丢失、且无法跨实例共享,使得Agent场景中高频出现的共享前缀(系统提示、文档上下文、多轮对话历史)难以被高效复用。
2.创新方案设计
针对上述问题,优刻得(688158)与华中科技大学联合设计了UPFS-Cache——面向推理引擎的统一KV Cache卸载层。内部由“内存”与“分布式”两级构成:内存层承载高频prefix,提供亚毫秒级访问;分布式层依托优刻得(688158)自研的UPFS并行文件存储,提供PB级容量兜底与全局共享能力。推理集群中每个GPU节点通过UPFS-Cache客户端接入统一的存储池,由Offloading/Loading两条通路在推理集群与存储集群之间高效流转KV cache:
Offloading(卸载):新生成或长时间未访问的prefix KV,按一定策略异步写入UPFS,不阻塞推理主流程;写入后即对集群内所有节点全局可见。
Loading(加载):推理请求按chunk粒度查找前缀;本地内存命中即直接复用,远端命中则由UPFS-Cache客户端从UPFS并行拉回到本地内存层,命中部分跳过prefill。
跨实例共享:依托UPFS提供的全局可见性与持久化能力,推理实例扩容、重启、迁移后,依然可直接命中已有的KV cache,无需重新prefill。
横向扩展——UPFS-Cache集群架构
3.性能表现
在Agent典型负载下,UPFS-Cache方案相较于未启用卸载的基线在多个关键指标上均有显著改善(基线归一化为100%)。
UPFS-Cache方案相对基线的性能改善
首Token延迟(TTFT):相较未卸载基线降低83%。
单Token生成延迟(TPOT):降低52%。
整体推理吞吐:提升117%。
长上下文场景:单请求prefill时间可节省2秒以上。
多层级卸载的协同价值
两块工作覆盖KV Cache管理的两个互补维度,协同发力:
维度 | 解决的核心问题 | 关键技术 | 受益场景 |
纵向卸载 | 单请求长context的显存容量限制 | GPU-CPU异构注意力计算、CPU预计算流水线 | 单次超长上下文推理(10万Token+) |
横向扩展 | 跨请求/跨实例的重复prefill | UPFS-Cache(内存+分布式两级卸载) | 多轮对话、共享Prompt、Agent协同 |
组合后,Agent应用可同时获得更长上下文支撑与更高Prompt复用效率双重收益:纵向卸载让GPU能跑更长的context,UPFS-Cache让重复的context不必重复prefill。该体系为云上大规模Agent推理服务奠定了基础,也为后续在分布式推理、多模态长序列场景下的进一步拓展提供了清晰路径。
此次合作是优刻得(688158)与华中科技大学在大模型推理基础设施方向的一次联合技术探索。双方将持续推动前沿研究成果与产业场景深度结合,共同探索面向未来的大模型推理体系与智能算力基础设施建设路径。
