同花顺 Logo
AIME助手
问财助手
优刻得携手华中科技大学探索Agent推理基础设施新路径利好
2026-05-28 10:57:00
作者:UCloud
分享
AIME

问财摘要

1、优刻得与华中科技大学达成合作,共同推进多层级KV Cache卸载体系建设,以提高Agent推理服务的效率和扩展性。 2、双方从“单请求长上下文推理”与“跨请求前缀复用”两个维度,共同推进多层级KV Cache卸载体系建设,并设计了GPU-CPU异构注意力计算和UPFS-Cache方案。
免责声明 内容由AI生成
文章提及标的
优刻得-W--

优刻得(688158)与华中科技大学达成产学研合作,聚焦Agent场景下的大模型推理瓶颈,围绕KV Cache卸载与复用技术展开联合研究,共同探索面向下一代AI推理基础设施的系统级创新方案。

双方结合云基础设施、分布式存储与异构计算等领域能力,从“单请求长上下文推理”与“跨请求前缀复用”两个维度,共同推进多层级KV Cache卸载体系建设,为Agent推理服务提供更高效、更具扩展性的底层支撑。

从算力瓶颈到显存瓶颈

在Coding Agent场景下,大模型的推理请求中会包含项目的代码文件、文档以及多轮思考信息,这使得单个请求的序列长度轻松超过10万个Token。由于KV Cache大小与序列长度成正比,在长上下文推理负载下,单个序列对应的KV Cache可达10GB。

伴随着混合专家模型(MoE)以及稀疏注意力算法的进步,大模型推理所需的计算量有了大幅下降;与此同时,各种Agent应用所需的上下文越来越长,巨大的KV Cache占用和受限的显存大小严重限制了推理的并发,这使得大模型推理正在从算力瓶颈变为显存瓶颈。此外,Agent应用中大量共享前缀(系统提示、代码上下文、文档片段)被反复prefill,造成GPU算力的重复消耗,进一步放大了系统层面的资源压力。

针对上述显存容量与重复计算两大瓶颈,亟需系统层面的创新来突破。

优刻得(688158)与华中科技大学达成产学研合作,从两个维度共同推进KV Cache卸载技术。

  • 单请求纵向卸载:通过GPU-CPU异构注意力计算,将解码过程中的KV Cache卸载到DRAM,显著提高解码吞吐;

  • 跨请求横向扩展:构建UPFS-Cache(内存+分布式两级KV Cache池),避免相同前缀被反复prefill,并支持跨实例、跨重启复用。

两条路径协同发力,从不同维度共同构成完整的多层级KV Cache卸载体系。

单请求纵向卸载:GPU-CPU异构计算

1.现有方案剖析

通过分析现有的KV Cache卸载方案,我们发现KV Cache卸载到内存后,将重要Token从内存加载到显存的同步IO严重影响了GPU利用率,导致卸载后的吞吐提升十分受限。

2.创新方案设计

基于这一观察,结合近数据处理及预取等思路,设计并实现了GPU-CPU协同计算以及CPU侧预计算的创新方案:

  • KV Cache卸载:将推理请求大部分不重要的Token卸载到内存上,释放宝贵的显存空间,有效提高推理并发。

  • 异构计算:解码阶段GPU和CPU协同执行注意力计算,各自计算一部分Token,并最终在GPU上合并结果。

  • CPU预计算:为了避免CPU算力瓶颈,CPU侧的注意力计算会提前一层触发,通过流水线优化隐藏CPU计算时延。

纵向卸载——GPU-CPU异构计算架构

3.性能表现

在真实负载下进行验证,纵向卸载方案相较于主流推理框架基线,在解码吞吐上有明显提升。

纵向卸载方案与基线在不同输入长度下的吞吐对比

跨请求横向扩展:UPFS-Cache

1.现有方案剖析

主流推理框架普遍依赖进程内的prefix Cache来复用历史前缀,但容量受限于本机DRAM、进程重启即丢失、且无法跨实例共享,使得Agent场景中高频出现的共享前缀(系统提示、文档上下文、多轮对话历史)难以被高效复用。

2.创新方案设计

针对上述问题,优刻得(688158)与华中科技大学联合设计了UPFS-Cache——面向推理引擎的统一KV Cache卸载层。内部由“内存”与“分布式”两级构成:内存层承载高频prefix,提供亚毫秒级访问;分布式层依托优刻得(688158)自研的UPFS并行文件存储,提供PB级容量兜底与全局共享能力。推理集群中每个GPU节点通过UPFS-Cache客户端接入统一的存储池,由Offloading/Loading两条通路在推理集群与存储集群之间高效流转KV cache:

  • Offloading(卸载):新生成或长时间未访问的prefix KV,按一定策略异步写入UPFS,不阻塞推理主流程;写入后即对集群内所有节点全局可见。

  • Loading(加载):推理请求按chunk粒度查找前缀;本地内存命中即直接复用,远端命中则由UPFS-Cache客户端从UPFS并行拉回到本地内存层,命中部分跳过prefill。

  • 跨实例共享:依托UPFS提供的全局可见性与持久化能力,推理实例扩容、重启、迁移后,依然可直接命中已有的KV cache,无需重新prefill。

横向扩展——UPFS-Cache集群架构

3.性能表现

在Agent典型负载下,UPFS-Cache方案相较于未启用卸载的基线在多个关键指标上均有显著改善(基线归一化为100%)。

UPFS-Cache方案相对基线的性能改善

  • 首Token延迟(TTFT):相较未卸载基线降低83%。

  • 单Token生成延迟(TPOT):降低52%。

  • 整体推理吞吐:提升117%。

  • 长上下文场景:单请求prefill时间可节省2秒以上。

多层级卸载的协同价值

两块工作覆盖KV Cache管理的两个互补维度,协同发力:

维度

解决的核心问题

关键技术

受益场景

纵向卸载

单请求长context的显存容量限制

GPU-CPU异构注意力计算、CPU预计算流水线

单次超长上下文推理(10万Token+)

横向扩展

跨请求/跨实例的重复prefill

UPFS-Cache(内存+分布式两级卸载)

多轮对话、共享Prompt、Agent协同

组合后,Agent应用可同时获得更长上下文支撑与更高Prompt复用效率双重收益:纵向卸载让GPU能跑更长的context,UPFS-Cache让重复的context不必重复prefill。该体系为云上大规模Agent推理服务奠定了基础,也为后续在分布式推理、多模态长序列场景下的进一步拓展提供了清晰路径。

此次合作是优刻得(688158)与华中科技大学在大模型推理基础设施方向的一次联合技术探索。双方将持续推动前沿研究成果与产业场景深度结合,共同探索面向未来的大模型推理体系与智能算力基础设施建设路径。

免责声明:风险提示:本文内容仅供参考,不代表同花顺观点。同花顺各类信息服务基于人工智能算法,如有出入请以证监会指定上市公司信息披露平台为准。如有投资者据此操作,风险自担,同花顺对此不承担任何责任。
homeBack返回首页
不良信息举报与个人信息保护咨询专线:10100571违法和不良信息涉企侵权举报涉算法推荐举报专区涉青少年不良信息举报专区

浙江同花顺互联信息技术有限公司版权所有

网站备案号:浙ICP备18032105号-4
证券投资咨询服务提供:浙江同花顺云软件有限公司 (中国证监会核发证书编号:ZX0050)
AIME
举报举报
反馈反馈