优刻得携手华中科技大学探索Agent推理基础设施新路径

优刻得（688158）与华中科技大学达成产学研合作，聚焦Agent场景下的大模型推理瓶颈，围绕KV Cache卸载与复用技术展开联合研究，共同探索面向下一代AI推理基础设施的系统级创新方案。

双方结合云基础设施、分布式存储与异构计算等领域能力，从“单请求长上下文推理”与“跨请求前缀复用”两个维度，共同推进多层级KV Cache卸载体系建设，为Agent推理服务提供更高效、更具扩展性的底层支撑。

从算力瓶颈到显存瓶颈

在Coding Agent场景下，大模型的推理请求中会包含项目的代码文件、文档以及多轮思考信息，这使得单个请求的序列长度轻松超过10万个Token。由于KV Cache大小与序列长度成正比，在长上下文推理负载下，单个序列对应的KV Cache可达10GB。

伴随着混合专家模型(MoE)以及稀疏注意力算法的进步，大模型推理所需的计算量有了大幅下降；与此同时，各种Agent应用所需的上下文越来越长，巨大的KV Cache占用和受限的显存大小严重限制了推理的并发，这使得大模型推理正在从算力瓶颈变为显存瓶颈。此外，Agent应用中大量共享前缀(系统提示、代码上下文、文档片段)被反复prefill，造成GPU算力的重复消耗，进一步放大了系统层面的资源压力。

针对上述显存容量与重复计算两大瓶颈，亟需系统层面的创新来突破。

优刻得（688158）与华中科技大学达成产学研合作，从两个维度共同推进KV Cache卸载技术。

单请求纵向卸载：通过GPU-CPU异构注意力计算，将解码过程中的KV Cache卸载到DRAM，显著提高解码吞吐；
跨请求横向扩展：构建UPFS-Cache(内存+分布式两级KV Cache池)，避免相同前缀被反复prefill，并支持跨实例、跨重启复用。

两条路径协同发力，从不同维度共同构成完整的多层级KV Cache卸载体系。

单请求纵向卸载：GPU-CPU异构计算

1.现有方案剖析

通过分析现有的KV Cache卸载方案，我们发现KV Cache卸载到内存后，将重要Token从内存加载到显存的同步IO严重影响了GPU利用率，导致卸载后的吞吐提升十分受限。

2.创新方案设计

基于这一观察，结合近数据处理及预取等思路，设计并实现了GPU-CPU协同计算以及CPU侧预计算的创新方案：

KV Cache卸载：将推理请求大部分不重要的Token卸载到内存上，释放宝贵的显存空间，有效提高推理并发。
异构计算：解码阶段GPU和CPU协同执行注意力计算，各自计算一部分Token，并最终在GPU上合并结果。
CPU预计算：为了避免CPU算力瓶颈，CPU侧的注意力计算会提前一层触发，通过流水线优化隐藏CPU计算时延。

纵向卸载——GPU-CPU异构计算架构

3.性能表现

在真实负载下进行验证，纵向卸载方案相较于主流推理框架基线，在解码吞吐上有明显提升。

纵向卸载方案与基线在不同输入长度下的吞吐对比

跨请求横向扩展：UPFS-Cache

1.现有方案剖析

主流推理框架普遍依赖进程内的prefix Cache来复用历史前缀，但容量受限于本机DRAM、进程重启即丢失、且无法跨实例共享，使得Agent场景中高频出现的共享前缀(系统提示、文档上下文、多轮对话历史)难以被高效复用。

2.创新方案设计

针对上述问题，优刻得（688158）与华中科技大学联合设计了UPFS-Cache——面向推理引擎的统一KV Cache卸载层。内部由“内存”与“分布式”两级构成：内存层承载高频prefix，提供亚毫秒级访问；分布式层依托优刻得（688158）自研的UPFS并行文件存储，提供PB级容量兜底与全局共享能力。推理集群中每个GPU节点通过UPFS-Cache客户端接入统一的存储池，由Offloading/Loading两条通路在推理集群与存储集群之间高效流转KV cache：

Offloading(卸载)：新生成或长时间未访问的prefix KV，按一定策略异步写入UPFS，不阻塞推理主流程；写入后即对集群内所有节点全局可见。
Loading(加载)：推理请求按chunk粒度查找前缀；本地内存命中即直接复用，远端命中则由UPFS-Cache客户端从UPFS并行拉回到本地内存层，命中部分跳过prefill。
跨实例共享：依托UPFS提供的全局可见性与持久化能力，推理实例扩容、重启、迁移后，依然可直接命中已有的KV cache，无需重新prefill。

横向扩展——UPFS-Cache集群架构

3.性能表现

在Agent典型负载下，UPFS-Cache方案相较于未启用卸载的基线在多个关键指标上均有显著改善(基线归一化为100%)。

UPFS-Cache方案相对基线的性能改善

首Token延迟(TTFT)：相较未卸载基线降低83%。
单Token生成延迟(TPOT)：降低52%。
整体推理吞吐：提升117%。
长上下文场景：单请求prefill时间可节省2秒以上。

多层级卸载的协同价值

两块工作覆盖KV Cache管理的两个互补维度，协同发力：

维度

解决的核心问题

关键技术

受益场景

纵向卸载

单请求长context的显存容量限制

GPU-CPU异构注意力计算、CPU预计算流水线

单次超长上下文推理(10万Token+)

横向扩展

跨请求/跨实例的重复prefill

UPFS-Cache(内存+分布式两级卸载)

多轮对话、共享Prompt、Agent协同

组合后，Agent应用可同时获得更长上下文支撑与更高Prompt复用效率双重收益：纵向卸载让GPU能跑更长的context，UPFS-Cache让重复的context不必重复prefill。该体系为云上大规模Agent推理服务奠定了基础，也为后续在分布式推理、多模态长序列场景下的进一步拓展提供了清晰路径。

此次合作是优刻得（688158）与华中科技大学在大模型推理基础设施方向的一次联合技术探索。双方将持续推动前沿研究成果与产业场景深度结合，共同探索面向未来的大模型推理体系与智能算力基础设施建设路径。

优刻得携手华中科技大学探索Agent推理基础设施新路径利好

从算力瓶颈到显存瓶颈

单请求纵向卸载：GPU-CPU异构计算

1.现有方案剖析

2.创新方案设计

纵向卸载——GPU-CPU异构计算架构

3.性能表现

纵向卸载方案与基线在不同输入长度下的吞吐对比

跨请求横向扩展：UPFS-Cache

1.现有方案剖析

2.创新方案设计

横向扩展——UPFS-Cache集群架构

3.性能表现

多层级卸载的协同价值