Day0全面适配!软通华方完成对DeepSeek V4极速部署支持!
4月24日,随着DeepSeek V4大模型的正式开源与发布,国产算力生态迎来关键拼图。软通动力旗下软通华方迅速响应,依托“鲲鹏+昇腾”双引擎架构,基于核心产品A800T A3/超强A800I A3超节点服务器,率先完成了对DeepSeek V4的全栈适配与验证工作。这一举措不仅展现了公司在国产算力领域的深厚技术积淀,更为广大企业用户提供了稳定、高效的算力底座,加速DeepSeek V4在行业端的规模化落地与应用。
DeepSeek V4-Pro和DeepSeek V4-Flash正式发布并开源,模型上下文处理长度由原有的128K显著扩展至1M,实现近10倍的容量提升,首次增加了KV Cache滑窗和压缩算法,大幅减少Attention计算和访存开销,并通过模型架构创新更好地支持了Agent和Coding场景。软通华方超强A800T A3/超强A800I A3超节点产品也全面适配,同时为便于用户快速微调,提供了基于超节点的训练参考实现。
软通华方超强A800T A3/超强A800I A3超节点系列产品,DeepSeek V4-Flash模型单卡Decode吞吐2000+TPS,超强A800I A3风冷超节点采用平等架构、全局内存统一编址、点对点互联带宽达784GB/s。提供32到384多种规格满足不同业务需求,满足互联网、运营商、金融等行业对大模型推理超高吞吐、超大并发的极致性能需求。
基于超强A800I A3 64卡超节点结合大EP模式部署,DeepSeek V4-Flash模型,8K/1K输入输出场景,基于vLLM推理引擎可实现2000+TPS的单卡Decode吞吐,单卡吞吐持续提升。针对DeepSeek V4-Pro模型,超期A800I A3同步支持推理部署,性能持续优化中。
软件生态部分,华为CANN推出了PyPTO编程范式与TileLang方案同步开源。
为了解决自定义算子开发门槛高、周期长的痛点,昇腾CANN推出了PyPTO编程范式。PyPTO提供完善的Python API,使开发者能够以符合Python习惯的语法进行算子开发。
高效的算子开发:PyPTO依托内置高级编译优化,可自动完成流水编排与内存管理,使开发者无需关注硬件细节而专注于计算流表达,实现DeepSeek V4新一代模型算子开发周期可缩短至天级。
高性能Kernel自动生成:针对Attention、Compressor、mHC等复杂逻辑算子,PyPTO可自动生成高度优化的Kernel,避免开发者手动处理繁琐的同步与数据搬运,显著缩短从算法验证到部署落地的开发周期。
PTO ISA虚拟指令集跨代兼容:PyPTO基于PTO虚拟指令集(PTO ISA),实现了对硬件新特性的“零感适配”,针对不同代际芯片统一指令接口,实现了同一套算子代码,在不同代际芯片上的兼容实现。借助毕昇编译器的VF(Vector Fusion)自动融合能力,可在micro kernel级别实现更优融合。
TileLang社区生态:TileLang-Ascend是TileLang针对华为昇腾平台深度优化的实现,分别对应Tilelang-Ascend的Expert和Developer开发模式,提供AscendC基础指令和PTO AS两种对接层次,为各种编程前端语言和编译器提供多层开放接口。DeepSeek V4模型相关实现已在TileAI开源社区正式发布,后续将持续推进性能优化与功能迭代。
软通华方超强A800T A3/超强A800I A3产品适配DeepSeek V4-Flash、DeepSeek V4-Pro。我们期待与广大客户及开发者携手共进,在DeepSeek V4的新纪元中探索无限可能。
资源链接:
DeepSeek V4 模型推理优化实践:
https://gitcode.com/cann/cann-recipes-infer/tree/master/docs/models/deepseek-v4/deepseek_v4_inference_guide.md DeepSeek-V4 Ascend C 融合算子优化:https://gitcode.com/cann/cann-recipes-infer/tree/master/docs/models/deepseek-v4/deepseek_v4_ascendc_operator_guide.md DeepSeek V4模型训练实践:https://gitcode.com/cann/cann-recipes-train/blob/master/docs/llm_pretrain/deepseek-v4_torchtitan_npu_autofuse.mdhttps://gitcode.com/Ascend/MindSpeed-LLM/blob/master/examples/mcore/deepseek4_flash/README.md
大模型推理引擎vLLM及昇腾实现:
https://docs.vllm.ai/projects/ascend/en/v0.13.0/tutorials/DeepSeek-V4.html
大模型推理引擎SGLang及昇腾实现:https://github.com/sgl-project/sglang/issues/23598
TileLang-Ascend开源社区:https://github.com/tile-ai/tilelang-ascend