飞象网讯(计育青/文)2026年4月,DeepSeek宣布最新旗舰大模型DeepSeek V4已完成与昇腾全系列产品的适配,这个消息在全球引起了轰动,业界普遍认为中国AI推理将逐步摆脱对英伟达(NVDA)等海外算力的依赖,昇腾等国产算力将迎来腾飞的机遇。在近日举行的鲲鹏昇腾开发者大会2026上,华为分享了昇腾架构的最新进展和对大模型技术趋势的判断。
昇腾开发体系全面焕新
在2025年7月举行的世界人工智能(885728)大会上,华为对外展示了昇腾384超节点真机,引起了国内外广泛关注。据了解,昇腾384集成了384颗昇腾NPU和192颗鲲鹏CPU,单超节点可提供300Pflops算力,是支持大规模AI训推业务的利器。截至2025年年底,共有数百套昇腾384超节点被部署使用,服务于互联网、政务、金融、能源(850101)、教育等行业。至此昇腾全系列算力设施都实现了规模化商用,广泛服务于5000多家行业企业。
2025年9月,华为正式发布了昇腾950系列芯片。其中昇腾950PR芯片主打推荐业务场景,已于2026年4月宣布进入规模量产阶段,聚焦大模型训推的昇腾950DT芯片预计会在2026年四季度量产,应用适配、性能指标、格式支持等都将比前代芯片大幅提升。利用昇腾950系列芯片,昇腾生态伙伴既可灵活搭建通用服务器,也可以开发大规模超节点集群。
超节点架构不仅有超大带宽、超低时延优势,还具备统一内存编址能力,让整个超节点集群如同一台超级计算机一样高效运转,因此是应对大模型技术升级的最佳算力底座。以昇腾384超节点为例,可实现48TB统一内存编址,能够最大限度地提高训练精度,有效应对推理运算对时延和超高吞吐率的要求。
软硬协同支持AI扩容、Token经济
当前大模型技术仍在不断加速演进,各大模型厂商纷纷布局万亿级参数大模型,同时多模态、原生智能体成为主流趋势,众多模型在预训练阶段便内置Agent能力,这些都对底层硬件与算力基础设施提出了更高要求:一方面要构建更大规模的算力集群,另一方面要提高芯片间的数据通信能力,同时适配多智能体应用场景,满足业务超低时延需求。此外,AI训练动辄调用万卡、数十万卡,因此对算力系统的可靠性也提出了严苛要求。从应用的角度出发,人机交互消耗的Token数量正在迅速被智能体交互超越。智能应用可以7×24小时不间断运行,消耗资源将呈千倍级增长,对单卡的吞吐能力也要求更高。
超节点是满足上述要求的理想路径。超节点架构可以适配超大规格模型,既能完整容纳超大模型参数、保障训练过程稳定可靠,又能成倍提升推理性能。实测表明,昇腾384超节点训练效率最高可达传统集群的3倍,推理吞吐指标达到业界单卡产品的4倍。
在硬件之外,华为在2025年宣布针对AI场景推出的异构计算架构CANN全面开源。CANN对上支持多种AI框架,对下服务AI处理器与编程,是提升昇腾AI处理器计算效率的关键平台。在此次鲲鹏昇腾开发者大会2026上,华为推出了改进的CANN安装包,并且将算子、通信、图引擎、算子编程等核心能力全部在昇腾社区里开放开源。在CANN的支持下,昇腾体系得以适配自研PyPTO语言和业界主流语言TileLang,开发者无需额外适配即可完成昇腾平台高性能算子、融合算子的开发与调优。昇腾社区还推出了系列Skill开发教程,持续更新Skill技术文档与实操指导,支持生态伙伴基于昇腾平台开展应用开发、模型创新、算子调优、模型量化及推理部署。
共建开源生态,赋能创新探索
作为开放开源的AI算力架构,昇腾一直非常重视生态建设。据了解,目前昇腾已经建立了覆盖部件、应用软件、生态运营、基础软件等多个方向的生态伙伴体系。其中昇腾部件伙伴专注于开发服务器整机产品,昇腾应用软件伙伴专注于软件开发(881272),昇腾生态运营伙伴面向昇腾创新中心提供算力运营服务及生态运营服务,昇腾基础软件伙伴则会基于昇腾架构开发算子、加速库、AI框架、AI平台、模型套件、工具链等产品。
在AI框架方面,昇腾已全面支持PyTorch生态,实现2300多个API与社区对齐,图模式加速实现了40多个模型入图能力对齐,分布式加速实现了20多个主流大模型FSDP2开箱即用。在推理领域,昇腾已适配LLM、多模态等核心场景,而且会针对业界新增开源模型进行快速适配并及时上架。
对于昇腾开源社区,华为优化了环境准备、部署、资料检索等流程,实现一键自动部署。社区上线了1000多张昇腾卡,每位开发者可以获得初始100卡时的免费算力,基于一站式开发平台即取即用。此外,社区面向开发工具提供专家级skills,开发者只需描述需求即可完成各类模型开发操作;设立创新激励基金,扶持算子、加速库等领域创新探索;投放万卡算力资源,支撑开源社区研发运维与实操体验。
AI技术仍在高速演进,而且正在各行各业发挥出越来越大的价值。作为AI技术发展的动力引擎,可信、可靠、可用的先进算力是国内数智化升级的底层保障,昇腾生态一直坚持“芯片架构-系统架构-集群架构-软件架构”深度协同,持续迭代硬件能力、优化CANN等基础软件,不断改善生态兼容性与系统运行效率,为中国各行各业数智化升级提供了坚实可靠的算力底座。
