郑纬民院士:繁荣国产AI芯片生态,助力国产算力支撑大模型训练

2024-04-28 13:53:49 来源: C114通信网

  4月28日消息(九九)今天上午,以“算力网络点亮AI新时代”为主题的中国移动600941)算力网络大会在苏州开幕。在大会主论坛上,中国工程院院士郑纬民介绍,支持大模型训练的三类系统分别是基于英伟达公司GPU的系统、基于国产AI芯片的系统和基于超级计算机的系统。

  郑纬民指出,基于英伟达公司GPU的系统硬件性能好,编程生态好,但是价格暴涨,一卡难求;基于国产AI芯片的系统面临国产卡应用不足、生态系统有待改善的问题;至于基于超级计算机的系统,“当前有14个国家级超算中心,机器不是用得非常满,采用软硬件协同的设计在超算机器做大模型训练成为可能。”

  郑纬民进一步指出,国产算力支撑大模型训练,国产软件生态需要做好几件事:

  首先是编程框架,降低编写人工智能模型的复杂度,利用基本算子快速构建人工智能模型,例如PyTorch , TensorFlow。

  其次是并行加速,为多机多卡环境提供人工智能模型并行训练的能力,支持数据并行、模型并行、流水线并行、张量并行等。例如微软DeepSpeed、英伟达Megatron-LM。

  三是通信库,提供跨机跨卡的通信能力,能够支持人工智能模型训练所需各种通信模式,能根据底层网络特点充分利用网络通信带宽,例如英伟达NCCL库、超算普遍支持的MPI通信库。

  四是算子库,提供人工智能模型所需基本操作的高性能实现,要求能够尽可能覆盖典型人工智能模型所需的操作,要求算子库能充分发挥底层硬件的性能例,如英伟达cuDNN,cnBLAS。

  五是AI编译器,在异构处理器上对人工智能程序生成高效的目标代码,对算子库不能提供的操作通过AI编译器自动生成高效目标代码,例如XLA、TVM。

  六是编程语言,提供异构处理器上编写并行程序的支持,要求覆盖底层硬件功能,发挥硬件性能,能够编写人工智能模型的基本算子(Operator),例如英伟达的CUDA,Intel的oneAPI。

  七是调度器,提供在大规模系统上高效调度人工智能任务的能力,设计高效调度算法,提高集群资源利用率,例如Kubernetes(K8S)、华为ModelArts。其中,内存分配系统针对人工智能应用特点提供高效的内存分配策略,容错系统提供在硬件发生故障后快速恢复模型训练的能力,存储系统支持训练过程中高效的数据读写(检查点训练数据等)。

  郑纬民强调:“国产AI芯片与业界领先水平存在一定差距,但如果生态做好了,客户也会满意,并且大多数任务不会因为芯片性能的微小差异而有明显感知。”

关注同花顺财经(ths518),获取更多机会

0

+1
  • 九洲集团
  • 蔚蓝生物
  • 电科院
  • 积成电子
  • 星湖科技
  • 百合花
  • 每日互动
  • 西昌电力
  • 代码|股票名称 最新 涨跌幅