郑纬民院士：繁荣国产AI芯片生态，助力国产算力支撑大模型训练

2024-04-28 13:53:49 来源： C114通信网

　　4月28日消息（九九）今天上午，以“算力网络点亮AI新时代”为主题的中国移动（600941）算力网络大会在苏州开幕。在大会主论坛上，中国工程院院士郑纬民介绍，支持大模型训练的三类系统分别是基于英伟达公司GPU的系统、基于国产AI芯片的系统和基于超级计算机的系统。

　　郑纬民指出，基于英伟达公司GPU的系统硬件性能好，编程生态好，但是价格暴涨，一卡难求；基于国产AI芯片的系统面临国产卡应用不足、生态系统有待改善的问题；至于基于超级计算机的系统，“当前有14个国家级超算中心，机器不是用得非常满，采用软硬件协同的设计在超算机器做大模型训练成为可能。”

　　郑纬民进一步指出，国产算力支撑大模型训练，国产软件生态需要做好几件事：

　　首先是编程框架，降低编写人工智能模型的复杂度，利用基本算子快速构建人工智能模型，例如PyTorch , TensorFlow。

　　其次是并行加速，为多机多卡环境提供人工智能模型并行训练的能力，支持数据并行、模型并行、流水线并行、张量并行等。例如微软DeepSpeed、英伟达Megatron-LM。

　　三是通信库，提供跨机跨卡的通信能力，能够支持人工智能模型训练所需各种通信模式，能根据底层网络特点充分利用网络通信带宽，例如英伟达NCCL库、超算普遍支持的MPI通信库。

　　四是算子库，提供人工智能模型所需基本操作的高性能实现，要求能够尽可能覆盖典型人工智能模型所需的操作，要求算子库能充分发挥底层硬件的性能例，如英伟达cuDNN，cnBLAS。

　　五是AI编译器，在异构处理器上对人工智能程序生成高效的目标代码，对算子库不能提供的操作通过AI编译器自动生成高效目标代码，例如XLA、TVM。

　　六是编程语言，提供异构处理器上编写并行程序的支持，要求覆盖底层硬件功能，发挥硬件性能，能够编写人工智能模型的基本算子（Operator），例如英伟达的CUDA，Intel的oneAPI。

　　七是调度器，提供在大规模系统上高效调度人工智能任务的能力，设计高效调度算法，提高集群资源利用率，例如Kubernetes（K8S）、华为ModelArts。其中，内存分配系统针对人工智能应用特点提供高效的内存分配策略，容错系统提供在硬件发生故障后快速恢复模型训练的能力，存储系统支持训练过程中高效的数据读写（检查点训练数据等）。

　　郑纬民强调：“国产AI芯片与业界领先水平存在一定差距，但如果生态做好了，客户也会满意，并且大多数任务不会因为芯片性能的微小差异而有明显感知。”

关注同花顺财经（ths518），获取更多机会

0人