新华三李玉涛:摆脱AGI蛮力计算,异构算力网络成为“必选项”

2024-04-28 13:47:11 来源: C114通信网

  C114讯 4月28日消息(赵婷婷)大模型时代,对算力的需求是永无止境的,大规模智算中心建设如火如荼。然而,“大算力”的释放与价值实现,离不开强大网络的支撑。网络不仅是连接算力单元的纽带,更决定了算力调度、数据流通的效率与稳定性。构建与算力规模相匹配的“大网络”,成为智算中心建设与运营的重要议题。

  作为网络产业的领军者,新华三正以其前瞻性的技术布局、多元的创新产品与解决方案,丰厚的实践经验,积极推动智算中心“大网络”的构建与发展,助力客户在大模型时代从容应对算力挑战,实现业务价值的最大化。

  新华三集团副总裁、网络产品线副总裁、交换机产品线总经理李玉涛在接受C114采访时表示,异构算力体系可以充分发挥各种计算设备的优势,具备多样性、灵活性、高效性等特点。新华三聚焦网络优势,提供强大、灵活、多元且具备高支撑度的异构算力网络架构,能够最大程度释放芯片潜能,并坚持开放合作方向,携手产业链伙伴共同构建创新、包容的生态圈。

  摆脱AGI蛮力计算:异构算力网络成为“必选项”

  随着AI技术特别是大模型技术的突飞猛进,AI的应用范围正从基础的文本、语音处理扩展至复杂的视频处理及其他未知领域,以AI为核心的算力需求激增,多元异构算力增速超过通用算力成为主流。而应对AI算力需求的关键在于实现算力、存力和网络转发效率的良好结合,以实现端到端的整体效率。

  李玉涛指出,当前智算场景的产品体系内,服务器平台、GPU、网卡、光模块、交换机等领域都有大量的厂商参与。网络作为连接 CPU、xPU、内存、存储等资源重要基础设施,贯穿数据计算、存储全流程,是拉通生态的重要介质。网络的冗余性、高可靠、以及弹性,可帮助技术不成熟产品消除限制。

  李玉涛强调,智算网络的建设不仅仅是硬件设备的堆砌,“靠蛮力计算是远远不够的,更强调算力效率的提升。”在智算网络建设中,新华三不仅提供网络硬件设备,还尤其关注绿色节能、长期运营成本、网络接入密度和系统安全性等,旨在构建最佳的、可持续的网络环境。

  “面对日益增长的AI算力需求,千卡、万卡模型已远远不够了,新华三正探讨构建支持百万卡规模的超大规模智算网络。”他指出。与此同时,稳定、高可靠性的保障工作同样重要,基于此考虑,新华三制定了智算网络异构连通专项测试,可对光模块、电缆进行高可靠性的测试验证,解决与网卡互联互通的问题,为客户提供一套经过验证过的交付方案。

  对于异构算力网络的现状与发展策略,李玉涛认为,异构算力网络尚处于发展初期。目前国内已有很多生态出现,但大多数还处于发展早期,技术成熟度有待提升。面对这一情况,新华三将更多进行“陪伴式成长”,加强与合作伙伴的紧密合作与早期课题探讨,助力国内异构算力网络生态的加速成熟与壮大,以更好适应新业务需求和技术环境。

  三维度同时发力:夯实异构算力网络基石

  李玉涛表示,在通过网络打通异构算力时,有三个关键需求:首先要有多元化产品支撑生态互联互通;其次是需要全场景的网络调优能力,能实现GPU解耦、网卡解耦;再次站在客户长期使用的视角,异构算网协同非常关键,需基于统一的通信库实现协同调度。

  多元化产品方面,新华三提供支持200G/400G/800G不同端口密度的盒式产品/框式产品、以及先进架构DDC(Distributed Disaggregated Chassis)产品,提供多种组网架构,满足不同规模、不同智算平台、不同建设环境的客户的需要。对于网络产品,超宽是永远的话题。李玉涛表示,新华三2023年已经批量出货支持400G产品,800G将在今年下半年出货,1.6T及更高速率端口更高性能的产品也在积极推进,助力更高的算力需求。

  同时,针对不同智算场景,新华三会提供最适合的负载均衡技术组合,合理调整流量的带宽利用问题,提升智算中心算力规模和效率。例如,SprayLink解决链路均衡的问题,通过实时监控LACP/ECMP中各物理链路的带宽利用率,出口队列。缓存占用,传输时延等精细化数据,对大象流做到基于Per-Packet方式的动态负载分担,将每个数据包分配到当时资源最优的链路上,链路宽带利用率提升至95%。

  李玉涛指出,DDC技术经过实测,其性能可超越InfiniBand网络,有效解决网络拥塞问题,提高效率;还具备解决异构环境下生态合作问题的能力,能有效屏蔽不同厂商设备之间的差异性。其拥有极致性能与高扩展,最大支持32K GPU规模,较盒式组网方案效率提升20.7%;具有天然开放解耦属性,实现对GPU、网卡解耦;优秀部署体验与高可靠性,可实现整网多租户接入/隔离。

  异构算网协同方面,支持异构GPU/网卡的算网路径协同能力,具备两个关键能力来支撑实践。一是可利用负载均衡来提升网络利用率,二是可通过控制器分析,主动进行选路与规划仿真,从上帝视角做整网协同处理。

  李玉涛进一步表示,新华三已经积累了丰厚的实践经验,并提供可复制解决方案。以某算力中心建设为例,面对规模超万卡、不同GPU厂商提供的资源,新华三全程深度参与项目建设,以及前期的一些战略经验和设计标准,例如,将光纤布线控制在100米以内,以进行超低时延实现;在解决光模块抖动闪断问题时,制定上架前必须要通过全检原则,以降低后续运维管理难度等。“新华三是真正投身实践,通过大规模项目交付积累经验,并在此基础上做其他项目的复制,做好异构算力网络的落地。”他说道。

  开放标准+端到端拉通:共建异构算力网络新生态

  在异构算力网络的构建过程中,标准化与产业生态是非常重要的。

  从大规模智算中心网络演进技术路径来看,业界普遍认为,增强无损以太网将逐渐成为市场主流选择,无损以太网通过重构高扩展、高稳定、高可靠的以太网堆栈,有望在性价比方面媲美InfiniBand。

  李玉涛表示,新华三很早就开始基于AI等关键业务的算力需求,前瞻探索下一代网络技术和智能算力的业务布局。在去年,新华三正式加入了超以太网联盟(UEC),持续推进AI时代先进网络技术的探索研究和应用落地。此外,新华三在去年作为首批合作伙伴联合中国移动600941)研究院发布《全调度以太网技术架构(GSE)白皮书》。“新华三在积极参与UEC和GSE的标准化进程,携手产业链共建技术生态。”

  计算与网络融合的技术体系复杂,涵盖计算网络化、网络计算化、算网安全等多个层面,目前仍缺乏统一的标准体系。李玉涛指出,算网联动技术是产业链关注的重点和难点,新华三将积极与生态伙伴组建统一的通信库,共同定义包括数据格式、通信协议、接口API等规范,在模型层面能实现相互兼容,减少模型迁移过程中的障碍。不仅如此,新华三还把去年推出的百业灵犀大模型成功适配于现网中,通过自动化和智能化的AI工具使能,大幅降低网络运维、排障的复杂度,有力支持整体算力服务的高效运行。

  纸上得来终觉浅,绝知此事要躬行。据李玉涛介绍,为验证智算中心异构算力组网架构,新华三和多个生态伙伴积极合作,搭建了一套包括多厂商、多型号在内的GPU集群,以及高性能存储系统用于模型测试。“通过严格适配与验证,我们可以把参数调到最优,无论客户选择何种算力卡型,新华三都可以提供高可靠的网络服务。”

  采访最后,李玉涛强调,生态的开放共赢是大势所趋,保持开放性对企业成功与长远发展至关重要。新华三会坚持开放与标准化方向,实现对客户业务的端到端拉通,并且引入更多生态伙伴,共建异构算力网络开放合作新生态。

关注同花顺财经(ths518),获取更多机会

0

+1
  • 九洲集团
  • 蔚蓝生物
  • 电科院
  • 积成电子
  • 星湖科技
  • 百合花
  • 每日互动
  • 西昌电力
  • 代码|股票名称 最新 涨跌幅