中国信息通信研究院总工程师何宝宏:大模型发展遭遇“数据墙” 行业亟须突破数据瓶颈

来源: 2026-06-01 00:02:23

  5月29日,2026证券市场年会行业分会数字经济大会在北京举行,主题为“智变:人工智能重构增长新范式”。中国信息通信研究院总工程师何宝宏分享了对AI产业发展的最新研判,并从基础模型、训练数据、算力、智能体、具身智能等多个维度进行了深入剖析。

  从基础模型技术进展来看,何宝宏表示,过去一年无论是语言模型还是多模态模型,均取得了长足进步。据中国信通院评测,语言大模型能力一年间提升了约35%,多模态模型的能力提升幅度则超过50%。产业创新的重心正从语言模型向多模态迁移,多模态技术正在加速突破各种瓶颈。

  在数据方面,何宝宏提出了一个引发广泛关注的判断:当前互联网上的模型预训练已经撞上了“数据墙”,数据已成为制约模型性能进一步提升的核心因素。他解释说,模型训练已将互联网上的公域数据消耗殆尽,几乎找不到新的数据源来有效拉升模型能力。

  对于如何破解这一瓶颈,何宝宏给出了三条解决路径:一是从公域走向私域,针对特定行业和场景的私域数据进行深度开发利用;二是发展合成数据,通过传统算法及AI算法生成合成数据以辅助模型训练,但需注意控量使用;三是提升数据质量,以先进的数据工程手段不断优化已有数据的品质,更好地服务于AI模型的进化。

  在算力方面,何宝宏指出多项趋势性变化,如推理算力占比正在快速提升,未来必将超过训练算力;国内算力资源“小散乱”,需要通过算力互联网建设实现全国算力一张网,促进闲置资源匹配;超节点能力持续提升,甚至太空算力也开始进入学术和产业界视野。

  在AI Agent(智能体)方面,何宝宏认为技术框架已初步确定,开源领域AI Agent整体呈现“一超三强”的竞争格局。他还提出了“驾驭工程”的概念,即给不确定性的系统内核(大模型/AI智能体)做“缰绳、护栏、仪表盘、驾驶舱和运行规则”的一整套工程方法论。

  谈及具身智能,何宝宏认为,目前大部分产品仍处于“特定场景、专用身体、人工遥控”阶段,部分领先产品已实现自主执行,但未来目标是实现泛化能力和通用身体。具身智能面临三大关键挑战:一是高质量物理训练数据的缺失,真机数据太贵太少,合成数据、互联网数据质量则参差不齐;二是模型泛化能力不足,一个场景训练出来的模型到另一个场景就不行了;三是软硬协同问题,语言与行动对于指令的理解不一致,还存在反应指令的时间差问题,如大脑思维以秒为单位,行动以毫秒为单位,“想了半天动作早该做出去了,指令还没出来”。

  “从智能体到具身智能,从世界模型到太空算力,AI技术正在多点突破、加速演进。”何宝宏表示,“正如大会主题所揭示的,智能经济的质变正在到来,而行业是否已做好准备,将决定这一轮增长新范式的深度与广度。”

相关板块
相关个股
相关资讯
免责声明:本文转载上述内容出于传递更多信息之目的,不代表同花顺财经的观点。文章内容仅供参考,不构成投资建议。同花顺力求但不保证数据的完全准确,如有错漏请以证监会指定上市公司信息披露平台为准,各类信息服务基于人工智能算法,投资者据此操作,风险自担。