(文/陈济深 编辑/张广凯)
6月12日,在第8届北京智源大会全体大会的一场圆桌环节中,北京智源人工智能(885728)研究院院长王仲远主持了《重构世界——中国大模型巅峰对话》。
小米集团MiMo大模型团队负责人罗福莉,清华大学人工智能(885728)研究院副院长、生数科技创始人朱军,清华大学计算机系教授、面壁智能联合创始人兼首席科学家刘知远,南洋理工大学校长讲席教授、人工智能(885728)交叉研究院院长安波同台,围绕Claude Fable 5、AI Coding、AI自进化、智能体与世界模型等话题展开了近50分钟讨论。
这也是小米大模型发布会后,罗福莉再次出现在公开AI对话场合。
相比上一次围绕小米MiMo的发布与技术路线阐释,这一次她的发言更聚焦于大模型能力边界本身:Fable 5为什么强,Scaling是否仍然有效,AI自进化离“提出假设”还有多远,以及语言模型与世界模型哪条路径会更快落地。
罗福莉这次亮相,也正赶上小米AI动作密集释放。
就在本周,小米MiMo AI团队正式开源终端原生AI编程助手MiMo Code V0.1.0。这款工具面向长周期(883436)、多步骤编程任务,内置限时免费的MiMo-V2.5模型访问权限,并支持接入DeepSeek、Kimi、GLM等第三方模型。
它的一个核心卖点,是通过项目记忆、会话检查点、任务进度日志等机制,解决AI编程助手在长会话中容易丢失早期决策和上下文的问题。
更早之前,小米围绕MiMo-V2.5系列模型已经进行过一轮开发者侧动作。小米4月下旬开启MiMo-V2.5系列大模型公测,MiMo-V2.5-Pro重点面向Agent、复杂软件工程和长程任务等场景;随后,小米又推进API降价、Token Plan调整和“100万亿Token免费计划”,试图让MiMo更快进入开发者真实调用场景。
这也让罗福莉今天谈Fable 5、AI Coding和Agent时,多了一层现实背景:小米自己也正在把MiMo推向代码、长程任务、Agent和开发者生态。
面对近期引发行业热议的Claude Fable 5,罗福莉给出的判断相当冷静。她认为,Fable 5目前展现出来的能力,本质上仍然是Scaling持续推进后的自然结果,是大模型发展过程中的阶段性成果,而不是一个终点式模型。
她把Fable 5的能力提升拆成了三个维度。
第一,是预训练规模的继续扩大。罗福莉判断,Fable 5的参数量级可能已经达到当前最强开源模型的数倍,这意味着它仍然在延续参数规模扩张带来的能力提升。
第二,是test-time scaling与强化学习的持续加码。她认为,Fable 5在推理时扩展或强化学习上,应当也投入了相当大的算力资源。这让模型能力不只来自训练阶段,也来自推理、规划和复杂任务处理阶段的持续放大。
第三,是训练数据形态正在变化。随着大模型从Chat迈向Agent,训练数据也开始从自然互联网文本,走向人与Agent共同生成的新阶段。过去可获得的互联网文本token可能在40T到80T范围内,而Agent交互和合成数据正在把训练数据推向新的量级。
因此,罗福莉认为,Fable 5是预训练规模、Agent合成数据、test-time scaling与强化学习共同外延后的“大模型中间产物”。当王仲远追问她是否认为它依然是一个中间模型时,她给出了肯定回答。
围绕模型能力是否仍在快速增长,罗福莉也没有简单归结为线性或指数曲线。
她表示,模型能力通常是一个涌现过程,很难用一条固定曲线去量化。今天顶级模型的能力跃迁,并不只是按固定斜率向上爬升,而是在数据、规模、训练方法和应用场景叠加到一定程度后,在某些任务上突然显现新的边界。
这也是她这次发言里最值得关注的底层判断:Fable 5很强,但它仍处在大模型既有技术路线继续外延的过程中。它不是终局,而是下一阶段竞争的起点。
除了Fable 5,罗福莉开场就提到,自己近期最关注的方向是self improvement,尤其是在auto research领域。
在谈到AI自进化时,她进一步解释,上一代顶尖模型的核心能力,更多是在指令清晰的场景下完成高精度执行;而今天,顶尖模型的能力已经从单纯执行,延伸到抽象问题解决层面。
她将科研流程拆成多个环节来看:提出假设、设计实验、落地执行、设定观测指标、验证结果、行业交流、优化想法等。按照她的判断,当前大模型已经能够接近或触及实验流程规划、执行实验、设计验证指标、验证结果等中后段环节,但与顶尖科研人员相比,真正的差距仍在最上游的“提出假设”。
也就是说,模型正在从“会执行任务”走向“会参与研究流程”,但距离真正自主提出关键问题,还有一段距离。
不过,罗福莉也认为,随着基座模型能力继续升级,再叠加Recursive Self Improvement这类智能体系统,模型的能力边界正在持续拓宽。她对AI自进化的发展前景保持期待。
在世界模型话题上,罗福莉同样给出了克制判断。
她认为,当前语言模型与世界模型正在并行发展,但语言模型的迭代速度更快。原因在于,数字世界的数据体系更成熟,场景闭环更清晰,也更容易依托完善的智能体系统和精准奖励机制,驱动模型持续探索升级。换句话说,语言模型更容易从数字世界中还原出智能诞生和演化所需要的环境。
相比之下,世界模型仍处于早期探索阶段。罗福莉指出,其核心瓶颈是缺少高效的世界模拟器与视频生成模型。她提到,目前还没有看到一个能够在长上下文场景下实现高效率的视频生成模型。
也就是说,在她看来,语言模型会率先完成迭代探索;而世界模型需要等基础架构、运行体系进一步成熟后,才会与语言模型路径逐步融合互通。
这与朱军的判断也形成了呼应。
朱军认为,世界模型未来会成为物理世界智能的核心底座,但世界模型复杂度更高、发展周期(883436)更长,当前仍需要持续补齐场景数据、完善数据体系,并提升模型对世界状态理解、未来预测和行动规划的能力。
刘知远则从数据闭环角度解释了代码大模型的特殊价值。他认为,代码是数字世界的核心生产力工具,代码大模型能够快速形成迭代闭环,核心原因是相关数据完全诞生于数字世界,极易实现闭环优化。Anthropic在代码大模型领域的突破,也印证了挖掘全新数据闭环场景的巨大价值。
安波则提醒,AI自演化不能被简单理解为封闭环境里的数据飞轮。在AI能力尚未成熟时,单纯依靠封闭环境很难实现有效自迭代,当前Codex、Claude Code等模型的迭代,仍然依托人工数据、用户反馈等外部信息。
圆桌最后,四位嘉宾还给年轻人送出了建议。罗福莉给出的核心建议是:始终保持探索欲与好奇心,尽可能深入使用最新的大模型,在持续试错中培养自己的判断力、科研审美和产品审美。
以下为本场对话的实录整理:
王仲远:各位朋友大家上午好。一直关注智源大会的朋友应该都会注意到,过去两年的开幕式上,我们都有一个备受关注的圆桌环节。前年我们讨论的是“通往AGI之路”,去年是“具身会客厅”。在这些圆桌中,我们都会邀请行业具有代表性的专家学者,共同探讨AI领域最前沿的问题。
今年圆桌对话的主题是“重构世界”。为什么是“重构世界”?因为我们正站在一个新的历史临界点上。人工智能(885728)不再只是改造某个行业的工具,而正在成为重构世界的底层力量。AI Coding、自主智能体、模型自进化,正在打开AI创造AI的可能性。
世界模型、具身智能和机器人,则让智能从数字世界延伸到物理世界。未来重要的竞争,将是谁能够率先掌握创造智能、驾驭智能,并让智能重塑现实的能力。因此,我们把本次圆桌对话定义为“重构世界”。
在正式开始之前,请四位嘉宾先简单介绍一下自己,并分享近期最关注的一两个技术问题。
罗福莉:大家好,我是罗福莉,小米MiMo大模型团队负责人。现在AI的发展非常绚烂,很难用一个词来概括。我最近最关注的方向是Self Improvement,尤其是Auto Research领域。
朱军:大家好,我是清华大学朱军。目前我也在做通用世界模型方面的工作。最近最关注的是以视频为原生的模型架构,以及如何通过这种模型走向物理世界,打通对世界的理解、预测,以及在世界中行动的能力。
刘知远:大家好,我是清华大学计算机系教授刘知远,同时也是面壁智能联合创始人兼首席科学家。最近我们关注的重点是大模型的“智能密度定律”。我们希望把模型的智能密度训练得越来越高,让模型能力越来越强,最终赋能各种智能终端。
安波:大家好,我是安波,来自南洋理工大学,同时也在工业界有一些兼职工作。最近我们关注的是Agent Harness。在底座模型能力给定的情况下,如何通过更好的Harness机制获得更强的推理能力。
王仲远:刚才几位老师都提到了,目前整个技术发展依然非常快。我们先从两天前发布的Fable 5聊起。Anthropic最新发布的Fable 5,在编程能力和Agent能力方面都有明显提升。官方分享的案例显示,一个拥有5000万行代码的代码库,如果依靠人工团队完成全库迁移需要一个月时间,而使用Fable 5只需要一天。
我想请各位谈谈对这款模型以及AI Coding最新进展的看法。当前的发展仍然是量变积累,还是已经接近质变临界点?同时,各位都在训练模型,目前模型能力是否仍在加速提升?先请罗福莉。
罗福莉:在我看来,Fable 5目前展现出来的能力,本质上仍然是Scaling持续推进后的自然结果。
首先是预训练阶段的Scaling。我们推测,Fable 5的参数规模可能达到当前最强开源模型数倍的水平。其次是在Test-Time Scaling以及强化学习方面,也投入了大量算力资源。此外,随着行业从Chat迈向Agent时代,训练数据也发生了变化。模型训练正在从互联网文本数据,扩展到人与Agent共同产生的合成数据,数据规模进入新的量级。过去互联网文本数据的Unique Token规模大约在40T到80T之间,而现在的数据规模已经迈上了新的台阶。
因此我认为,Fable 5是预训练规模、数据规模以及强化学习三个维度持续扩展后的阶段性成果。
王仲远:所以你认为它依然是一个中间阶段的模型?
罗福莉:是的。至少从刚才提到的几个维度来看,目前都还没有停止,相关Scaling路径仍然在持续推进。
王仲远:小米MiMo最近表现也非常亮眼,在OpenRouter上的排名也很高。从你的观察来看,大模型能力提升更接近线性增长,还是指数增长?
罗福莉:我很难用一条固定曲线去描述。因为模型能力的提升往往是涌现式的过程。无论是在不同的Scaling路径上,还是不同阶段,我们都能看到类似的涌现现象。因此很难简单地用线性增长或者指数增长来概括。
王仲远:有请朱老师。
朱军:我本人并没有直接训练语言模型,所以在这个问题上,罗福莉可能比我更有发言权。不过从身边老师和学生的反馈来看,大家普遍认为Fable 5相比上一代又有明显提升。甚至有人开玩笑说,以前觉得自己是导师,现在感觉模型成了导师。结合我们自己做视频模型和世界模型训练的经验来看,当模型规模和数据规模持续扩大时,性能提升仍然非常显著。
过去两年多时间里,我们在物理规律建模、仿真和世界模拟方面都看到了非常明显的进展。最初大家经常能看到各种幻觉问题,但今天已经能够生成高质量、专业级的内容,在很多场景下达到实际可用水平。这些进展本质上都来自同一条路线:更大的模型、更高质量的数据、更大规模的训练。
当模型进一步迈向物理世界时,一个经常被讨论的问题是:模型究竟能不能真正学会物理规律?我的观点是,随着基础模型能力持续提升,在此基础上学习严谨逻辑、物理规律以及3D世界理解等能力,都会变得更加高效。未来很多场景并不需要极其精确的物理模拟,大量任务依靠直觉式理解就已经能够完成。这正是大模型带来的重要价值。
回到Fable 5本身,我还需要进一步体验才能做更具体的评价。但有一点我非常认同,过去大家使用Agent或者AI Coding解决问题时,经常会消耗大量Token,而新版本模型在企业任务中的Token消耗明显下降。我认为这是一个非常正确的发展方向。对于很多复杂任务来说,模型应该依靠更高层次的智能去调用工具、组织推理,而不是单纯依赖更多Token消耗,这是未来大模型持续释放价值的重要方向。
王仲远:谢谢朱老师。我想追问一个问题,现在大语言模型我们看到其实Scaling范式依然存在,性能还在提升,那视频生成类模型的Scaling边界现在到达了吗?还是说也依然在不断的加数据,更大的模型可以达到更好的性能呢?
朱军:对于视频和世界模型来说,我觉得还是在继续过程中,而且潜力非常大。
最近大家都关注Seedance的新模型,他有一些share的信息,大家会觉得他是在scale up架构上,比之前的模型更加的激进,也看到了非常显著的效果。如果扩展到更加通用的世界模型上,我相信可能Scale Up的路径还很长,可能今天大家都在说像物理数据的获取量在增加、数据更加高效的使用或者是架构优化上。我觉得这个刚刚开始,可能后边还有很大的一块要去探索的地方。
刘知远:我说三点思考。
第一点就是,就像刚才福莉说的,这是一次可持续Scaling的体现。它背后的逻辑,其实是我们能够找到一条可持续的数据飞轮的闭环。
不管是24年、25年强化学习的这个成功,包括这次Anthropic的Claude Code等等,它可以从全球范围内收集反馈,收集大家使用代码生成的一些数据,其实是构成了可持续发展的强劲动力,这个是一个非常重要的一个启示。
从第二个角度来讲,本身代码其实是我们在数字世界非常重要的生产力工具,那么显然这个代码大模型持续的能力提升,会对我们所有的需要代码的这些行业啊,比如工业软件、漏洞发现等等,其实都会产生一些颠覆式的影响。
这件事情本身是数据相对成熟之后进行溢出非常重要的,我觉得需要大家一起去考虑如何去进行创新探索的一个可能性,就是说有没有可能我们原来被卡脖子的一些工业软件,我们可以通过代码大模型,把它重写一遍形成我们全新的国产化生态。
第三个我认为更有启示意义的就是,代码大模型之所以能够快速的闭环,是因为它的数据本身完全的发生在数字世界,我们非常容易去进行闭环。那么我们就可以设想,Anthropic之所以成功,是找到了代码这样一个非常重要的垂直方向,那我设想我们这个世界,我们的人类专业知识其实是发生在非常非常多领域。
如果能够在这个专业领域里面快速的形成数据的闭环,那么我们一定可以加速,AI在各个行业的快速应用,我会认为Anthropic在代码大模型上的成功,甚至它现在估值高于OpenAI,对我们来讲是一个启示,我们应该创新的去寻找更多的不同的数据闭环的可能性啊,这个是我的三点思考。谢谢刘老师。
王仲远:刘老师您认为还是有新的一些领域的机会,AI数据闭环可能创造出新的价值,安老师,您怎么看Fable 5模型?
安波:最近这两天,我们没有训练任何模型,我们在做Harness,我们尝试过不同的模型,会对最后的结果有很大的影响。
前面几位老师也分享了很多,我个人觉得最近这个自研化特别火,无论是Codex还是Claude Code都是。通过获取更多人使用的数据,或者得到更多的反馈,这些能够让模型的能力持续增强。像刘老师刚才讲了Coding很重要,我们在做推理,就是对于那些通过Coding能解决那些问题,如果你的模型Coding能力很强,会很有作用,当然不是所有的问题都是能Coding解决的,有很多问题Coding是完全没办法把它通过写Codeing来解决的,可能需要找其他的一些道路。
王仲远:您是智能体方面的专家,其实今年上半年整个智能体也非常的火,像可能对很多的观众来讲,小龙虾、Hermes都是大家都去尝试了一把这样的智能体。
其实我今天圆桌的开场词就是我的智能体写的,对于理工男来讲这简直是一个福音,帮我极大的提升了效率,我也很想听听您对智能体现在整个技术和方向的看法,也就是哪一些问题和技术是现在智能体里面最为关注的?
安波:我觉得智能体还在起步的阶段未来还有很长的路要走,现在很多智能体还在通用阶段,我觉得未来更大的潜力可能是真正落到工业界那些垂直领域,解决大家都特别在乎的问题。
举个例子,今天智源也发布了一些医学的东西,比如哪一天能攻克艾滋病、癌症。我觉得还有很长的路要走。至于智能体中间有很多步骤,比如很多个各类组件(component),比如现在可能大家比较火的,还是会去找context及内容在智能体内部,无论是做编排,这些我觉得还是最核心的部分。
当然还有一些其他的基本架构要维持整个智能体往前面走,我觉得目前最重要可能还是上下文工程相关的,包括memory、编排,复杂的编排能够在智能体求解的过程能够动态的进行编排,还有很多新的架构,通信等这样的一些事情,我觉得这个应该是目前大家都比较关心的问题。
王仲远:随着基座模型以及智能体技术的发展,自进化开始成为非常热门的话题,Anthropic一周前发了一篇长博客叫做当AI构建自己,其中提到了递归自我改进Recursive Self-Improvement,像RSI这样技术,有望实现AI系统能够全自动的设计并且研发。
那从自动写代码到自动优化模型生成数据完成实验,AI开始逐步进入到AI构建AI,我也很想听听各位怎么看待AI的自进化,尤其福莉你刚才也提到了自进化,你观察到了一些什么样的趋势吗?
罗福莉:坦诚来讲上一代,尤其在去年我觉得顶尖的模型,可能我们认为它的能力上限可能是在做非常好的执行,尤其当我们的指令非常清晰的时候它执行是非常完美的。
但是到今天我们发现顶尖模型已经从执行外延到去解决一些抽象型的问题,比如说我们拿一个完整的科研历程举例,从提出假设到去设计实验,再到去真正执行动手做实验、去验证设计合理的观测指标、去验证这个实验的合理性,然后最后一步可能是你需要跟同行进行很密切的交流,大家充分共享自己的研究,然后再去polish整个假设或者idea,这是一个很完整的研究loop。
我们现在已经能看到大模型已经从我们刚刚说的第四层执行这一层能力,慢慢外延到能够去设计合理的验证指标,去验证自己执行结果的准确性,然后能够去plan实验的整个流程。
然后可能现在唯一,模型还相对来说距离顶尖的研究员有差距的地方是提出假设,或者说提出有验证性的、提出可值得去实验的问题,这可能再某种程度上是一种研究的taste或者说是一种研究的判断,以及怎么在后续的过程中去根据比较早期的结果去及时停止一些没有意义的研究。这可能是我觉得现在我能看到顶尖模型跟顶尖的研究员中间的差距。
但是这个差距现在目前正在被更强的模型叠加一套更好的Recursive Self Improvement,这样一套 agent的系统,慢慢的外延扩到这些边界上。所以我自己也很兴奋,身处这样一个时代,看到这样一个历程的发生。
王仲远:谢谢福莉,我想问一下刘老师,您应该也连续两年在智源大会上参与了关于智能体的论坛。您怎么看待现在智能体以及AI创造AI、自进化?
刘知远:这件事情其实我最近这一年也非常的关注,我觉得从两个角度来说,第一个我觉得还是应该从整个科技发展的角度,我觉得这个节点其实非常关键。
原因是在于我们可以把我们即将要迎来的智能革命,把它类比历史上的工业革命,那么工业革命核心的发展,其实就是用机器来替代人的重复体力劳动。
它发展到极致,其实就是用机器制造机器,也就是说连机器制造本身,我们都已经不需要人的体力参与其中了。所以我们就可以设想,所谓的智能革命其实就是要用AI来替代人的机械的、重复的脑力劳动。
从这个角度来讲,其实用AI制造AI是一定会发生的事情,是人工智能(885728)发展到高级状态的标志,所以从这个角度我们就可以非常清晰的看到AI发展的变革浪潮会快速到来。因为你会看到工业革命大概是花了几百年的时间,才达成了用机器制造机器。其实我们现在用AI制造AI,距离大模型出现其实也不过就是六七年的时间,我觉得这个速度其实是值得我们特别关注的。
当然本身用AI制造AI啊,其实我们就是要去看,随着AI技术本身的提升,我们对如何制造AI这件事情可能也需要去定义,它都有哪些好的研究课题,然后我们去进行相应的探索和突破啊,这个是我说的两点。
王仲远:谢谢刘老师,你刚才提了一个很好的类比,就是说AI开始处理人类大脑里重复的一些思考,但我其实很想追问,就是我们讲AI create AI看起来是很确定性的事情,但是有没有可能AI improve AI?您觉得现在有看到这种趋势吗?
刘知远:当然,我理解Anthropic所谓的recursive,显然最外层应该是人,就是要由我们人来驱动AI来制造AI。
那当我们把AI制造AI已经做好了,那如何去制造AI制造AI的AI呢?那这件事情我们有没有可能再进一步的让它自动化,这个我理解是recursive最核心的思想。
那么recursive的最外层,我理解还是要由人来驱动,到底制造什么样的AI如何去服务社会,我觉得人作为这个社会的主体,他的主体性、主观能动性,是整个AI制造AI最核心的驱动,我觉得这个应该是人和AI之间的相互关系。
王仲远:我想追问一下安老师,您相不相信AI能改进AI?
安波:肯定的。这个问题跟自演化有极大的相似性。我个人觉得,在AI能力还比较弱的时候,自演化这个套路要能够行得通,一个很重要的前提是它不能完全在封闭的环境里。
比如说像Copilot或Codex,他们用了很多自己员工写代码、AI写代码的数据,或者从外部获得很多反馈。
如果完全封闭地搞数据飞轮,我觉得很难行得通,尤其是在AI比较弱的时候。所以这个说法可能有时会让人们理解不清楚,产生错误印象,不知道自演化到底意味着什么。
至于刘老师后面讲到的,可能跟最近有人认为AI已经有了些自我意识有关,我知道美国和国际上很多前沿实验室最近都在招研究心理学的人,研究AI自我意识等问题,但我觉得目前肯定还没到那个阶段。
王仲远:好的。一方面我们确实看到大语言模型和AI编程进步非常快。但整个物理世界还是多模态,乃至全模态的,除了文字还有图像、声音、时间、空间等。
刚才朱老师也提到世界模型。生数科技在做视频生成类的模型,这也是一类现在经常被描述为“世界模型”的模型。所以也想听听朱老师对多模态世界模型的看法,它是不是实现更广泛智能的另一条路径?
朱军:结合刚才几位老师的观点,我觉得有一个点特别重要:递归或演化的过程,从信息熵的角度看,一定需要有额外的输入进去。
除非一种情况,系统本身的东西还没学完,比如文本或视频数据,互联网上虽然有那么多,但可能之前没有用好或用全,那么在这种情况下,在里面不断提升,还是能看到很大的进步。
如果我们看物理世界,它本身是一个完全开环的系统,和固定的数据集不是一种概念。现在大家这个阶段的做法是,由于很多场景还没有数字化,大家花很多功夫去采集数据。
从长远看,在世界模型这个方向上,在线学习、自主演化等问题会更加复杂,也更有想象力。有很多场景,刚才福莉总也说了,现在做AI基本都会有一个清晰的目标,让系统自己去优化。但在复杂的开放场景里,很多时候并没有清晰或单一的目标,优化的东西可能是多维度的。
一种解法是,针对特定问题、特定场景,把它细化、清晰化,然后去做。这在大模型出来之前,是机器学习、AI里基本的范式——定一个清晰的边界,把问题明确化,用专有数据来做。
那今天更有效的方式可能还是用基础模型的方式:先构建一个通用的基模,能够学到60%左右,保守一点,刚开始能做到60%,但大家不要期望太高。如果第一步能做到,可能很快就爬到第二步,做到70%、80%,再往上scale up。
在物理世界里,我们有更多的本体和数据,可以帮助我们在这个基础上继续激活和提升模型能力,同时物理世界里的智能体也会在这个过程中不断演化和发育。这是一个大的环境。
大概2020年的时候,我们在做一个方向的规划,当时就说要构建一个可演化、可进化的发育环境,把“物理智能”这个概念画出来了。在这样一个环境中,智能体可以进去学习,学习过程也不是完全封闭的,还可以走出来和真实世界交互,交互过程中得到反馈,再回到底座环境上。
今天大家所说的世界模型,某种程度上就是在实现这种想法。当然,我觉得未来的世界模型一定是一个通用的世界模型,有点像transformer作为通用基座那样。
王仲远:我们讲画龙要点睛。今天这场圆桌的主题是“重构世界”,刚才讨论中也看到了几种重构世界的可能性。一种是在数字世界,因为AI基模能力不断提升,AI coding有可能重构整个数字世界,然后AI自己自进化,重构完数字世界后破茧而出进入物理世界。
另一种是从物理世界重新思考基模怎么建设,收集更多数据。请教各位老师,怎么看待重构世界最有可能的路径?哪一条可能更快或更能改变世界?
罗福莉:我目前看到,语言模型和世界模型确实在并驾齐驱地往前走。现阶段语言模型走得更快一些,因为我们能更好地从数字世界还原出智能诞生的环境。
在这个环境里,我们用一套能够驱动模型发挥更高上限的agent系统,叠加模型,让它在环境里自由探索,设计更精准的奖励体系来激励自我提升。这条路径在数字世界里,是当前正在发生、正在scaling的主要路径。
而在世界模型上,我们还处于比较早期的探索。我自己关注世界模型,首先关注它能不能创造一个非常高效的世界模拟器,效率是非常关键的事情。我还没有看到一个在长上下文场景实现高效率的视频生成模型诞生。
如果有一个这样高效的重构世界的生成器,我们可以在这个基础上叠加一套能触达现实复杂任务的脚手架式的agent系统,再去scaling整个范式。我觉得这是语言模型和世界模型在大的层面上会互通的一点。目前看起来,语言模型会先在这条路径上探索得更清楚。
王仲远:朱老师,您认同福莉的观点吗?
朱军:我同意刚才讲的,语言模型整体上给其他大模型很多启发,因为它是最早也最成熟的一类验证了可扩展性的模型。紧追语言模型之后的是视频模型,再到今天大家都在讨论的世界模型。
后两者关系非常紧密,有几个原因:从做世界模型的目标来看,它基本上要具备三个能力——看懂、理解状态,预测和想象,以及规划并执行行动,这三者缺一不可。
从做模型的角度,我们需要数据和架构。现在能做大模型的数据里,和世界模型最相关的就是视频数据。它最容易、最方便,而且最大量地记录着我们的世界。比如我们看的电影,过去是演员先演,它本身是个物理世界,然后再记录下来。
现在采集数据也基本采用视频方式。这里面有大量关于物理世界的信息。视频模型正在尝试做这件事,过去能看到它在复杂提示理解和内容生成上已经做得很好。再往前走,就是把动作更多地引入进来。
这条线现在越来越成为共识,大家在架构上也不断优化。包括刚才提到效率,世界模型比语言模型或其他模型在推理效率上可能会有一些挑战,但如果按每个token来看,说不定效率并不低。只是我们渲染给人看的时候,要把像素渲染出来,token很多。
但对机器来说,如果只关心它完成工作,它并不需要把像素渲染出来,只需要在内在模型里思考、规划动作,然后端到端输出动作就行了。这方面还有很多提升效率的空间。
现在最高优先级的事情,还是先把智能的上限推上去。当达到较高智能的时候,有很多手段可以把它做小,比如做成特定的策略模型等,都可以部署。整体来看,世界模型本身的可扩展性复杂性更高一些,也相对更早期,但未来非常可期。
王仲远:因为时间关系,我们问最后一个问题。我想聊聊年轻人。
一方面,我们看到越来越多优秀的年轻人站上了AI最前沿的舞台。比如罗福莉本人就非常年轻,是优秀AI青年科学家的代表。近期如果大家关注新闻的话,也会注意到,智源研究院迎来了一位22岁的青年科学家陈博远,担任行为世界模型创新中心负责人。另一方面,也有很多年轻人感到焦虑。AI发展速度太快,要学习的东西太多,世界变化也太快。很多传统技能和职业都在发生变化。
所以我想请几位嘉宾给年轻人一些建议。同时,智源研究院一直倡导青年人挑大梁,也在努力为年轻人提供展示和成长的平台。也欢迎各位给智源研究院一些建议。先从罗福莉开始。
罗福莉:这个建议需要很慎重。我自己的感受是,大模型和AGI的发展速度实在太快了,快到连我们这些从业者都会感到震撼。在这样的时代里,人和大模型之间究竟应该发挥怎样的优势,其实大家都还在探索。
但我发现有一个特质始终没有变化,那就是人的探索欲和好奇心。如果让我给年轻人一个建议,那就是保持探索欲和好奇心。同时,尽可能深入地使用最新的大模型。
在这个过程中,你会经历大量试错。而正是在不断试错的过程中,你会逐渐形成自己的判断力,以及某种程度上的审美和品味,无论是研究品味还是产品品味。我觉得这可能是当下年轻人成长过程中最重要的一件事。
王仲远:谢谢罗福莉。朱老师。
朱军:这个问题我其实思考得比较多。这两年我一直参与清华大学无穹书院AI本科生培养工作,经常会面对类似的问题。现在这个时代,技术发展确实太快了,几乎每天都在变化。不仅学生会有压力,其实所有从业者都会有同样的感受。就像刚才提到的Fable 5,两天前刚刚发布,很多人甚至还没有来得及充分体验。
所以我非常理解学生们的焦虑:技术进步这么快,我该怎么竞争?怎么学习?但我觉得,在这样的大变革时期,更重要的是找到自己的根基。只有把根基打牢,在时代变化的时候,你才有足够的竞争力。在无穹书院,我们一直强调打造AI Native的成长环境,希望学生从第一天起就拥抱AI,让AI成为学习和成长过程中的伙伴。
但即便如此,不同学生的感受也完全不同。有些学生如鱼得水,成长得特别快;有些学生则会担心,大家效率都提高了,自己还能不能跟上。其实回过头来看,每个人都一样。如果你感到焦虑,也不用太焦虑,因为你身边的人可能比你更焦虑。最重要的是积极拥抱这个时代,积极使用AI。
包括今天坐在这里,我也在学习。我们给学生上课,也需要不断更新自己的知识体系,才能跟上时代的发展。
王仲远:谢谢朱老师。刘老师。
刘知远:过去十年我带了很多研究生。如果让我总结的话,我想给年轻人三点建议。
第一,敢为人先。AGI也好,未来的智能革命也好,本质上都是尚未发生的事情。真正的大创新,往往来自于别人还没有做的事情。如果全世界都在做同一件事,那往往已经不是创新了。创新一定意味着走一条没人走过的路。所以年轻人需要有足够的视野和认知,在别人还没有看到的时候,敢于先去做。
举个简单的例子。如果所有人都选择读博士,你敢不敢做出不同的选择?就像刚才提到的22岁本科生陈博远。我觉得面向未来,敢于做出和别人不一样的选择,非常重要。
第二,坚持。因为一旦做出不一样的选择,你一定会面对质疑、否定和不理解。很多人不会支持你。在这种情况下,你能不能坚持下来,就变得非常关键。
第三,不要成为既得利益者。很多人在取得成绩之后,会习惯于依赖过去成功的经验,不愿意相信世界正在发生变化。我觉得真正重要的是,当你已经取得一些成绩之后,依然能够准确判断未来趋势,敢于否定自己,敢于尝试新的方向。
如果让我给青年同学建议,就是这三点:敢为人先、长期坚持、持续自我革新。
王仲远:谢谢刘老师。安老师。
安波:这个问题其实很复杂。因为它最终会涉及一个更大的问题——人活着的意义是什么。今天我们讨论的大部分内容,其实多少都带有一些功利色彩。比如毕业之后找到高薪工作,在最热门的赛道做出成绩,获得认可。如果从这个角度来看,我觉得前面几位老师已经讲得很好了。你要去做重要的事情。去做真正值得做的事情。不要把时间浪费在没人关心的问题上。
我们看到有些博士毕业生一毕业就拿到千万年薪,也有人找不到工作。差别往往就在于,你研究的问题是不是重要的问题。所以我觉得,选对赛道、做重要的事情,非常重要。
另外一点。在今天这个时代,学位本身已经没有那么重要了。如果一个本科生,甚至高中生,能够进入最前沿的研究机构,连续做三年前沿研究,我认为获得的成长很可能超过读一个博士。这个时代已经悄悄发生变化了。学位越来越只是一张纸。
真正重要的是,你会什么,你能创造什么。所以从现实角度来说,我建议年轻人选择正确的方向,同时保持更大的野心。
还有一点。这个时代变化太快了,你需要找到一群志同道合的人,哪怕只是一个线上的小群体也可以。因为很多问题如果自己琢磨两三天还没有进展,就不能再一个人闷头研究了。你需要交流,需要碰撞,需要一起学习。世界进步得太快,一个人很难跟上所有变化。
王仲远:非常感谢安老师。其实刚才几位嘉宾都提到了一点:这个世界变化得太快了。所以我觉得,年轻人也不必过度焦虑。因为在座的各位嘉宾,其实也都有同样的感受。也许若干年后,当我们回望今天,真正值得被记住的未必是某个模型的发布,或者某项技术的突破。
更重要的,可能是在智源大会这样的场合,我们能够聚在一起,讨论人工智能(885728)最底层、最根本的问题:讨论人类如何与AI共同重构未来。希望今天这场“重构世界”巅峰对话,能够成为通往智能未来(AIFU)的一个新起点。谢谢大家。
