对话星海图CEO高继扬：具身智能的“GPT时刻”或许不会来得轰轰烈烈

具身智能的“GPT时刻”什么时候来？3年、5年、还是更久？

近日，在星海图全球开发者大会上，星海图CEO高继扬抛出了一个新观点。他认为，这个时刻可能不会像大语言模型那样明显。“大语言模型是每个人在手机上就能感受到的东西，而具身智能可能在一个地方落地了大家都不知道。”高继扬认为，具身智能的落地过程是随着能力边界逐个场景解锁的。“可能若干年之后，我们回头一看，原来机器人已经无处不在，但我们已经记不得是从哪一年开始。”

具身智能的长期壁垒来自于构建物理世界的数据闭环，为了构建这个闭环，星海图践行着整机+智能的路径。6月16日，星海图发布新一代VLA基础模型G0.5并宣布开源，公布世界模型Fast-WAM与全身控制基础模型，自研双足人形机器人（886069）Kengo（行客）现场首秀。

如何平衡整机与模型的研发投入？如何看待行业内的热门现象，财经网科技等与高继扬聊了聊。以下为对话原文（在不改变原意的基础上略有删改）：

“VLA和世界模型的数采方式并不对立”

Q:星海图有采集围绕VLA和世界模型的数据，这两个模型数据是否通用？

A：这个问题特别好也特别重要，今年上半年有一些声音把WIM（世界模型）和VLA给对立起来了，其实我们一直不认为这两个路线是对立的，它们是同源共生，而且未来会越来越走向融合。

为什么这么说？训练VLA也好、训练WIM也好，它的底层逻辑是什么？就是把一些多模态数据变成Token，然后通过多层的Transformer，不同的是，最后的监督方式、训练方式不一样，可能架构会有些调整。从这种角度来说，所有数据都是可以混用的，今天我们提到的human centric data和Robot（LAWR） centric data这两种，Robot（LAWR） centric就是我们的遥操作数据，human centric包括UMI数据、Ego数据等，都是可以混用的。

Q:采集数据时会考虑到哪些方面？

A:我们采数据本质上是为了能够铺满四个维度，分别是动作纬度、对象纬度、场景纬度和本体纬度，归根结底，就是为了把不同类型的数据全部采集到。

不论是UMI数据或是Ego数据，采集的原因是什么？每个人高矮胖瘦都不同，这就需要不同类型的本体，可以更快把这个问题解决掉。当然，最终这个模型还是部署到机器人本体上，所以机器人本体形态数据也是需要的，大概是这么个逻辑。

Q：在预训练阶段会采用少量的仿真数据，大部分用真机数据，这种成本上了压力会不会在？

A：坦率地讲，现在的预训练全部都是真实数据，基本没用仿真数据，这是现在的一个现状，原因就在于真实数据可以更快地帮助我们铺满刚才说的那四个空间，到100万小时之前，对于我们公司而言，看不到用仿真数据的必要性。

再聊聊成本问题，我之前一直谈一个观点，不应该只关注数据单项成本，应该关注智能总成本，采数据是为了搞智能，得回到我们的目的。而搞智能这件事，总成本分三部分——数据成本、算力成本、还有研发团队工程师成本，先去掉第三部分，只讲数据成本和算力成本，我们的实践至少是1：10，即1块钱的数据至少10块钱去做训练才能训明白。如果你的数据是不那么work的数据，那产生的模型一定也没什么用。

第二层逻辑，单向的看数据成本，数据成本到底是多少钱？我们实践下来Human centric data是50-100元人民币一小时，根据地区差异还有波动和下浮的空间。Robot（LAWR） centric data遥操作数据，算上人工和各种机器折旧大概是250块钱一小时左右。现在市面上，比如Robot（LAWR） centric data遥操作数据300-350元人民币都有，有10%-20%的毛利，看他们自己的运营能力。今天做大语言模型训练，每年算力支出是几亿美金量级，相比于这几亿美金，这一两亿必须得花，而且太划算了。

Q:现在我们经常可以看到机器人叠衣服、分拣抓取物品，但是跟人相比还是很慢，对于这种类型的数据采集有没有规划，这种基础作业能力相应会达到什么样的程度？

A：您刚才提到一个很重要的点，速度问题，如果您再仔细观察，会发现叠衣服速度比分拣速度要快，很多时候我们看快慢不是一个绝对的事，我们得看迭代。三个月之前叠衣服速度跟分拣一样慢，经过三个月迭代，经济调数据、模型训练上调整，变快很多。所以看成长速度，我们认为现在具身基模成长速度要快于一个婴幼儿学习技能成长速度，所以从这个角度来说我们并不认为这事进展的慢。

但是从技术角度来看，数据量的上升，并不直接带来模型直行速度的提升，模型直行速度与后训练关系很大，采集的这些数据解决的是预训练问题，预训练解决什么问题？是解决泛化性问题，我要去到一个新场景，接受一个新任务，能不能不用新增数据就能做，哪怕做的很慢，但我就能做，我就理解这件事了，这是预训练解决的问题。

“有限游戏与无限游戏”

Q：Kengo是星海图第一款双足人形机器人（886069），它的关节模组方面是否有一些亮点和特别之处？你对它的期待是什么？

A：关节模组从具体设计来说有两个特点，一个是整机通信全部是EC通信，行业里面有Can通信、485通信，我们是整机EC通信，好处是同步性非常好，EC通信是所有技术方案里通信最好的，但研发难度高一些。在整体性能方面，我觉得我们这个模组是行业最领先的第一梯队的性能状态。

整体来说，我自己认为，整机和供应链是一个有限游戏（881275），智能和应用才是无限游戏（881275）。这里面有意思的点是，如果不玩好前面的有限游戏（881275），是没机会玩好后面无限游戏（881275）的，我们花很多时间和精力去做自己的整机和供应链，目的还是为了做后面的智能和应用，这是真正的目的。

Q:G0.5模型大概会在什么时间节点会应用到Kengo双足上？

A：明白，如果严格意义上探讨技术，G0.5模型架构的设计其实是给双臂智能或者轮式双臂这样的品类去准备的，所以会普遍应用在R1 lite（LITE）、R1 Pro，包括新发的单臂R1Z。基于Kengo主力去发展的模型，比如本能智能模型。

再稍微挖深一些，无论是VLA还是世界模型也好，都是以模仿学习为主、强化学习为辅，整个行业过去几年里面已经呈现出这样的趋势，先模仿再强化。两条路径——本能智能和作业智能最终会有一个融合，到那个融合阶段才是把G0.5一系列能力带到Kengo双足产品之上（的时候），所以我觉得会有一个过程。

Q：对于整机和数据，星海图在资源分配上是怎么规划的？

A:战略上是整机+智能，最终目标是释放生产力量，物理世界生产力只有模型是不够的，整机也得足够好、足够的可靠性、足够的一致性、足够的负载能力。对于我们最终产生规模化的销售和足够高的毛利率来说，整机和智能缺一不可，在这两件事上，我觉得很难讲谁就比谁一定重要，因为对于最终商业成功都很重要。

有三句话可以概括我们公司，首先我们还是智能大脑企业，然后我们很重视硬件，最后我们的整机能力很好很强，是这么一个辩证关系。

从研发投入上来看，显然整机研发投入是远远低于智能的研发投入，我觉得会有一个数量级的差距吧。

“不追求整机销售阶段的绝对第一”

Q:星海图未来主要聚焦的市场是不是在工业领域？在您看来工业领域市场空间会有多大？

A:首先我觉得我们公司不会局限在一个子市场里面，生产力无处不在，我们的产品也会无处不在。

落地的过程是一个循序渐进的过程，第一步，我们现在是厘米级别精度，厘米级别精度能应用到哪里？是工业里面的上材料、搬运，物流里面的分拣、共包、分包等环节。随着操作精度的上升，制作业里面更多场景，比如装配、线数、插拔、检测等都会打开，进阶到毫米级别的精度。

再往未来看，制造业只是一个开始，农业、建筑业都是未来具身智能可以去改变的行业，未来真正的潜力是赋能千行百业，而不是简简单单的做一个表演，或者做制造业里面某一个具体工作环节，这都不是它的真正未来。

Q:星海图在现阶段会追求某个领域的第一吗？比如整机销售量。

A:我们在第一个阶段不追求绝对的第一，因为这个阶段的第一是没有意义的，这个行业底层是人工智能（885728）驱动的，你在整机销售阶段追求一个第一、第二意义不大，当然我们需要扩大销售规模，今年我们销售额也会比去年有数倍增长，但我们追求的增长是按照自己的节奏去成长，不会恶性竞争，在整机销售的大阶段里面冲一个绝对的量，更多是负债，而不是资产。

Q：什么时候追求绝对第一或者大规模的扩张？

A:第二个阶段，智能驱动的商业化开始的时候。

Q：目前有些企业已经有个十亿级别的营收额，是否意味着整个市场已经存在身位差了？

A：在现阶段，成熟市场只有两个，一个是开发者或者科教研类的，第二类是表演娱乐这一类的，您提到的十亿级别的营收额的公司是在展演娱乐市场里面遥遥领先，这是事实。

而到了第二个阶段，商业模式应该是是面向生产力场景的方案订阅。在生产力场景中，现在没有任何一家企业能真正有效地作业，所以不存在身位差这件事，真正的星辰大海还没有展开。

Q:现如今具身智能行业出现融资热的情况，大家可能会提到泡沫问题，您怎么看待这种现象？

A：任何行业发展都伴随着泡沫，或者任何新事物发现都是泡沫，是人们对一个事物发展无法做出精准预测，所以有时候给出了过高的阶段性估计，然后这个估计大于结果的时候就是大家认为的泡沫。

赢家往往在泡沫膨胀阶段和破灭阶段都可以获益。对于我们公司来说，现在还在泡沫膨胀阶段或者一个已经比较顶峰的阶段，我们通过这个阶段获取优质资源，大家的注意力、大家投入进来的资金其实都是很好的资源，我们希望能够和大家一起去把这部分优质资源整合在一起，把这事给做起来。

同时，我们也时刻关注着资本市场什么时候要对这个事要开始验成果了。对星海图来说，我们公司有一个价值观——“务实创新”，为什么创新之前一定加务实？解决问题的创新才是创新，天马行空对企业来说没什么价值、没什么意义，保证所有资源围绕着智能主线（本能智能、作业智能、进化智能）去投入，其他小算法不投入，留给学术界去投入。在整机上聚焦这几类整机，同时和合作伙伴自研、共研，这就是我们的研发主线。

此外，在商业化上也坚定地按照这个规律去做，其实很多时候过度追求不符合这个阶段的商业化，不是资产，而是负债。我觉得做很多事情都是这样，没什么捷径，没什么巧思路，我们知道自己不知道什么，也知道自己知道什么，知行合一，正面推进，一步一个脚印往前去走。