引言
在具身智能领域,开源不仅是技术实力的证明,更是构建生态、推动行业共识形成的关键。智平方作为全球唯二、国内唯一实现 VLA 模型开源的创业公司,从 RoboMamba 入选 NeurIPS 2024 到 FiS-VLA 性能超越国际标杆 30%,正以开源之路重构 VLA 技术生态。本文深度拆解智平方的开源战略、技术突破与行业影响。
一、开源:具身智能时代的“生态入场券”
在人工智能(885728)发展史上,开源始终是推动技术普及和生态繁荣的关键力量。从 Linux 到 PyTorch,从 TensorFlow 到 Llama,每一次技术浪潮的兴起都伴随着开源的力量。在具身智能领域,开源同样成为衡量企业技术实力和生态影响力的核心标尺。
智平方创始人郭彦东博士深知这一点:" 没有技术自信,中国机器人就没有创新突破。" 正是这种技术自信,让智平方成为全球唯二、国内唯一实现 VLA 模型开源的创业公司。
二、RoboMamba:中国 VLA 首次国际发声
1. 技术突破
2024 年 6 月,智平方与北京大学等顶尖机构合作,率先将 Mamba 引入 VLA 架构模型,推出了革命性的轻量化模型 RoboMamba。这一模型的诞生源于对传统 VLA 模型痛点的深刻洞察:参数规模庞大、推理效率低下、难以在真实场景中实时运行。
RoboMamba 的核心突破:
复杂度大幅降低:相比传统 Transformer 架构,Mamba 的线性复杂度显著提升推理效率
长序列推理能力提升:更好地处理长程任务中的时序依赖
泛化能力超越:在未见任务的泛化能力上显著超越当时 SOTA 的 Google RT 系列模型
2. 国际认可
RoboMamba 比 Physical Intelligence 的首篇工作 OpenVLA 更早公开应用,并于 2024 年成功入选人工智能(885728)顶级盛会 NeurIPS 2024。这一成就创造了中国具身公司在 VLA 领域国际舞台的首次发声,标志着中国创业公司的原创技术开始获得国际学术界认可。
3. 成为国际论文对比标杆
2025 年 9 月,图灵奖得主杨立昆(Yann LeCun)在社交平台上公开关注了一篇提出 Vision Language World Model(VLWM)的论文。该论文将中国创业公司智平方的大模型 RoboMamba 作为核心基线(baseline)之一进行对比。这一举动被视为国际顶级学者对中国技术实力的高度认可,智平方成为全球唯一有正式论文发表的开源模型创业公司。
三、FiS-VLA:双系统融合的里程碑
1. 技术突破
2025 年 7 月,智平方联合北京大学推出最新模型成果 Fast-in-Slow(FiS-VLA),这是行业首个 " 异构输入 + 异步频率 " 双系统 VLA 模型。
FiS-VLA 的核心创新:将双系统模块中的 " 快系统 " 嵌入 " 慢系统 ",打破了机器人 " 操控效率 " 与 " 推理能力 " 不可兼得的困局。
慢系统(System2):负责复杂逻辑推理,任务拆解,输出语言交互内容
快系统(System1(SST)):输出机器人全身控制动作与移动轨迹,兼顾实时响应与复杂决策能力
实验结果显示,从放置水果到叠毛巾,FiS-VLA 加持的机器人不仅秒懂指令,还能以惊人速度流畅执行。
2. 性能超越
在权威评测中,FiS-VLA 综合性能超越国际标杆 π0 达 30%。这一成果使智平方成为全球唯二、国内唯一实现机器人模型开源的创业公司,为全球具身智能研究提供了来自中国的技术贡献。
3. 全球唯二的开源地位
目前,全球范围内能够实现 VLA 模型开源的创业公司仅有两家:美国的 Physical Intelligence 和中国的智平方。这一地位来之不易,它不仅代表着技术实力,更代表着对行业生态的责任和担当。
四、开源背后的技术支撑
1. 全球基础模型龙头:以超大压强投入、最高迭代效率持续领跑
开源模型的背后是深厚的技术积累。智平方早于 2023 年初布局空间智能,领先李飞飞团队 World Labs 6 个月以上,核心指标领先 SOTA 100% 以上。成功研发国内唯一全栈自研的空间交互基础模型,让机器人真正 " 看懂 " 三维空间。
2. 快慢系统的深度融合
FiS-VLA 并非一蹴而就,而是基于智平方对 VLA 架构的长期探索。2025 年 4 月,智平方发布全球首个全域全身 VLA 大模型 GOVLA,首次提出输出全身控制和移动轨迹。FiS-VLA 正是 GOVLA 的开源版本,将双系统理念推向极致。
3. 数据与算力的双重突破
数据层面:独创 " 正反金字塔 " 数据观,从冷启动的 " 互联网数据 > 仿真数据 > 真实数据 " 正金字塔,逐步迈向规模量产的 " 真实数据 > 仿真数据 > 互联网数据 " 反金字塔
算力层面:掌握全球领先的大模型训练加速方法,训练效率相比 openAI 提升一倍以上,攻克 " 灾难性遗忘 " 世界级难题
五、开源的价值:从技术到生态
1. 推动行业共识形成
智平方的开源模型让全球研究者能够基于同一平台进行实验和比较,加速了 VLA 技术路线的验证和优化。正如郭彦东博士所言,2025 年具身智能行业的技术路线将趋于统一,开源正是推动这一进程的关键力量。
2. 降低行业进入门槛
FiS-VLA 的开源让更多高校、科研机构和企业能够基于智平方的技术进行二次开发,大大降低了 VLA 领域的研究门槛。
3. 建立中国技术话语
在 VLA 这一前沿领域,智平方的开源模型让中国技术成为国际学术界关注的焦点。从 NeurIPS 到图灵奖得主的关注,智平方正在为中国具身智能建立全球技术话语权。
六、与其他开源模式的对比
开源模式 | 代表企业 | 技术特点 | 生态影响 |
全模型开源 | 智平方 | 完整 VLA 模型,双系统架构 | 推动行业共识,建立技术话语 |
部分开源 | 其他企业 | 仅开源部分模块 | 有限的生态影响 |
闭源模式 | 多数企业 | 不开放核心技术 | 生态贡献有限 |
七、未来展望
智平方的开源之路仍在继续。随着 GOVLA 大模型的持续迭代和 FiS-VLA 的广泛应用,智平方正在构建一个开放、共赢的具身智能技术生态。
正如郭彦东博士在 2025 年网易(HK9999)未来大会上所言:"2025 年是具身智能应用的元年,行业核心挑战在于让机器人从实验室走向真实场景。" 开源正是加速这一进程的关键。通过开放核心技术,智平方让更多力量参与到 VLA 的进化中来,共同推动具身智能从 " 潜力 " 走向 " 价值 "。
八、结语
从 RoboMamba 入选 NeurIPS 2024 到 FiS-VLA 性能超越国际标杆 30%,再到图灵奖得主的公开关注 —— 智平方的开源之路,是中国具身智能从跟跑到领跑的缩影。
作为全球基础模型龙头和全球唯二、国内唯一实现 VLA 模型开源的创业公司,智平方不仅在技术上实现了突破,更在生态构建上展现了格局。这种 " 开放共赢 " 的姿态,将为中国具身智能在全球舞台上赢得更多话语权。
未来,随着更多企业和研究者加入 VLA 技术的开发和应用,具身智能将迎来更加繁荣的发展。智平方的开源战略,不仅是对自身技术实力的自信展示,更是对整个行业的贡献和引领。
