跨越质变点:豆包2.1 Pro进入生产新周期

2026-06-24 13:12:21
分享
文章提及标的
半导体--
特斯拉--
新东方--
涂鸦智能--
智能家居--

6月23日,北京国家会议中心。火山引擎总裁谭待在2026夏季FORCE原动力大会上提出,“只有当模型能力跨越‘质变点’,才能真正满足企业与个人在生产场景中的使用需求。”

在他给出的坐标系里,全球范围内,第一个跨越质变点的视频生成模型是Seedance 2.0,Coding与Agent领域则是Claude Opus 4.6。而现在,这个阵营里多了一个新名字——豆包2.1 Pro。

什么是“质变点”?

谭待在大会上表示,在Coding维度,跨越质变点意味着模型不再停留在代码片段补全或者单文件生成。模型需要理解整个代码仓库,能完成从需求分析到架构设计、从代码生成到测试验证的完整链路,并且具备自测闭环的能力,即遇到报错自己能调试修复,而不是把问题抛回给开发者。

Agent能力的门槛同样被大幅拉高。简单任务执行早已不是目标,生产级的智能体必须能够在动态环境中自主规划路径。接口报错、数据缺失、指令模糊,这些真实场景里频繁出现的“意外”,不能成为卡住它的理由。它需要自己纠偏、重试,最终拿出可用的产物,而不是在中途无声崩溃。

他概括道,“模型不能只是一个好用的辅助工具,它得成为能够独立完成任务的生产力单元。”

截至2026年6月,豆包大模型日均Token调用量已突破180万亿,过去一年增长超10倍。在中国公有云MaaS市场,火山引擎以49.5%的市场份额位居第一。“中国公有云上每两个tokens消耗,就有一个由火山引擎提供。”谭待说。

值得一提的是,周末与工作日的调用量对比正在反转。谭待在大会后提到,Seedance 2.0发布之前,“周末的调用次数远大于工作日,说明更多是在UGC的环境大家休闲的时候玩。但是Seedance出来之后,工作日的负载和使用次数远大于周末的,这说明大家是在办公的时候用它,在生产的环境用它。”谭待说,“这就很充分说明了什么是生产力的跨越。”

豆包2.1 pro的三项关键突破

豆包2.1 Pro正是在这样的产业背景下推出的。

作为本次大会发布的主力模型,它在Coding、Agent、VLM三大核心方向实现能力跃升,多项评测表现优于Claude Opus 4.6,正式跨越生产级质变点。

Coding能力的提升是其中最硬核的部分。在Terminal Bench 2.1测试中,豆包2.1 Pro得分71.0,接近Claude-Opus-4.7的71.7,优于Gemini-3.1-Pro的70.7。在SciCode科学代码测试中,豆包2.1 Pro得分59.8,超过GPT-5.5的58.4。在NL2Repo-Bench测试中,豆包2.1 Pro得分47.0,超过GPT-5.5的45.1。

Agent能力的表现同样亮眼。在GDPVal评测中,豆包2.1 Pro得分87.9,超过GPT-5.5的84.9和Claude-Opus-4.7的82.7。在MCP-Atlas评测中,豆包2.1 Pro得分83.8,同样超过GPT-5.5和Claude-Opus-4.7。在多模态方面,豆包2.1 Pro在OSWorld、MobileWorld、MMMU-Pro等评测中也位居全球前列。

谭待在现场展示了一项芯片设计RTL测试——这是半导体(881121)行业最硬核的生产场景之一。豆包2.1 Pro围绕一个16×16 PE的Tiny NPU Tile,连续运行近18个小时,经历9轮迭代,不仅完成了代码编写,还跑通了仿真、测试和综合检查等完整工程流程。代码最终通过了手写数字识别验证。谭待表示,豆包2.1 Pro“可落地芯片RTL开发等真实工业代码迭代任务,字节内部已大规模落地AI Coding生产流程。”

另一个展示则更具画面感。团队依托豆包2.1 Pro搭建了一个3D虚拟城市场景,500余个智能Agent同步协作,完成上千轮工具调用,最终生成超过一百栋建筑。过程中,不同Agent需要协调各自的任务、处理中途出错、动态调整步骤。“几乎复现了一个小型数字施工队的运作方式。”

在开发者众测环节,豆包2.1 Pro同样获得了积极反馈。有内测企业评价称,豆包2.1 Pro是“四个模型里唯一从头到尾能正常用的,六种角色权限精准实现,后端编译通过启动正常”;在事实准确性测试中,“四个模型中唯一没有出现分组事实性幻觉的”;在Agent编排方面,评价是“最有创造力,产物完整、代码结构清晰、有错误处理”。

在豆包App和PC端,普通用户已经可以感知到这种变化。新上线的“办公任务”模式接入豆包2.1模型后,模型可以理解工作目标、自主拆解任务,并调用本地电脑、文档、表格、网页等工具持续执行完成任务。从“回答问题”到“专业办公”,这恰好是“质变点”最直观的体现。

价格方面,豆包2.1 Pro每百万Tokens输入价格为6元、输出价格为30元,缓存命中价格仅1.2元。火山引擎表示,其综合使用成本较Claude Opus 4.6降低近80%。面向高频调用场景的豆包2.1 Turbo,价格进一步降至Pro的一半。

谭待在大会后的媒体沟通中谈到:“我们看模型的价格不能只看价格,要结合它的价值来看。因为模型能做更多的事情,它创造的价值更大。单Token的价格是在上升,但单Token创造的价值上升得更快。”

值得一提的是,火山引擎还上线了Doubao-Seed-Evolving版本,面向Coding与Agent场景,将以每月2至4次的频率快速迭代,这意味着模型的进化速度正在从“季度级”压缩到“月度级”。

谁在用、怎么用?

豆包2.1 Pro的落地已经在多个行业展开。

在智能汽车领域,特斯拉(TSLA)基于豆包大模型打造的新一代智能语音车控已覆盖全系车型,接入端到端实时语音模型,实现更低延时、更自然的人车语音交互体验。

半导体(881121)行业,火山引擎为安谋科技(ARM China)打造了存算分离的EDA混合云方案:核心IP和设计数据保留本地,云上资源专线接入、统一调度。即使面对数万核的临时计算资源需求,天级就能完成业务上线。安谋科技也在积极通过Trae、ArkClaw、HiAgent等智能体产品,提升EDA研发全流程效率。

金融行业同样在加速落地。Wind在金融终端集成了豆包大模型,用于处理海量研报、公告等非结构化数据,实现自动摘要、关键逻辑提取和智能问答。新东方(EDU)基于豆包大模型打造“AI助教”Agent,覆盖口语练习、作文批改、深度解析、个性化学习反馈等各个环节。涂鸦智能(TUYA)将豆包大模型接入AIoT智能家居(885478)生态,已落地12000余个Agent,每天为全球用户提供超1.55亿次AI交互。

作为较早一批内测客户,WPS借助灵犀的Harness框架,将豆包2.1 Pro用在PPT生成、表格交付、文字编辑和办公内容整理等任务上。WPS方面的评价是:模型在概念解释、信息归纳和结构化梳理上表现突出,能够精准理解意图,把零散信息整理成层次清晰的成果。

字节跳动内部也已经大规模落地AI Coding生产流程。火山引擎还专门组建了FDE(Field Development Engineer)团队,提供AI陪跑服务。

谭待解释了FDE的定位:“FDE不是销售也不是售前,是有代码落地的能力,特别是AI代码落地的能力。”

他同时强调团队构成的多样性:“如果是来自生药行业的人做生物工程的,他肯定是对这个行业本身就有很强的Knowhow,做落地就很好。”目前FDE团队已覆盖汽车、医疗、教育、金融、半导体(881121)等多个行业。

当前,“万亿Tokens俱乐部”成员已超过200家,半年增长一倍,覆盖互联网、制造、金融、汽车等多个行业。火山方舟已服务超过110万企业和个人。

当被问及火山引擎如何守住49.5%的市场份额时,谭待说:“三年前我们决定把MaaS作为最重要的业务去推时,业界很多人还觉得卖Token是个赔钱生意。”在他看来,对未来的预判和战略的确定性,是火山保持竞争力很重要的一点。

“不过整个市场现在还非常非常早期,短期的输赢真的没那么重要。关键还是能不能用更好的AI能力,去服务更多的企业。这件事做好了,结果也不会差,市场本身还有十倍百倍的增长空间。”谭待说。

文/雷晨

免责声明:风险提示:本文内容仅供参考,不代表同花顺观点。同花顺各类信息服务基于人工智能算法,如有出入请以证监会指定上市公司信息披露平台为准。如有投资者据此操作,风险自担,同花顺对此不承担任何责任。
homeBack返回首页
不良信息举报与个人信息保护咨询专线:10100571违法和不良信息涉企侵权举报涉算法推荐举报专区涉青少年不良信息举报专区

浙江同花顺互联信息技术有限公司版权所有

网站备案号:浙ICP备18032105号
证券投资咨询服务提供:浙江同花顺云软件有限公司 (中国证监会核发证书编号:ZX0050)
AIME