6月23日,北京国家会议中心。火山引擎总裁谭待在2026夏季FORCE原动力大会上提出,“只有当模型能力跨越‘质变点’,才能真正满足企业与个人在生产场景中的使用需求。”
在他给出的坐标系里,全球范围内,第一个跨越质变点的视频生成模型是Seedance 2.0,Coding与Agent领域则是Claude Opus 4.6。而现在,这个阵营里多了一个新名字——豆包2.1 Pro。
什么是“质变点”?
谭待在大会上表示,在Coding维度,跨越质变点意味着模型不再停留在代码片段补全或者单文件生成。模型需要理解整个代码仓库,能完成从需求分析到架构设计、从代码生成到测试验证的完整链路,并且具备自测闭环的能力,即遇到报错自己能调试修复,而不是把问题抛回给开发者。
Agent能力的门槛同样被大幅拉高。简单任务执行早已不是目标,生产级的智能体必须能够在动态环境中自主规划路径。接口报错、数据缺失、指令模糊,这些真实场景里频繁出现的“意外”,不能成为卡住它的理由。它需要自己纠偏、重试,最终拿出可用的产物,而不是在中途无声崩溃。
他概括道,“模型不能只是一个好用的辅助工具,它得成为能够独立完成任务的生产力单元。”
截至2026年6月,豆包大模型日均Token调用量已突破180万亿,过去一年增长超10倍。在中国公有云MaaS市场,火山引擎以49.5%的市场份额位居第一。“中国公有云上每两个tokens消耗,就有一个由火山引擎提供。”谭待说。
值得一提的是,周末与工作日的调用量对比正在反转。谭待在大会后提到,Seedance 2.0发布之前,“周末的调用次数远大于工作日,说明更多是在UGC的环境大家休闲的时候玩。但是Seedance出来之后,工作日的负载和使用次数远大于周末的,这说明大家是在办公的时候用它,在生产的环境用它。”谭待说,“这就很充分说明了什么是生产力的跨越。”
豆包2.1 pro的三项关键突破
豆包2.1 Pro正是在这样的产业背景下推出的。
作为本次大会发布的主力模型,它在Coding、Agent、VLM三大核心方向实现能力跃升,多项评测表现优于Claude Opus 4.6,正式跨越生产级质变点。
Coding能力的提升是其中最硬核的部分。在Terminal Bench 2.1测试中,豆包2.1 Pro得分71.0,接近Claude-Opus-4.7的71.7,优于Gemini-3.1-Pro的70.7。在SciCode科学代码测试中,豆包2.1 Pro得分59.8,超过GPT-5.5的58.4。在NL2Repo-Bench测试中,豆包2.1 Pro得分47.0,超过GPT-5.5的45.1。
Agent能力的表现同样亮眼。在GDPVal评测中,豆包2.1 Pro得分87.9,超过GPT-5.5的84.9和Claude-Opus-4.7的82.7。在MCP-Atlas评测中,豆包2.1 Pro得分83.8,同样超过GPT-5.5和Claude-Opus-4.7。在多模态方面,豆包2.1 Pro在OSWorld、MobileWorld、MMMU-Pro等评测中也位居全球前列。
谭待在现场展示了一项芯片设计RTL测试——这是半导体(881121)行业最硬核的生产场景之一。豆包2.1 Pro围绕一个16×16 PE的Tiny NPU Tile,连续运行近18个小时,经历9轮迭代,不仅完成了代码编写,还跑通了仿真、测试和综合检查等完整工程流程。代码最终通过了手写数字识别验证。谭待表示,豆包2.1 Pro“可落地芯片RTL开发等真实工业代码迭代任务,字节内部已大规模落地AI Coding生产流程。”
另一个展示则更具画面感。团队依托豆包2.1 Pro搭建了一个3D虚拟城市场景,500余个智能Agent同步协作,完成上千轮工具调用,最终生成超过一百栋建筑。过程中,不同Agent需要协调各自的任务、处理中途出错、动态调整步骤。“几乎复现了一个小型数字施工队的运作方式。”
在开发者众测环节,豆包2.1 Pro同样获得了积极反馈。有内测企业评价称,豆包2.1 Pro是“四个模型里唯一从头到尾能正常用的,六种角色权限精准实现,后端编译通过启动正常”;在事实准确性测试中,“四个模型中唯一没有出现分组事实性幻觉的”;在Agent编排方面,评价是“最有创造力,产物完整、代码结构清晰、有错误处理”。
在豆包App和PC端,普通用户已经可以感知到这种变化。新上线的“办公任务”模式接入豆包2.1模型后,模型可以理解工作目标、自主拆解任务,并调用本地电脑、文档、表格、网页等工具持续执行完成任务。从“回答问题”到“专业办公”,这恰好是“质变点”最直观的体现。
价格方面,豆包2.1 Pro每百万Tokens输入价格为6元、输出价格为30元,缓存命中价格仅1.2元。火山引擎表示,其综合使用成本较Claude Opus 4.6降低近80%。面向高频调用场景的豆包2.1 Turbo,价格进一步降至Pro的一半。
谭待在大会后的媒体沟通中谈到:“我们看模型的价格不能只看价格,要结合它的价值来看。因为模型能做更多的事情,它创造的价值更大。单Token的价格是在上升,但单Token创造的价值上升得更快。”
值得一提的是,火山引擎还上线了Doubao-Seed-Evolving版本,面向Coding与Agent场景,将以每月2至4次的频率快速迭代,这意味着模型的进化速度正在从“季度级”压缩到“月度级”。
谁在用、怎么用?
豆包2.1 Pro的落地已经在多个行业展开。
在智能汽车领域,特斯拉(TSLA)基于豆包大模型打造的新一代智能语音车控已覆盖全系车型,接入端到端实时语音模型,实现更低延时、更自然的人车语音交互体验。
在半导体(881121)行业,火山引擎为安谋科技(ARM China)打造了存算分离的EDA混合云方案:核心IP和设计数据保留本地,云上资源专线接入、统一调度。即使面对数万核的临时计算资源需求,天级就能完成业务上线。安谋科技也在积极通过Trae、ArkClaw、HiAgent等智能体产品,提升EDA研发全流程效率。
金融行业同样在加速落地。Wind在金融终端集成了豆包大模型,用于处理海量研报、公告等非结构化数据,实现自动摘要、关键逻辑提取和智能问答。新东方(EDU)基于豆包大模型打造“AI助教”Agent,覆盖口语练习、作文批改、深度解析、个性化学习反馈等各个环节。涂鸦智能(TUYA)将豆包大模型接入AIoT智能家居(885478)生态,已落地12000余个Agent,每天为全球用户提供超1.55亿次AI交互。
作为较早一批内测客户,WPS借助灵犀的Harness框架,将豆包2.1 Pro用在PPT生成、表格交付、文字编辑和办公内容整理等任务上。WPS方面的评价是:模型在概念解释、信息归纳和结构化梳理上表现突出,能够精准理解意图,把零散信息整理成层次清晰的成果。
字节跳动内部也已经大规模落地AI Coding生产流程。火山引擎还专门组建了FDE(Field Development Engineer)团队,提供AI陪跑服务。
谭待解释了FDE的定位:“FDE不是销售也不是售前,是有代码落地的能力,特别是AI代码落地的能力。”
他同时强调团队构成的多样性:“如果是来自生药行业的人做生物工程的,他肯定是对这个行业本身就有很强的Knowhow,做落地就很好。”目前FDE团队已覆盖汽车、医疗、教育、金融、半导体(881121)等多个行业。
当前,“万亿Tokens俱乐部”成员已超过200家,半年增长一倍,覆盖互联网、制造、金融、汽车等多个行业。火山方舟已服务超过110万企业和个人。
当被问及火山引擎如何守住49.5%的市场份额时,谭待说:“三年前我们决定把MaaS作为最重要的业务去推时,业界很多人还觉得卖Token是个赔钱生意。”在他看来,对未来的预判和战略的确定性,是火山保持竞争力很重要的一点。
“不过整个市场现在还非常非常早期,短期的输赢真的没那么重要。关键还是能不能用更好的AI能力,去服务更多的企业。这件事做好了,结果也不会差,市场本身还有十倍百倍的增长空间。”谭待说。
