Claude Opus 4.8 上线:提升 AI 编程可靠性,减少无依据结论

2026-05-29 15:30:45
来源:IT之家
分享
AIME

问财摘要

1、Anthropic推出新模型Claude Opus 4.8,主打更强的智能体编程、多领域推理和知识工作能力。相比Opus 4.7,更新幅度较小,主要提升编程、智能体、推理和知识工作等用户能感知的方面。 2、Opus 4.8更可靠,判断更敏锐,在复杂多步骤任务中能主动提问、识别自身错误,并提出异议。更愿意主动标出不确定性,减少缺乏依据的结论。 3、在支持用户自主性、按用户最佳利益行动等亲社会指标上创下新高,欺骗等失配行为的出现率低于Opus 4.7。 4、配套功能新增effort程度控制,用户可平衡更高质量与更快响应。 5、在SWE-Bench Pro上得到69.2%,超过GPT–5.5与Gemini 3.1 Pro。快速模式运行速度提升到2.5倍,模型成本降到此前模型的1/3。
免责声明 内容由AI生成

IT之家 5 月 29 日消息,Anthropic 今天(5 月 29 日)宣布推出旗舰新模型 Claude Opus 4.8,主打更强的智能体编程、多领域推理和知识工作能力。

官方表示,相比较 Opus 4.7 模型,本次 Opus 4.8 更新幅度较小,在保持价格不变的情况下,主要提升编程、智能体、推理和知识工作等用户能感知的方面。

能力层面,官方援引多家早期测试方反馈称,表示 Opus 4.8 “更可靠,判断也更敏锐”,在复杂多步骤任务中判断更稳,能主动提问、识别自身错误,并在计划不合理时提出异议。

官方评估显示,和前代相比,Opus 4.8 放任自己所写代码缺陷、却不加说明的概率低了约 4 倍,更愿意主动标出不确定性,减少缺乏依据的结论。

对齐表现方面,Opus 4.8 在支持用户自主性、按用户最佳利益行动等亲社会指标上创下新高。与此同时,欺骗等失配行为的出现率低于 Opus 4.7,并与 Claude Mythos Preview 接近。IT之家附上相关截图如下:

配套功能方面,claude.ai 新增 effort 程度控制,用户可平衡更高质量与更快响应。默认是 high 档,在编码任务中,token 消耗与 Opus 4.7 默认档接近,但效果更好;若选择 extra(在 Claude Code 中为 xhigh)或者 max 更高档位,模型会消耗更多 tokens 以换取更优结果。

基准测试方面,Anthropic 称 Opus 4.8 在 SWE-Bench Pro 上得到 69.2%,并在该测试和其他多项基准中超过 GPT–5.5 与 Gemini 3.1 Pro。但在终端编程基准上,GPT–5.5 仍然领先。

这次更新还带来性能和价格调整。Anthropic 表示,Opus 4.8 的快速模式运行速度提升到 2.5 倍,模型成本则降到此前模型的 1/3。

定价方面,常规模式维持每 100 万输入令牌 5 美元、每 100 万输出令牌 25 美元;快速模式为每 100 万输入令牌 10 美元、每 100 万输出令牌 50 美元。

免责声明:风险提示:本文内容仅供参考,不代表同花顺观点。同花顺各类信息服务基于人工智能算法,如有出入请以证监会指定上市公司信息披露平台为准。如有投资者据此操作,风险自担,同花顺对此不承担任何责任。
homeBack返回首页
不良信息举报与个人信息保护咨询专线:10100571违法和不良信息涉企侵权举报涉算法推荐举报专区涉青少年不良信息举报专区

浙江同花顺互联信息技术有限公司版权所有

网站备案号:浙ICP备18032105号-4
证券投资咨询服务提供:浙江同花顺云软件有限公司 (中国证监会核发证书编号:ZX0050)
AIME
举报举报
反馈反馈