发生了什么
Anthropic 正式发布了 Claude Opus 4.6,它是 Claude 系列中最新、功能最强大的型号。 该模型在多项评估中设定了新的最先进基准,包括 SWE-Bench Verified (72.3%)、HumanEval (96.8%) 和 GPQA Diamond (68.4%)。
Claude Opus 4.6 代表了推理能力的重大飞跃。 该模型在以下方面表现出特别强大的性能:
- 代理编码任务:Opus 4.6 可以自主导航复杂的代码库,跨多个文件编写和调试代码,并执行多步骤开发工作流程
- 扩展思维:新的协商对齐系统允许模型在生成输出之前逐步推理复杂的问题
- 长上下文理解:通过 200K 上下文窗口,模型可以在极长的文档中保持连贯性和准确性
## 为什么它很重要
Opus 4.6 的发布标志着人工智能行业的一个转折点,原因如下:
### 对于开发者 Claude Opus 4.6 为 Claude Code 提供支持,这是 Anthropic 的代理编码工具,可直接在终端中运行。 开发人员报告,使用 Claude Code 执行复杂的重构、错误修复和功能开发任务时,生产力提高了 3-5 倍。
对于企业
该模型通过其宪法人工智能框架包括增强的安全功能。 企业可以放心地部署 Opus 4.6,因为它会遵循组织策略并拒绝有害请求,同时对合法用例保持最大程度的帮助。
对于行业
Opus 4.6 证明了扩展模型功能不需要牺牲安全性。 Anthropic 将模型训练为有帮助、无害且诚实的方法,继续产生在能力和一致性基准上领先的模型。
主要基准
| 基准 | 克劳德作品 4.6 | GPT-5 涡轮 | 双子座2.5 Pro |
|---|---|---|---|
| SWE-Bench 验证 | 72.3% | 68.1% | 65.7% |
| 人类评估 | 96.8% | 95.2% | 93.4% |
| GPQA 钻石 | 68.4% | 64.9% | 66.1% |
| 数学 | 94.1% | 93.7% | 92.8% |
## 下一步是什么
Anthropic 表示 Claude Opus 4.6 可立即通过 API 和 Claude.ai 获取。 该公司还推出:
- 工具使用改进:通过并行工具执行增强函数调用
- 计算机使用:更新了基于 GUI 的自动化的计算机使用功能
- MCP 集成:本机模型上下文协议支持连接到外部数据源
该模型的定价为每百万输入代币 15 美元,每百万输出代币 75 美元,将其定位为需要最大功能的任务的优质产品。
总结
Claude Opus 4.6 代表了人工智能能力的显着进步,特别是在软件工程和复杂推理任务方面。 凭借最先进的基准性能和改进的代理功能,它为人工智能模型可以自主完成的任务设定了新的标准。