资讯

Anthropic 发布 Claude Opus 4.6——树立推理新标杆

Claude Opus 4.6 在 SWE-Bench、HumanEval 和 GPQA 上达到了最先进的水平,在代理编码和长上下文任务方面有了显着改进。

AIcloud2026-02-085 分钟阅读

发生了什么

Anthropic 正式发布了 Claude Opus 4.6,它是 Claude 系列中最新、功能最强大的型号。 该模型在多项评估中设定了新的最先进基准,包括 SWE-Bench Verified (72.3%)、HumanEval (96.8%) 和 GPQA Diamond (68.4%)。

Claude Opus 4.6 代表了推理能力的重大飞跃。 该模型在以下方面表现出特别强大的性能:

  • 代理编码任务:Opus 4.6 可以自主导航复杂的代码库,跨多个文件编写和调试代码,并执行多步骤开发工作流程
  • 扩展思维:新的协商对齐系统允许模型在生成输出之前逐步推理复杂的问题
  • 长上下文理解:通过 200K 上下文窗口,模型可以在极长的文档中保持连贯性和准确性

## 为什么它很重要

Opus 4.6 的发布标志着人工智能行业的一个转折点,原因如下:

### 对于开发者 Claude Opus 4.6 为 Claude Code 提供支持,这是 Anthropic 的代理编码工具,可直接在终端中运行。 开发人员报告,使用 Claude Code 执行复杂的重构、错误修复和功能开发任务时,生产力提高了 3-5 倍。

对于企业

该模型通过其宪法人工智能框架包括增强的安全功能。 企业可以放心地部署 Opus 4.6,因为它会遵循组织策略并拒绝有害请求,同时对合法用例保持最大程度的帮助。

对于行业

Opus 4.6 证明了扩展模型功能不需要牺牲安全性。 Anthropic 将模型训练为有帮助、无害且诚实的方法,继续产生在能力和一致性基准上领先的模型。

主要基准

基准克劳德作品 4.6GPT-5 涡轮双子座2.5 Pro
SWE-Bench 验证72.3%68.1%65.7%
人类评估96.8%95.2%93.4%
GPQA 钻石68.4%64.9%66.1%
数学94.1%93.7%92.8%

## 下一步是什么

Anthropic 表示 Claude Opus 4.6 可立即通过 API 和 Claude.ai 获取。 该公司还推出:

  • 工具使用改进:通过并行工具执行增强函数调用
  • 计算机使用:更新了基于 GUI 的自动化的计算机使用功能
  • MCP 集成:本机模型上下文协议支持连接到外部数据源

该模型的定价为每百万输入代币 15 美元,每百万输出代币 75 美元,将其定位为需要最大功能的任务的优质产品。

总结

Claude Opus 4.6 代表了人工智能能力的显着进步,特别是在软件工程和复杂推理任务方面。 凭借最先进的基准性能和改进的代理功能,它为人工智能模型可以自主完成的任务设定了新的标准。

AnthropicClaudeLLMReasoning

相关文章

掌握AI前沿动态

每周精选AI教程、工具推荐和行业资讯,直达您的邮箱。

加入 12,000+ 位AI开发者的行列