Anthropic 釋出 Claude Opus 4.6——樹立推理新標杆

發生了什麼

Anthropic 正式釋出了 Claude Opus 4.6，它是 Claude 系列中最新、功能最強大的型號。該模型在多項評估中設定了新的最先進基準，包括 SWE-Bench Verified (72.3%)、HumanEval (96.8%) 和 GPQA Diamond (68.4%)。

Claude Opus 4.6 代表了推理能力的重大飛躍。該模型在以下方面表現出特別強大的效能：

代理編碼任務：Opus 4.6 可以自主導航複雜的程式碼庫，跨多個檔案編寫和除錯程式碼，並執行多步驟開發工作流程
擴充套件思維：新的協商對齊系統允許模型在生成輸出之前逐步推理複雜的問題
長上下文理解：透過 200K 上下文視窗，模型可以在極長的文件中保持連貫性和準確性

## 為什麼它很重要

Opus 4.6 的釋出標誌著人工智慧行業的一個轉折點，原因如下：

### 對於開發者 Claude Opus 4.6 為 Claude Code 提供支援，這是 Anthropic 的代理編碼工具，可直接在終端中執行。開發人員報告，使用 Claude Code 執行復雜的重構、錯誤修復和功能開發任務時，生產力提高了 3-5 倍。

對於企業

該模型透過其憲法人工智慧框架包括增強的安全功能。企業可以放心地部署 Opus 4.6，因為它會遵循組織策略並拒絕有害請求，同時對合法用例保持最大程度的幫助。

對於行業

Opus 4.6 證明了擴充套件模型功能不需要犧牲安全性。 Anthropic 將模型訓練為有幫助、無害且誠實的方法，繼續產生在能力和一致性基準上領先的模型。

主要基準

基準	克勞德作品 4.6	GPT-5 渦輪	雙子座2.5 Pro
SWE-Bench 驗證	72.3%	68.1%	65.7%
人類評估	96.8%	95.2%	93.4%
GPQA 鑽石	68.4%	64.9%	66.1%
數學	94.1%	93.7%	92.8%

## 下一步是什麼

Anthropic 表示 Claude Opus 4.6 可立即透過 API 和 Claude.ai 獲取。該公司還推出：

工具使用改進：透過並行工具執行增強函式呼叫
計算機使用：更新了基於 GUI 的自動化的計算機使用功能
MCP 整合：本機模型上下文協議支援連線到外部資料來源

該模型的定價為每百萬輸入代幣 15 美元，每百萬輸出代幣 75 美元，將其定位為需要最大功能的任務的優質產品。

總結

Claude Opus 4.6 代表了人工智慧能力的顯著進步，特別是在軟體工程和複雜推理任務方面。憑藉最先進的基準效能和改進的代理功能，它為人工智慧模型可以自主完成的任務設定了新的標準。

Anthropic 釋出 Claude Opus 4.6——樹立推理新標杆

發生了什麼

對於企業

對於行業

主要基準

總結

相關文章

OpenAI 推出具有原生多模態生成功能的 GPT-5 Turbo

谷歌 DeepMind 推出具有 2M 上下文視窗的 Gemini 2.5 Pro

AI 編碼助手入門：初學者指南

掌握AI前沿動態