發生了什麼
Anthropic 正式釋出了 Claude Opus 4.6,它是 Claude 系列中最新、功能最強大的型號。 該模型在多項評估中設定了新的最先進基準,包括 SWE-Bench Verified (72.3%)、HumanEval (96.8%) 和 GPQA Diamond (68.4%)。
Claude Opus 4.6 代表了推理能力的重大飛躍。 該模型在以下方面表現出特別強大的效能:
- 代理編碼任務:Opus 4.6 可以自主導航複雜的程式碼庫,跨多個檔案編寫和除錯程式碼,並執行多步驟開發工作流程
- 擴充套件思維:新的協商對齊系統允許模型在生成輸出之前逐步推理複雜的問題
- 長上下文理解:透過 200K 上下文視窗,模型可以在極長的文件中保持連貫性和準確性
## 為什麼它很重要
Opus 4.6 的釋出標誌著人工智慧行業的一個轉折點,原因如下:
### 對於開發者 Claude Opus 4.6 為 Claude Code 提供支援,這是 Anthropic 的代理編碼工具,可直接在終端中執行。 開發人員報告,使用 Claude Code 執行復雜的重構、錯誤修復和功能開發任務時,生產力提高了 3-5 倍。
對於企業
該模型透過其憲法人工智慧框架包括增強的安全功能。 企業可以放心地部署 Opus 4.6,因為它會遵循組織策略並拒絕有害請求,同時對合法用例保持最大程度的幫助。
對於行業
Opus 4.6 證明了擴充套件模型功能不需要犧牲安全性。 Anthropic 將模型訓練為有幫助、無害且誠實的方法,繼續產生在能力和一致性基準上領先的模型。
主要基準
| 基準 | 克勞德作品 4.6 | GPT-5 渦輪 | 雙子座2.5 Pro |
|---|---|---|---|
| SWE-Bench 驗證 | 72.3% | 68.1% | 65.7% |
| 人類評估 | 96.8% | 95.2% | 93.4% |
| GPQA 鑽石 | 68.4% | 64.9% | 66.1% |
| 數學 | 94.1% | 93.7% | 92.8% |
## 下一步是什麼
Anthropic 表示 Claude Opus 4.6 可立即透過 API 和 Claude.ai 獲取。 該公司還推出:
- 工具使用改進:透過並行工具執行增強函式呼叫
- 計算機使用:更新了基於 GUI 的自動化的計算機使用功能
- MCP 整合:本機模型上下文協議支援連線到外部資料來源
該模型的定價為每百萬輸入代幣 15 美元,每百萬輸出代幣 75 美元,將其定位為需要最大功能的任務的優質產品。
總結
Claude Opus 4.6 代表了人工智慧能力的顯著進步,特別是在軟體工程和複雜推理任務方面。 憑藉最先進的基準效能和改進的代理功能,它為人工智慧模型可以自主完成的任務設定了新的標準。