資訊

Anthropic 釋出 Claude Opus 4.6——樹立推理新標杆

Claude Opus 4.6 在 SWE-Bench、HumanEval 和 GPQA 上達到了最先進的水平,在代理編碼和長上下文任務方面有了顯著改進。

AIcloud2026-02-085 分鐘閱讀

發生了什麼

Anthropic 正式釋出了 Claude Opus 4.6,它是 Claude 系列中最新、功能最強大的型號。 該模型在多項評估中設定了新的最先進基準,包括 SWE-Bench Verified (72.3%)、HumanEval (96.8%) 和 GPQA Diamond (68.4%)。

Claude Opus 4.6 代表了推理能力的重大飛躍。 該模型在以下方面表現出特別強大的效能:

  • 代理編碼任務:Opus 4.6 可以自主導航複雜的程式碼庫,跨多個檔案編寫和除錯程式碼,並執行多步驟開發工作流程
  • 擴充套件思維:新的協商對齊系統允許模型在生成輸出之前逐步推理複雜的問題
  • 長上下文理解:透過 200K 上下文視窗,模型可以在極長的文件中保持連貫性和準確性

## 為什麼它很重要

Opus 4.6 的釋出標誌著人工智慧行業的一個轉折點,原因如下:

### 對於開發者 Claude Opus 4.6 為 Claude Code 提供支援,這是 Anthropic 的代理編碼工具,可直接在終端中執行。 開發人員報告,使用 Claude Code 執行復雜的重構、錯誤修復和功能開發任務時,生產力提高了 3-5 倍。

對於企業

該模型透過其憲法人工智慧框架包括增強的安全功能。 企業可以放心地部署 Opus 4.6,因為它會遵循組織策略並拒絕有害請求,同時對合法用例保持最大程度的幫助。

對於行業

Opus 4.6 證明了擴充套件模型功能不需要犧牲安全性。 Anthropic 將模型訓練為有幫助、無害且誠實的方法,繼續產生在能力和一致性基準上領先的模型。

主要基準

基準克勞德作品 4.6GPT-5 渦輪雙子座2.5 Pro
SWE-Bench 驗證72.3%68.1%65.7%
人類評估96.8%95.2%93.4%
GPQA 鑽石68.4%64.9%66.1%
數學94.1%93.7%92.8%

## 下一步是什麼

Anthropic 表示 Claude Opus 4.6 可立即透過 API 和 Claude.ai 獲取。 該公司還推出:

  • 工具使用改進:透過並行工具執行增強函式呼叫
  • 計算機使用:更新了基於 GUI 的自動化的計算機使用功能
  • MCP 整合:本機模型上下文協議支援連線到外部資料來源

該模型的定價為每百萬輸入代幣 15 美元,每百萬輸出代幣 75 美元,將其定位為需要最大功能的任務的優質產品。

總結

Claude Opus 4.6 代表了人工智慧能力的顯著進步,特別是在軟體工程和複雜推理任務方面。 憑藉最先進的基準效能和改進的代理功能,它為人工智慧模型可以自主完成的任務設定了新的標準。

AnthropicClaudeLLMReasoning

相關文章

掌握AI前沿動態

每週精選AI教程、工具推薦和行業資訊,直達您的郵箱。

加入 12,000+ 位AI開發者的行列