Claude Opus 4.6 打破記錄 — SWE-Bench 上排名第一,自主解決率達 72%
Anthropic 的 Claude Opus 4.6 憑藉突破性的代理編碼功能在所有基準測試中名列前茅,端到端解決了真正的 GitHub 問題。
AI領域最新重大新聞
Anthropic 的 Claude Opus 4.6 憑藉突破性的代理編碼功能在所有基準測試中名列前茅,端到端解決了真正的 GitHub 問題。
GPT-5 Turbo 將文字、影象、音訊和影片統一在一個模型中,推理速度提高 3 倍,上下文視窗大幅擴充套件。
Google DeepMind 的旗艦模型將上下文加倍為 2M 令牌,併為複雜的推理鏈新增了內建程式碼執行沙箱。
DeepSeek 釋出了在數學和編碼基準上匹配 GPT-5 的 R1 推理模型,完全開源並可在消費類硬體上執行。
Llama 4 的稀疏 MoE 每個令牌僅啟用 52B 引數,實現前沿效能,同時在 4 個 A100 叢集上高效執行。
Grok-3 利用實時 X/Twitter 資料來理解無與倫比的當前事件,並具有強大的編碼和推理能力。
Mistral AI 為 Large 3 提供了一流的多語言效能和透明的、符合歐盟人工智慧法案的訓練資料來源。
歐盟人工智慧法案的完整條款將於 2026 年 2 月生效,要求對高風險人工智慧系統進行風險評估、透明度報告和人工監督。
NVIDIA 的 B300 GPU 透過 HBM4 記憶體和 NVLink 6 將 AI 訓練效能提高了一倍,並於 2026 年第二季度向主要雲提供商發貨。
麥肯錫報告稱,人工智慧代理的採用率在 12 個月內翻了一番,軟體開發和客戶服務的生產力平均提高了 34%。
新法規要求對在中國運營的人工智慧服務進行基礎模型許可、強制性安全評估以及嚴格的資料本地化。
Insilico Medicine 的 ISM001 分子完全由 AI 設計,已進入 III 期試驗,將傳統藥物發現時間縮短了 75%。
Anthropic 的 MCP 協議作為連線 AI 模型與外部工具和資料來源的標準介面獲得了全行業的採用。
Qwen 3 Max 在中文和英文基準測試中提供具有 GPT-5 競爭力的效能,可在 Apache 2.0 許可下用於商業用途。