發生了什麼
中國人工智慧實驗室 DeepSeek 釋出了 DeepSeek V3,該模型在推理基準上實現了與 GPT-5 相當的效能,同時顯著提高了成本效益。 據報道,該模型的訓練預算不到 600 萬美元,這只是西方實驗室在前沿模型上花費的一小部分。
主要成就:
- 數學基準:91.2%(與 GPT-5 Turbo 的 93.7% 相當)
- HumanEval:93.1%(與 Claude Opus 4.6 競爭)
- 培訓成本:估計為 560 萬美元(相比之下,同類模型的成本為數億美元)
- 推理成本:每個代幣比 GPT-5 Turbo 便宜 10 倍
## 為什麼它很重要
### 效率革命 DeepSeek V3 證明前沿的 AI 效能不需要數億的計算預算。 主要效率創新包括:
- 多頭潛在注意力 (MLA):推理過程中的記憶體使用量減少 40%
- DeepSeekMoE:改進的 MoE 架構,具有更細粒度的專家路由
- FP8 訓練:混合精度訓練可減少 GPU 記憶體需求
- 輔助無損耗負載平衡:更好地利用專家而不會降低質量
### 對人工智慧行業的影響 效率突破具有重大意義:
1. 降低進入壁壘:較小的組織和國家現在可以訓練有競爭力的模型 2. API提供商的成本壓力:隨著高效替代方案的出現,價格戰正在加劇 3. 開源動力:DeepSeek V3 可在許可下使用,從而促進社羣發展
### API 定價比較
| 型號 | 輸入(每 1M 代幣) | 輸出(每 1M 代幣) |
|---|---|---|
| GPT-5 渦輪 | 5.00 美元 | 15.00 美元 |
| 克勞德作品 4.6 | 15.00 美元 | 75.00 美元 |
| 深思V3 | 0.50 美元 | 1.50 美元 |
## 技術架構
DeepSeek V3 使用混合專家架構,總引數為 671B,每個前向傳遞有 37B 活動引數。 該模型基於 14.8 萬億個不同多語言資料的標記進行訓練。
__程式碼_塊_0__
## 下一步是什麼
DeepSeek 計劃釋出: - DeepSeek V3 多模式(視覺 + 程式碼) - DeepSeek Coder V3(程式設計專用) - MoE 模型的開源培訓框架 - 與雲提供商合作進行託管推理
## 總結
DeepSeek V3 挑戰了人工智慧領導力需要大量預算的假設。 透過以 1/10 的成本實現前沿水平的效能,它迫使整個行業重新考慮其模型開發和定價方法。