资讯

DeepSeek V3 以 1/10 的成本实现 GPT-5 级别推理

DeepSeek 的最新模型在编码和数学基准测试中表现出卓越的效率和强大的性能。

AIcloud2026-02-027 分钟阅读

发生了什么

中国人工智能实验室 DeepSeek 发布了 DeepSeek V3,该模型在推理基准上实现了与 GPT-5 相当的性能,同时显着提高了成本效益。 据报道,该模型的训练预算不到 600 万美元,这只是西方实验室在前沿模型上花费的一小部分。

主要成就:

  • 数学基准:91.2%(与 GPT-5 Turbo 的 93.7% 相当)
  • HumanEval:93.1%(与 Claude Opus 4.6 竞争)
  • 培训成本:估计为 560 万美元(相比之下,同类模型的成本为数亿美元)
  • 推理成本:每个代币比 GPT-5 Turbo 便宜 10 倍

## 为什么它很重要

### 效率革命 DeepSeek V3 证明前沿的 AI 性能不需要数亿的计算预算。 主要效率创新包括:

  • 多头潜在注意力 (MLA):推理过程中的内存使用量减少 40%
  • DeepSeekMoE:改进的 MoE 架构,具有更细粒度的专家路由
  • FP8 训练:混合精度训练可减少 GPU 内存需求
  • 辅助无损耗负载平衡:更好地利用专家而不会降低质量

### 对人工智能行业的影响 效率突破具有重大意义:

1. 降低进入壁垒:较小的组织和国家现在可以训练有竞争力的模型 2. API提供商的成本压力:随着高效替代方案的出现,价格战正在加剧 3. 开源动力:DeepSeek V3 可在许可下使用,从而促进社区发展

### API 定价比较

型号输入(每 1M 代币)输出(每 1M 代币)
GPT-5 涡轮5.00 美元15.00 美元
克劳德作品 4.615.00 美元75.00 美元
深思V30.50 美元1.50 美元

## 技术架构

DeepSeek V3 使用混合专家架构,总参数为 671B,每个前向传递有 37B 活动参数。 该模型基于 14.8 万亿个不同多语言数据的标记进行训练。

__代码_块_0__

## 下一步是什么

DeepSeek 计划发布: - DeepSeek V3 多模式(视觉 + 代码) - DeepSeek Coder V3(编程专用) - MoE 模型的开源培训框架 - 与云提供商合作进行托管推理

## 总结

DeepSeek V3 挑战了人工智能领导力需要大量预算的假设。 通过以 1/10 的成本实现前沿水平的性能,它迫使整个行业重新考虑其模型开发和定价方法。

DeepSeekOpen SourceEfficiencyReasoning

相关文章

掌握AI前沿动态

每周精选AI教程、工具推荐和行业资讯,直达您的邮箱。

加入 12,000+ 位AI开发者的行列