DeepSeek V3 以 1/10 的成本实现 GPT-5 级别推理

发生了什么

中国人工智能实验室 DeepSeek 发布了 DeepSeek V3，该模型在推理基准上实现了与 GPT-5 相当的性能，同时显着提高了成本效益。据报道，该模型的训练预算不到 600 万美元，这只是西方实验室在前沿模型上花费的一小部分。

主要成就：

## 为什么它很重要

### 效率革命 DeepSeek V3 证明前沿的 AI 性能不需要数亿的计算预算。主要效率创新包括：

### 对人工智能行业的影响效率突破具有重大意义：

1. 降低进入壁垒：较小的组织和国家现在可以训练有竞争力的模型 2. API提供商的成本压力：随着高效替代方案的出现，价格战正在加剧 3. 开源动力：DeepSeek V3 可在许可下使用，从而促进社区发展

### API 定价比较

## 技术架构

DeepSeek V3 使用混合专家架构，总参数为 671B，每个前向传递有 37B 活动参数。该模型基于 14.8 万亿个不同多语言数据的标记进行训练。

__代码_块_0__

## 下一步是什么

DeepSeek 计划发布： - DeepSeek V3 多模式（视觉 + 代码） - DeepSeek Coder V3（编程专用） - MoE 模型的开源培训框架 - 与云提供商合作进行托管推理

## 总结

DeepSeek V3 挑战了人工智能领导力需要大量预算的假设。通过以 1/10 的成本实现前沿水平的性能，它迫使整个行业重新考虑其模型开发和定价方法。