Claude Opus 4.6 打破记录 — SWE-Bench 上排名第一,自主解决率达 72%
Anthropic 的 Claude Opus 4.6 凭借突破性的代理编码功能在所有基准测试中名列前茅,端到端解决了真正的 GitHub 问题。
AI领域最新重大新闻
Anthropic 的 Claude Opus 4.6 凭借突破性的代理编码功能在所有基准测试中名列前茅,端到端解决了真正的 GitHub 问题。
GPT-5 Turbo 将文本、图像、音频和视频统一在一个模型中,推理速度提高 3 倍,上下文窗口大幅扩展。
Google DeepMind 的旗舰模型将上下文加倍为 2M 令牌,并为复杂的推理链添加了内置代码执行沙箱。
DeepSeek 发布了在数学和编码基准上匹配 GPT-5 的 R1 推理模型,完全开源并可在消费类硬件上运行。
Llama 4 的稀疏 MoE 每个令牌仅激活 52B 参数,实现前沿性能,同时在 4 个 A100 集群上高效运行。
Grok-3 利用实时 X/Twitter 数据来理解无与伦比的当前事件,并具有强大的编码和推理能力。
Mistral AI 为 Large 3 提供了一流的多语言性能和透明的、符合欧盟人工智能法案的训练数据来源。
欧盟人工智能法案的完整条款将于 2026 年 2 月生效,要求对高风险人工智能系统进行风险评估、透明度报告和人工监督。
NVIDIA 的 B300 GPU 通过 HBM4 内存和 NVLink 6 将 AI 训练性能提高了一倍,并于 2026 年第二季度向主要云提供商发货。
麦肯锡报告称,人工智能代理的采用率在 12 个月内翻了一番,软件开发和客户服务的生产力平均提高了 34%。
新法规要求对在中国运营的人工智能服务进行基础模型许可、强制性安全评估以及严格的数据本地化。
Insilico Medicine 的 ISM001 分子完全由 AI 设计,已进入 III 期试验,将传统药物发现时间缩短了 75%。
Anthropic 的 MCP 协议作为连接 AI 模型与外部工具和数据源的标准接口获得了全行业的采用。
Qwen 3 Max 在中文和英文基准测试中提供具有 GPT-5 竞争力的性能,可在 Apache 2.0 许可下用于商业用途。