美国国家标准与技术研究院(NIST)下属人工智能标准与创新中心(CAISI)评估显示,中国开源模型 DeepSeek V4 Pro 在综合能力上比美国最先进模型落后约 8 个月。在 CAISI 选取的基准中,其 Elo 得分 800,低于 GPT-5.5(999)和 Opus 4.6(800),与 GPT-5.4 mini(749)相近。尤其在 ARC-AGI-2、PortBench 和 CTF-Archive-Diamond 等代理与推理测试上表现较弱。但成本方面,与相近能力的 GPT-5.4 mini 相比,DeepSeek V4 Pro 在 7 个基准中的 5 个上成本更低。
NIST
🌸 在花频道 · 茶馆讨论 · 投稿通道
⭐ 2 🤣 473 👍 61 😁 20 🤷♂ 10 ❤️ 10 🤔 8 🍾 6 ⚡ 1