英伟达刷新 DeepSeek V4 推理纪录：单 Token 成本降至五分之一NVIDIA 推理软件栈在 Blackwell 平台上持续优化，使得 DeepSeek V4 模型的 Token 生成成本在一个月内降至原先的五分之一

4 hours ago

英伟达刷新 DeepSeek V4 推理纪录：单 Token 成本降至五分之一

NVIDIA 推理软件栈在 Blackwell 平台上持续优化，使得 DeepSeek V4 模型的 Token 生成成本在一个月内降至原先的五分之一。来自 PyTorch 社区的数据显示，在 GB300 离散式部署下，SGLang 引擎的吞吐量从 4 月初的约 2,200 Tokens/秒/GPU，提升至 6 月的约 11,200 Tokens/秒/GPU。这意味着在保持用户约 50 Tokens/秒的高流畅交互体验不变的同时，性能实现了 5 倍的增长。此外，Blackwell Ultra 的聚合部署方案也获得了近 3 倍的提升。

这一性能飞跃得益于多项内核与运行时的深度优化，包括融合技术、显存压缩、量化精度路径，以及改进后的内存预算、可中断计算图支持与推理稳定性修复。NVIDIA 方面表示，若后续再叠加分解式服务、新浮点精度与多 Token 预测等高级优化，系统级吞吐量最高有望提升至 20 倍。

NVIDIA Blog | PyTorch

🌸 在花频道 · 茶馆水群 · 投稿通道

🐳 301 👍 54 😁 8 🤯 6 ❤️ 4 👏 1