DeepSeek-AI 正式发布 DeepSeek-V3.2-Exp 实验版本,这是迈向下一代架构的中间步骤。该版本在 V3.1-Terminus 基础上引入了 DeepSeek 稀疏注意力(DSA)机制,旨在探索和验证长上下文场景下的训练和推理效率优化。
新版本在保持与 V3.1-Terminus 几乎相同模型输出质量的同时,实现了细粒度稀疏注意力,显著提升了长上下文处理的计算效率。在多个公开基准测试中,V3.2-Exp 的表现与 V3.1-Terminus 相当,包括在 MMLU-Pro、GPQA-Diamond 等推理任务以及代码生成和工具使用等方面的评估。
线上版本已更新
GitHub
🍀在花频道 🍵茶馆 📮投稿
🐳 307 👍 55 😁 8 👎 5
3 👀 2 🎉 1 🕊 1