盘古MoGE架构破解混合专家模型负载难题混合专家模型（MoE）因其能以较低成本支持更大参数规模并实现稀疏激活而备受关注，但实际部署中常面临专家激活严重不均衡的问题，导致效率低下

16:16 · May 30, 2025 · Fri

盘古MoGE架构破解混合专家模型负载难题

混合专家模型（MoE）因其能以较低成本支持更大参数规模并实现稀疏激活而备受关注，但实际部署中常面临专家激活严重不均衡的问题，导致效率低下。针对此，盘古团队提出新型分组混合专家模型（MoGE），通过专家分组并约束组内等量激活，成功实现专家负载均衡，显著提升了模型在昇腾平台的部署效率。

基于MoGE架构，盘古Pro MoE模型总参数量达720亿，激活参数量为160亿，并针对昇腾平台进行了深度优化。在昇腾800I A2上，该模型实现了单卡高达1148 tokens/s的推理吞吐，借助投机加速等技术可进一步提升至1528 tokens/s，性能远超同规模稠密模型。同时，在昇腾300I Duo服务器上也实现了高性价比的推理方案。

研究与多项基准测试结果表明，昇腾NPU能够支持盘古Pro MoE的大规模并行训练，且该模型在千亿内总参数模型中处于领先地位，在中文、英文及推理等多个领域均超越了Qwen3-32B、GLM-Z1-32B等先进模型。

论文（英文）

📮投稿 ☘️频道 🧧狗东

👍 110 🤔 26 👎 20 ❤️ 13 😇 2 😁 1