盘古MoGE架构破解混合专家模型负载难题
混合专家模型(MoE)因其能以较低成本支持更大参数规模并实现稀疏激活而备受关注,但实际部署中常面临专家激活严重不均衡的问题,导致效率低下。针对此,盘古团队提出新型分组混合专家模型(MoGE),通过专家分组并约束组内等量激活,成功实现专家负载均衡,显著提升了模型在昇腾平台的部署效率。
基于MoGE架构,盘古Pro MoE模型总参数量达720亿,激活参数量为160亿,并针对昇腾平台进行了深度优化。在昇腾800I A2上,该模型实现了单卡高达1148 tokens/s的推理吞吐,借助投机加速等技术可进一步提升至1528 tokens/s,性能远超同规模稠密模型。同时,在昇腾300I Duo服务器上也实现了高性价比的推理方案。
研究与多项基准测试结果表明,昇腾NPU能够支持盘古Pro MoE的大规模并行训练,且该模型在千亿内总参数模型中处于领先地位,在中文、英文及推理等多个领域均超越了Qwen3-32B、GLM-Z1-32B等先进模型。
论文(英文)
📮投稿 ☘️频道 🧧狗东
混合专家模型(MoE)因其能以较低成本支持更大参数规模并实现稀疏激活而备受关注,但实际部署中常面临专家激活严重不均衡的问题,导致效率低下。针对此,盘古团队提出新型分组混合专家模型(MoGE),通过专家分组并约束组内等量激活,成功实现专家负载均衡,显著提升了模型在昇腾平台的部署效率。
基于MoGE架构,盘古Pro MoE模型总参数量达720亿,激活参数量为160亿,并针对昇腾平台进行了深度优化。在昇腾800I A2上,该模型实现了单卡高达1148 tokens/s的推理吞吐,借助投机加速等技术可进一步提升至1528 tokens/s,性能远超同规模稠密模型。同时,在昇腾300I Duo服务器上也实现了高性价比的推理方案。
研究与多项基准测试结果表明,昇腾NPU能够支持盘古Pro MoE的大规模并行训练,且该模型在千亿内总参数模型中处于领先地位,在中文、英文及推理等多个领域均超越了Qwen3-32B、GLM-Z1-32B等先进模型。
论文(英文)
📮投稿 ☘️频道 🧧狗东
👍 110 🤔 26 👎 20 ❤️ 13 😇 2 😁 1