小米开源首个原生端到端语音大模型 MiMo-Audio9 月 19 日，小米正式开源首个原生端到端语音模型 Xiaomi-MiMo-Audio，该模型基于创新预训练架构和上亿小时训练数据，首次在语音领域实现基于 ICL 的少样本泛化，并在预训练中观察到明显的"涌现"行为

12:00 · Sep 19, 2025 · Fri

小米开源首个原生端到端语音大模型 MiMo-Audio

9 月 19 日，小米正式开源首个原生端到端语音模型 Xiaomi-MiMo-Audio，该模型基于创新预训练架构和上亿小时训练数据，首次在语音领域实现基于 ICL 的少样本泛化，并在预训练中观察到明显的"涌现"行为。

在多项标准评测中，MiMo-Audio 大幅超越同参数量开源模型，取得 7B 最佳性能。在音频理解基准 MMAU 标准测试集上超过 Google 闭源语音模型 Gemini-2.5-Flash，在 Big Bench Audio S2T 任务中超越 OpenAI 闭源语音模型 GPT-4o-Audio-Preview。

新浪科技 | Hugging Face

🍀在花频道 🍵茶馆 📮投稿

👍 249 👎 51 🥱 22 🤣 14 ❤️ 6 😁 4 🤷‍♂ 3 🤝 1