Skip to main content

小米开源首个原生端到端语音大模型 MiMo-Audio9 月 19 日,小米正式开源首个原生端到端语音模型 Xiaomi-MiMo-Audio,该模型基于创新预训练架构和上亿小时训练数据,首次在语音领域实现基于 ICL 的少样本泛化,并在预训练中观察到明显的"涌现"行为

  1. 小米开源首个原生端到端语音大模型 MiMo-Audio

    9 月 19 日,小米正式开源首个原生端到端语音模型 Xiaomi-MiMo-Audio,该模型基于创新预训练架构和上亿小时训练数据,首次在语音领域实现基于 ICL 的少样本泛化,并在预训练中观察到明显的"涌现"行为。

    在多项标准评测中,MiMo-Audio 大幅超越同参数量开源模型,取得 7B 最佳性能。在音频理解基准 MMAU 标准测试集上超过 Google 闭源语音模型 Gemini-2.5-Flash,在 Big Bench Audio S2T 任务中超越 OpenAI 闭源语音模型 GPT-4o-Audio-Preview。

    新浪科技 | Hugging Face

    🍀在花频道 🍵茶馆 📮投稿
    👍 249 👎 51 🥱 22 🤣 14 ❤️ 6 😁 4 🤷‍♂ 3 🤝 1