小米开源 OmniVoice：极简架构实现 646 语种语音克隆 TTS小米开源 OmniVoice 多语言语音克隆 TTS 模型

18:06 · May 7, 2026 · Thu

小米开源 OmniVoice：极简架构实现 646 语种语音克隆 TTS

小米开源 OmniVoice 多语言语音克隆 TTS 模型。采用极简双向 Transformer 架构，用全码本随机掩蔽和大语言模型预训练参数提升效率与可懂度，训练速度 10 万小时 / 天，PyTorch 推理达 40 倍实时，合成质量优于同类主流模型。

OmniVoice 基于 50 个开源数据集构建 58 万小时、646 语种训练集，在 24 语种测试中超越商用系统，102 语种逼近真实语音。支持跨语言克隆、自定义音色、带噪适配和发音纠正，训练、推理代码及模型权重均已开源。

小米技术

🌸 在花频道 · 茶馆讨论 · 投稿通道

👍 406 👎 19 🤔 14 ❤️ 9 👏 6 🗿 1