小米开源 OmniVoice 多语言语音克隆 TTS 模型。采用极简双向 Transformer 架构,用全码本随机掩蔽和大语言模型预训练参数提升效率与可懂度,训练速度 10 万小时 / 天,PyTorch 推理达 40 倍实时,合成质量优于同类主流模型。
OmniVoice 基于 50 个开源数据集构建 58 万小时、646 语种训练集,在 24 语种测试中超越商用系统,102 语种逼近真实语音。支持跨语言克隆、自定义音色、带噪适配和发音纠正,训练、推理代码及模型权重均已开源。
小米技术
🌸 在花频道 · 茶馆讨论 · 投稿通道
👍 216 🤔 7 👎 6 👏 4 ❤️ 2 🗿 1