Skip to main content

小米开源 OmniVoice:极简架构实现 646 语种语音克隆 TTS小米开源 OmniVoice 多语言语音克隆 TTS 模型

  1. 小米开源 OmniVoice:极简架构实现 646 语种语音克隆 TTS

    小米开源 OmniVoice 多语言语音克隆 TTS 模型。采用极简双向 Transformer 架构,用全码本随机掩蔽和大语言模型预训练参数提升效率与可懂度,训练速度 10 万小时 / 天,PyTorch 推理达 40 倍实时,合成质量优于同类主流模型。

    OmniVoice 基于 50 个开源数据集构建 58 万小时、646 语种训练集,在 24 语种测试中超越商用系统,102 语种逼近真实语音。支持跨语言克隆、自定义音色、带噪适配和发音纠正,训练、推理代码及模型权重均已开源。

    小米技术

    🌸 在花频道 · 茶馆讨论 · 投稿通道
    👍 216 🤔 7 👎 6 👏 4 ❤️ 2 🗿 1