跳转至内容
  • 0 赞同
    1 帖子
    17 浏览
    R
    据 PANews 报道,小米 AI 实验室新一代 Kaldi 团队(k2-fsa)正式开源零样本语音克隆 TTS 模型 OmniVoice,支持 646 种语言合成,为目前开源 TTS 模型中语言覆盖范围最广的版本,远超 ElevenLabs 的 32 种与 PlayHT 的 132 种。性能方面,OmniVoice 在 Seed-TTS 中文测试集上的词错率(WER)仅 0.84%;在 24 种语言的多语言基准测试中,语音相似度(SIM-o)达 0.830、WER 为 2.85%,均优于 ElevenLabs v2 等商用系统;在 102 种语言的测试中,可懂度接近甚至超过真实录音,训练数据不足 10 小时的小语种同样可合成。模型仅需 3–10 秒参考音频即可完成零样本音色克隆,亦支持跨语言克隆——上传一段中文录音,即可用同一音色合成日语或其他语言。 架构上,OmniVoice 以 0.8B 参数量的单一双向 Transformer 为核心,基于 Qwen3-0.6B 预训练参数初始化,直接将文本映射至多码本声学 token,省去传统两阶段流水线,推理速度达实时 40 倍(RTF 0.025)。训练数据全部来自 50 个开源数据集,经降噪和质量筛选后共约 58 万小时,低资源语种采用动态上采样策略。除语音克隆外,OmniVoice 还支持文字描述定制音色(如"男,中年,极低音调"或"女,青年,四川话")、带噪参考音频自动降噪、笑声叹气等副语言符号插入,以及中英文多音字与专有名词发音纠正。代码、模型权重和训练数据已以 Apache 2.0 许可在 GitHub(k2-fsa/OmniVoice)和 HuggingFace 同步开源。 PANews | MarsBit https://github.com/k2-fsa/OmniVoice