标签为“omnivoice”的主题

据 PANews 报道，小米 AI 实验室新一代 Kaldi 团队（k2-fsa）正式开源零样本语音克隆 TTS 模型 OmniVoice，支持 646 种语言合成，为目前开源 TTS 模型中语言覆盖范围最广的版本，远超 ElevenLabs 的 32 种与 PlayHT 的 132 种。性能方面，OmniVoice 在 Seed-TTS 中文测试集上的词错率（WER）仅 0.84%；在 24 种语言的多语言基准测试中，语音相似度（SIM-o）达 0.830、WER 为 2.85%，均优于 ElevenLabs v2 等商用系统；在 102 种语言的测试中，可懂度接近甚至超过真实录音，训练数据不足 10 小时的小语种同样可合成。模型仅需 3–10 秒参考音频即可完成零样本音色克隆，亦支持跨语言克隆——上传一段中文录音，即可用同一音色合成日语或其他语言。架构上，OmniVoice 以 0.8B 参数量的单一双向 Transformer 为核心，基于 Qwen3-0.6B 预训练参数初始化，直接将文本映射至多码本声学 token，省去传统两阶段流水线，推理速度达实时 40 倍（RTF 0.025）。训练数据全部来自 50 个开源数据集，经降噪和质量筛选后共约 58 万小时，低资源语种采用动态上采样策略。除语音克隆外，OmniVoice 还支持文字描述定制音色（如"男，中年，极低音调"或"女，青年，四川话"）、带噪参考音频自动降噪、笑声叹气等副语言符号插入，以及中英文多音字与专有名词发音纠正。代码、模型权重和训练数据已以 Apache 2.0 许可在 GitHub（k2-fsa/OmniVoice）和 HuggingFace 同步开源。 PANews | MarsBit https://github.com/k2-fsa/OmniVoice

WeLinux

小米开源语音克隆模型 OmniVoice，单模型覆盖 646 种语言