<?xml version="1.0" encoding="UTF-8"?><rss xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:content="http://purl.org/rss/1.0/modules/content/" xmlns:atom="http://www.w3.org/2005/Atom" version="2.0"><channel><title><![CDATA[小米开源语音克隆模型 OmniVoice，单模型覆盖 646 种语言]]></title><description><![CDATA[<p dir="auto">据 PANews 报道，小米 AI 实验室新一代 Kaldi 团队（k2-fsa）正式开源零样本语音克隆 TTS 模型 OmniVoice，支持 646 种语言合成，为目前开源 TTS 模型中语言覆盖范围最广的版本，远超 ElevenLabs 的 32 种与 PlayHT 的 132 种。性能方面，OmniVoice 在 Seed-TTS 中文测试集上的词错率（WER）仅 0.84%；在 24 种语言的多语言基准测试中，语音相似度（SIM-o）达 0.830、WER 为 2.85%，均优于 ElevenLabs v2 等商用系统；在 102 种语言的测试中，可懂度接近甚至超过真实录音，训练数据不足 10 小时的小语种同样可合成。模型仅需 3–10 秒参考音频即可完成零样本音色克隆，亦支持跨语言克隆——上传一段中文录音，即可用同一音色合成日语或其他语言。</p>
<p dir="auto">架构上，OmniVoice 以 0.8B 参数量的单一双向 Transformer 为核心，基于 Qwen3-0.6B 预训练参数初始化，直接将文本映射至多码本声学 token，省去传统两阶段流水线，推理速度达实时 40 倍（RTF 0.025）。训练数据全部来自 50 个开源数据集，经降噪和质量筛选后共约 58 万小时，低资源语种采用动态上采样策略。除语音克隆外，OmniVoice 还支持文字描述定制音色（如&quot;男，中年，极低音调&quot;或&quot;女，青年，四川话&quot;）、带噪参考音频自动降噪、笑声叹气等副语言符号插入，以及中英文多音字与专有名词发音纠正。代码、模型权重和训练数据已以 Apache 2.0 许可在 GitHub（k2-fsa/OmniVoice）和 HuggingFace 同步开源。</p>
<p dir="auto"><a href="https://www.panewslab.com/zh/articles/019e0200-0d52-7066-9be2-9692853ba6c1" target="_blank" rel="noopener noreferrer nofollow ugc">PANews</a> | <a href="https://news.marsbit.co/flash/20260507182614216194.html" target="_blank" rel="noopener noreferrer nofollow ugc">MarsBit</a></p>
<p dir="auto"><div class="card col-md-9 col-lg-6 position-relative link-preview p-0">



<a href="https://github.com/k2-fsa/OmniVoice" title="GitHub - k2-fsa/OmniVoice: High-Quality Voice Cloning TTS for 600+ Languages">
<img src="https://opengraph.githubassets.com/cde136c1999d0fe9b9d3fe3e0b19128482ee0bc721f646375f2df8c7a6799fbd/k2-fsa/OmniVoice" class="card-img-top not-responsive" style="max-height: 15rem;" alt="Link Preview Image" onerror="this.parentElement.remove()" />
</a>



<div class="card-body">
<h5 class="card-title">
<a class="text-decoration-none" href="https://github.com/k2-fsa/OmniVoice">
GitHub - k2-fsa/OmniVoice: High-Quality Voice Cloning TTS for 600+ Languages
</a>
</h5>
<p class="card-text line-clamp-3">High-Quality Voice Cloning TTS for 600+ Languages. Contribute to k2-fsa/OmniVoice development by creating an account on GitHub.</p>
</div>
<a href="https://github.com/k2-fsa/OmniVoice" class="card-footer text-body-secondary small d-flex gap-2 align-items-center lh-2">



<img src="https://github.githubassets.com/favicons/favicon.svg" alt="favicon" class="not-responsive overflow-hiddden" style="max-width: 21px; max-height: 21px;" onerror="this.remove()"/>



<p class="d-inline-block text-truncate mb-0">GitHub <span class="text-secondary">(github.com)</span></p>
</a>
</div></p>
]]></description><link>https://welinux.com//topic/229/小米开源语音克隆模型-omnivoice-单模型覆盖-646-种语言</link><generator>RSS for Node</generator><lastBuildDate>Mon, 18 May 2026 18:39:59 GMT</lastBuildDate><atom:link href="https://welinux.com//topic/229.rss" rel="self" type="application/rss+xml"/><pubDate>Thu, 07 May 2026 12:07:41 GMT</pubDate><ttl>60</ttl></channel></rss>