跳转至内容
  • 版块
  • 最新
  • 标签
  • 热门
  • 世界
  • 用户
  • 群组
皮肤
  • 浅色
  • Brite
  • Cerulean
  • Cosmo
  • Flatly
  • Journal
  • Litera
  • Lumen
  • Lux
  • Materia
  • Minty
  • Morph
  • Pulse
  • Sandstone
  • Simplex
  • Sketchy
  • Spacelab
  • United
  • Yeti
  • Zephyr
  • 深色
  • Cyborg
  • Darkly
  • Quartz
  • Slate
  • Solar
  • Superhero
  • Vapor

  • 默认(不使用皮肤)
  • 不使用皮肤
折叠

WeLinux

  1. 主页
  2. 版块
  3. 讨论
  4. 小米开源语音克隆模型 OmniVoice,单模型覆盖 646 种语言

小米开源语音克隆模型 OmniVoice,单模型覆盖 646 种语言

已定时 已固定 已锁定 已移动 讨论
ai小米omnivoicetts开源
1 帖子 1 发布者 17 浏览 1 关注中
  • 从旧到新
  • 从新到旧
  • 最多赞同
回复
  • 在新帖中回复
登录后回复
此主题已被删除。只有拥有主题管理权限的用户可以查看。
  • R 离线
    R 离线
    ref
    编写于 最后由 编辑
    #1

    据 PANews 报道,小米 AI 实验室新一代 Kaldi 团队(k2-fsa)正式开源零样本语音克隆 TTS 模型 OmniVoice,支持 646 种语言合成,为目前开源 TTS 模型中语言覆盖范围最广的版本,远超 ElevenLabs 的 32 种与 PlayHT 的 132 种。性能方面,OmniVoice 在 Seed-TTS 中文测试集上的词错率(WER)仅 0.84%;在 24 种语言的多语言基准测试中,语音相似度(SIM-o)达 0.830、WER 为 2.85%,均优于 ElevenLabs v2 等商用系统;在 102 种语言的测试中,可懂度接近甚至超过真实录音,训练数据不足 10 小时的小语种同样可合成。模型仅需 3–10 秒参考音频即可完成零样本音色克隆,亦支持跨语言克隆——上传一段中文录音,即可用同一音色合成日语或其他语言。

    架构上,OmniVoice 以 0.8B 参数量的单一双向 Transformer 为核心,基于 Qwen3-0.6B 预训练参数初始化,直接将文本映射至多码本声学 token,省去传统两阶段流水线,推理速度达实时 40 倍(RTF 0.025)。训练数据全部来自 50 个开源数据集,经降噪和质量筛选后共约 58 万小时,低资源语种采用动态上采样策略。除语音克隆外,OmniVoice 还支持文字描述定制音色(如"男,中年,极低音调"或"女,青年,四川话")、带噪参考音频自动降噪、笑声叹气等副语言符号插入,以及中英文多音字与专有名词发音纠正。代码、模型权重和训练数据已以 Apache 2.0 许可在 GitHub(k2-fsa/OmniVoice)和 HuggingFace 同步开源。

    PANews | MarsBit

    Link Preview Image
    GitHub - k2-fsa/OmniVoice: High-Quality Voice Cloning TTS for 600+ Languages

    High-Quality Voice Cloning TTS for 600+ Languages. Contribute to k2-fsa/OmniVoice development by creating an account on GitHub.

    favicon

    GitHub (github.com)

    1 条回复 最后回复
    0

    你好!看起来您对这段对话很感兴趣,但您还没有一个账号。

    厌倦了每次访问都刷到同样的帖子?您注册账号后,您每次返回时都能精准定位到您上次浏览的位置,并可选择接收新回复通知(通过邮件或推送通知)。您还能收藏书签、为帖子顶,向社区成员表达您的欣赏。

    有了你的建议,这篇帖子会更精彩哦 💗

    注册 登录
    回复
    • 在新帖中回复
    登录后回复
    • 从旧到新
    • 从新到旧
    • 最多赞同


    • 登录

    • 没有帐号? 注册

    • 登录或注册以进行搜索。
    Powered by NodeBB Contributors
    • 第一个帖子
      最后一个帖子
    0
    • 版块
    • 最新
    • 标签
    • 热门
    • 世界
    • 用户
    • 群组