小米发布ZipVoice系列模型,语音合成新突破!

2025-09-12 12:04:08

  小米集团 AI 实验室今日宣布,旗下 Kaldi 团队上个月发布了基于 Flow Matching 架构的 ZipVoice 系列语音合成模型,包括:

  ZipVoice 首次将原本为自动语音识别设计的 得益于这一设计,相比基于 DiT 的语音合成模型,在性能相似的情况下,ZipVoice 的参数量减少了约 63%。

  性能方面,ZipVoice 和 ZipVoice-Distill 在具备更小参数量和更快推理速度的同时,在三个客观指标,即说话人相似度、词错误率和 UTMOS,以及两个主观指标上都极具竞争力,达到了零样本语音合成模型的 SOTA 性能水平,同时显著减少了模型参数量,加快了推理速度。

  小米官方表示,ZipVoice 零样本语音合成模型具备了低参数量、高推理速度、高语音质量三大优点,ZipVoice-Dialog 提供了又快又稳又好的对话语音合成新方案。ZipVoice 系列模型为轻量化、高速度要求的语音交互应用场景提供了新的解决方案。

  此外,小米表示未来团队将持续对 ZipVoice 系列模型进行优化,致力于让每一个人都能享受到低成本高质量的语音合成技术。

  参考地址:

下一篇:观众不足 + 市场不振:高性能电动摩托车世锦赛
上一篇:苹果:正与监管机构紧密合作,力争尽快在中国
返回顶部小火箭