小米发布ZipVoice系列模型，语音合成新突破！

2025-09-12 12:04:08

　　小米集团 AI 实验室今日宣布，旗下 Kaldi 团队上个月发布了基于 Flow Matching 架构的 ZipVoice 系列语音合成模型，包括：

　　ZipVoice 首次将原本为自动语音识别设计的得益于这一设计，相比基于 DiT 的语音合成模型，在性能相似的情况下，ZipVoice 的参数量减少了约 63%。

　　性能方面，ZipVoice 和 ZipVoice-Distill 在具备更小参数量和更快推理速度的同时，在三个客观指标，即说话人相似度、词错误率和 UTMOS，以及两个主观指标上都极具竞争力，达到了零样本语音合成模型的 SOTA 性能水平，同时显著减少了模型参数量，加快了推理速度。

　　小米官方表示，ZipVoice 零样本语音合成模型具备了低参数量、高推理速度、高语音质量三大优点，ZipVoice-Dialog 提供了又快又稳又好的对话语音合成新方案。ZipVoice 系列模型为轻量化、高速度要求的语音交互应用场景提供了新的解决方案。

　　此外，小米表示未来团队将持续对 ZipVoice 系列模型进行优化，致力于让每一个人都能享受到低成本高质量的语音合成技术。

　　参考地址：