小米發(fā)布ZipVoice系列模型,語音合成新突破!
IT之家 9 月 12 日消息,小米集團 AI 實驗室今日宣布,旗下 Kaldi 團隊上個月發(fā)布了基于 Flow Matching 架構(gòu)的 ZipVoice 系列語音合成(TTS)模型,包括:
ZipVoice(零樣本單說話人語音合成模型)ZipVoice-Dialog(零樣本對話語音合成模型)
據(jù)官方介紹,作為 zipformer 在語音生成任務(wù)上的應(yīng)用和探索,ZipVoice 解決了現(xiàn)有零樣本語音合成模型的參數(shù)量大、合成速度慢的痛點,在輕量化建模和推理加速上取得了重要突破。
ZipVoice-Dialog 則解決了現(xiàn)有對話語音合成模型在穩(wěn)定性和推理速度上的瓶頸,實現(xiàn)了又快又穩(wěn)又自然的語音對話合成。
IT之家從小米官方獲悉,ZipVoice 首次將原本為自動語音識別(ASR)設(shè)計的 Zipformer 架構(gòu)引入 TTS 任務(wù)作為模型的骨干網(wǎng)絡(luò),Zipformer 中的三大設(shè)計:基于 U-Net 的多尺度高效率結(jié)構(gòu)、卷積與注意力機制的協(xié)同處理、以及注意力權(quán)重的多次復(fù)用都高度適配語音合成任務(wù),從而實現(xiàn)了語音合成模型的高效建模。
得益于這一設(shè)計,相比基于 DiT 的語音合成模型,在性能相似的情況下,ZipVoice 的參數(shù)量減少了約 63%。
性能方面,ZipVoice 和 ZipVoice-Distill 在具備更小參數(shù)量和更快推理速度的同時,在三個客觀指標,即說話人相似度(SIM-o)、詞錯誤率(WER)和 UTMOS,以及兩個主觀指標(CMOS、SMOS)上都極具競爭力,達到了零樣本語音合成模型的 SOTA 性能水平,同時顯著減少了模型參數(shù)量,加快了推理速度。
小米官方表示,ZipVoice 零樣本語音合成模型具備了低參數(shù)量、高推理速度、高語音質(zhì)量三大優(yōu)點,ZipVoice-Dialog 提供了又快又穩(wěn)又好的對話語音合成新方案。ZipVoice 系列模型為輕量化、高速度要求的語音交互應(yīng)用場景提供了新的解決方案。
此外,小米表示未來團隊將持續(xù)對 ZipVoice 系列模型進行優(yōu)化,致力于讓每一個人都能享受到低成本高質(zhì)量的語音合成技術(shù)。
參考地址:
ZipVoice 系列的模型文件、訓(xùn)練代碼和推理代碼以及 6.8k 小時的語音對話數(shù)據(jù)集 OpenDialog 已全部開源:https://github.com/ k2-fsa / ZipVoiceZipvoice 論文已被 ASRU2025 接收:https://arxiv.org/ pdf/2506.13053樣例體驗請訪問:https://zipvoice.github.io