點(diǎn)擊右上角微信好友
朋友圈
請(qǐng)使用瀏覽器分享功能進(jìn)行分享
IT之家 9 月 12 日消息,小米集團(tuán) AI 實(shí)驗(yàn)室今日宣布,旗下 Kaldi 團(tuán)隊(duì)上個(gè)月發(fā)布了基于 Flow Matching 架構(gòu)的 ZipVoice 系列語(yǔ)音合成(TTS)模型,包括:
ZipVoice(零樣本單說(shuō)話人語(yǔ)音合成模型)ZipVoice-Dialog(零樣本對(duì)話語(yǔ)音合成模型)
據(jù)官方介紹,作為 zipformer 在語(yǔ)音生成任務(wù)上的應(yīng)用和探索,ZipVoice 解決了現(xiàn)有零樣本語(yǔ)音合成模型的參數(shù)量大、合成速度慢的痛點(diǎn),在輕量化建模和推理加速上取得了重要突破。
ZipVoice-Dialog 則解決了現(xiàn)有對(duì)話語(yǔ)音合成模型在穩(wěn)定性和推理速度上的瓶頸,實(shí)現(xiàn)了又快又穩(wěn)又自然的語(yǔ)音對(duì)話合成。
IT之家從小米官方獲悉,ZipVoice 首次將原本為自動(dòng)語(yǔ)音識(shí)別(ASR)設(shè)計(jì)的 Zipformer 架構(gòu)引入 TTS 任務(wù)作為模型的骨干網(wǎng)絡(luò),Zipformer 中的三大設(shè)計(jì):基于 U-Net 的多尺度高效率結(jié)構(gòu)、卷積與注意力機(jī)制的協(xié)同處理、以及注意力權(quán)重的多次復(fù)用都高度適配語(yǔ)音合成任務(wù),從而實(shí)現(xiàn)了語(yǔ)音合成模型的高效建模。
得益于這一設(shè)計(jì),相比基于 DiT 的語(yǔ)音合成模型,在性能相似的情況下,ZipVoice 的參數(shù)量減少了約 63%。
性能方面,ZipVoice 和 ZipVoice-Distill 在具備更小參數(shù)量和更快推理速度的同時(shí),在三個(gè)客觀指標(biāo),即說(shuō)話人相似度(SIM-o)、詞錯(cuò)誤率(WER)和 UTMOS,以及兩個(gè)主觀指標(biāo)(CMOS、SMOS)上都極具競(jìng)爭(zhēng)力,達(dá)到了零樣本語(yǔ)音合成模型的 SOTA 性能水平,同時(shí)顯著減少了模型參數(shù)量,加快了推理速度。
小米官方表示,ZipVoice 零樣本語(yǔ)音合成模型具備了低參數(shù)量、高推理速度、高語(yǔ)音質(zhì)量三大優(yōu)點(diǎn),ZipVoice-Dialog 提供了又快又穩(wěn)又好的對(duì)話語(yǔ)音合成新方案。ZipVoice 系列模型為輕量化、高速度要求的語(yǔ)音交互應(yīng)用場(chǎng)景提供了新的解決方案。
此外,小米表示未來(lái)團(tuán)隊(duì)將持續(xù)對(duì) ZipVoice 系列模型進(jìn)行優(yōu)化,致力于讓每一個(gè)人都能享受到低成本高質(zhì)量的語(yǔ)音合成技術(shù)。
參考地址:
ZipVoice 系列的模型文件、訓(xùn)練代碼和推理代碼以及 6.8k 小時(shí)的語(yǔ)音對(duì)話數(shù)據(jù)集 OpenDialog 已全部開(kāi)源:https://github.com/ k2-fsa / ZipVoiceZipvoice 論文已被 ASRU2025 接收:https://arxiv.org/ pdf/2506.13053樣例體驗(yàn)請(qǐng)?jiān)L問(wèn):https://zipvoice.github.io