發(fā)布時(shí)間:2025-09-19 來源:擬規(guī)畫圓網(wǎng)作者:讓一切隨風(fēng)_tM4t
小紅書智創(chuàng)音頻技術(shù)團(tuán)隊(duì)近日發(fā)布新一代對(duì)話合成模型 FireRedTTS-2。該模型聚焦現(xiàn)有方案的痛點(diǎn):靈活性差、發(fā)音錯(cuò)誤多、說話人切換不穩(wěn)、韻律不自然等問題,通過升級(jí)離散語音編碼器與文本語音合成模型全面優(yōu)化合成效果。在多項(xiàng)主客觀測(cè)評(píng)中,F(xiàn)ireRedTTS-2 均達(dá)到行業(yè)領(lǐng)先水平,為多說話人對(duì)話合成提供了更優(yōu)解決方案。
論文標(biāo)題:FireRedTTS-2: Towards Long Conversational Speech Generation for Podcast and Chatbot技術(shù)報(bào)告:https://arxiv.org/pdf/2509.02020Demo 鏈接:https://fireredteam.github.io/demos/firered_tts_2/代碼鏈接:https://github.com/FireRedTeam/FireRedTTS2
效果 Demo
一開口就像真人,播客生成不在話下。先來聽一段 “Taylor Swift 戀愛消息” 的播報(bào),你能分出這是真實(shí)錄音還是 AI 合成嗎?
答案揭曉!上方視頻的聲音并非真人,而是由基于數(shù)百萬小時(shí)語音數(shù)據(jù)訓(xùn)練的 FireRedTTS-2 合成的播客音頻。它對(duì)重音、情緒、停頓等細(xì)節(jié)把握到位,聽感自然流暢。相比閉源的豆包,F(xiàn)ireRedTTS-2 的播客生成自然度可與之媲美;更重要的是,它還支持豆包不具備的音色克隆能力:只需提供對(duì)話中每個(gè)發(fā)音人的一句語音樣本,模型即可模仿其音色與說話習(xí)慣,自動(dòng)生成后續(xù)整段對(duì)話。在開源對(duì)話生成模型中(如 MoonCast、ZipVoice-Dialogue、MOSS-TTSD),F(xiàn)ireRedTTS-2 在多說話人音色切換的穩(wěn)定性與韻律自然度方面處于行業(yè)領(lǐng)先,為 AI 播客等對(duì)話合成應(yīng)用提供了工業(yè)級(jí)解決方案。
隨著多模態(tài)大模型的快速發(fā)展,全行業(yè)對(duì)數(shù)據(jù)的需求與日俱增,尤其在語音識(shí)別與對(duì)話交互領(lǐng)域,訓(xùn)練需要大規(guī)模的多音色、跨語言音頻數(shù)據(jù)。FireRedTTS-2 不僅支持隨機(jī)音色生成,還開箱即用地覆蓋中文、英語、日語、韓語、法語等多種語言。因此,它既能滿足創(chuàng)新玩法的探索,也可作為高效的生產(chǎn)力工具,為下游任務(wù)生成高質(zhì)量的對(duì)話 / 非對(duì)話音頻數(shù)據(jù)。下方視頻展示了不同隨機(jī)音色、不同語言的生成效果。
對(duì)話合成背景
近來,多說話人對(duì)話合成被廣泛應(yīng)用于播客生成等下游應(yīng)用場(chǎng)景。在實(shí)現(xiàn)方式上,傳統(tǒng)方法通常先按說話人將對(duì)話切分,逐句獨(dú)立合成后再拼接。這樣的做法不僅繁瑣,還容易導(dǎo)致句間韻律斷裂,尤其在句子銜接處尤為不自然。
盡管目前出現(xiàn)了一些方法可以建模整段對(duì)話,但它們往往要求輸入完整對(duì)話文本,并一次性輸出包含所有說話人的整段語音,難以支持逐句生成。這不僅增加了后續(xù)編輯與處理的難度,也因其不夠靈活而不利于在交互式對(duì)話場(chǎng)景中應(yīng)用。此外,這類方法的合成質(zhì)量仍不穩(wěn)定,常見問題包括發(fā)音錯(cuò)誤、句子間說話人身份混淆以及合成的語音韻律不夠自然。
FireRedTTS-2 系統(tǒng)簡(jiǎn)介
為解決當(dāng)前對(duì)話合成系統(tǒng)存在的靈活性不足、合成質(zhì)量欠佳等問題,F(xiàn)ireRedTTS-2 升級(jí)了 TTS 系統(tǒng)的兩大核心模塊:
離散語音編碼器(Speech tokenizer):12.5Hz 低幀率,具有更強(qiáng)語義信息,且支持流式解碼文本語音合成模型(Text-to-speech model):支持逐句生成,合成穩(wěn)定且質(zhì)量高
離散語音編碼器
離散語音編碼器將連續(xù)語音信號(hào)壓縮為離散標(biāo)簽序列,便于大語言模型處理。FireRedTTS-2 采用的語音編碼器以 12.5Hz 的低幀率輸出:即 1 秒僅對(duì)應(yīng) 12.5 個(gè)標(biāo)簽。對(duì)于對(duì)話建模,這縮短了語音序列長(zhǎng)度、即提升了速度,又縮小了與文本序列的長(zhǎng)度差距,降低了大語言模型的建模難度。為增強(qiáng)語義表達(dá),編碼器在訓(xùn)練時(shí)引入預(yù)訓(xùn)練模型提取的語義特征,并對(duì)離散標(biāo)簽進(jìn)行語義監(jiān)督,使標(biāo)簽攜帶更豐富的語義信息,幫助模型更容易學(xué)會(huì)從文本到語音的映射。除此之外,它還支持流式解碼,可實(shí)時(shí)輸出音頻,便于無縫接入各類流式交互應(yīng)用。
在訓(xùn)練策略上,離散語音編碼器先在約 50 萬小時(shí)的多樣化語音數(shù)據(jù)上訓(xùn)練,以提升泛化能力;再在其中約 6 萬小時(shí)的高質(zhì)量語音上繼續(xù)訓(xùn)練,優(yōu)化重建音質(zhì)。
文本語音合成模型
為提升對(duì)話合成的靈活性,F(xiàn)ireRedTTS-2 采用文本 - 語音混排的格式,支持逐句生成,便于后續(xù)編輯與多場(chǎng)景適配?;炫鸥袷綄?duì)話文本與語音組織為:“[S1] 說話人 1 文本 + 語音 [S2] 說話人 2 文本 + 語音 [S3] 說話人 3 文本 + 語音…”,其中 [S1]、[S2]、[S3] 為說話人標(biāo)簽,用于區(qū)分不同角色。
在模型架構(gòu)上,為更充分地利用對(duì)話上下文,F(xiàn)ireRedTTS-2 采用 “雙 Transformer ” 的設(shè)計(jì):
1.5B 參數(shù)的 Backbone Transformer 負(fù)責(zé)建?;炫判蛄兄姓Z音的粗粒度信息0.2B 參數(shù)的 Decoder Transformer 補(bǔ)充語音中的聲學(xué)細(xì)節(jié)
相比常用的 Delay pattern 方法,該架構(gòu)充分利用了上下文中的文本與語音,可以生成更自然、連貫的對(duì)話語音;同時(shí)支持低首包延遲,配合離散語音編碼器的流式解碼,實(shí)現(xiàn)更快起播。
FireRedTTS-2 采用兩階段訓(xùn)練:先在 110 萬小時(shí)單句語音上預(yù)訓(xùn)練,夯實(shí)合成基礎(chǔ);再用 30 萬小時(shí)對(duì)話語音繼續(xù)訓(xùn)練,覆蓋 2–4 人對(duì)話場(chǎng)景。由此可穩(wěn)定生成高質(zhì)量對(duì)話語音,準(zhǔn)確處理說話人切換,保持上下文一致與自然韻律。面向應(yīng)用場(chǎng)景, FireRedTTS-2 僅需少量數(shù)據(jù)即可實(shí)現(xiàn)微調(diào),快速完成音色定制。
FireRedTTS-2 效果比較
為評(píng)估對(duì)話合成效果,F(xiàn)ireRedTTS-2 與 MoonCast、ZipVoice-Dialogue、MOSS-TTSD 等其他系統(tǒng)在自建的中英文對(duì)話測(cè)試集上進(jìn)行了比較:
客觀上,比較了對(duì)話合成的正確率(CER/WER)、對(duì)話間說話人保持能力(SIM)、以及與真實(shí)錄音之間的差距(MCD)主觀上,F(xiàn)ireRedTTS-2 與其他系統(tǒng)進(jìn)行了偏好打分(CMOS)
結(jié)果顯示,F(xiàn)ireRedTTS-2 在主客觀指標(biāo)上均為最優(yōu),顯著降低發(fā)音錯(cuò)誤,避免說話人混淆,具有更真實(shí)的韻律表現(xiàn),為對(duì)話合成提供了更優(yōu)解。
同時(shí),F(xiàn)ireRedTTS-2 只需約 50 小時(shí)的特定播客說話人錄音即可完成音色定制,使對(duì)話合成的自然度逼近真人。在自建中文對(duì)話測(cè)試集上,我們開展了客觀(CER)與主觀(自然度偏好)評(píng)測(cè):微調(diào)后 CER 僅為 1.66%;主觀聽評(píng)中,28% 的測(cè)例被認(rèn)為比真實(shí)播客錄音更自然,另有 28% 難以區(qū)分二者??傮w來看,56% 的測(cè)例表明其自然度已達(dá)到或超過真實(shí)錄音。
總結(jié)與展望
FireRedTTS-2 針對(duì)當(dāng)前對(duì)話合成的兩大痛點(diǎn):無法逐句生成(靈活性差)與合成質(zhì)量不穩(wěn)定(發(fā)音錯(cuò)誤、說話人切換混亂、韻律不自然),升級(jí)了兩項(xiàng)關(guān)鍵模塊。
離散語音編碼器:低幀率、語義信息豐富,縮短語音序列、降低長(zhǎng)對(duì)話建模難度并提升穩(wěn)定性;支持流式解碼,適配實(shí)時(shí)場(chǎng)景。文本語音合成模型:采用文本 - 語音混排輸入,支持逐句生成;雙 Transformer 架構(gòu)充分利用文本與歷史語音上下文,合成更自然、連貫的對(duì)話語音;具備低首包延遲,配合編碼器的流式解碼實(shí)現(xiàn)快速起播。
從結(jié)果上看,F(xiàn)ireRedTTS-2 在各項(xiàng)主客觀指標(biāo)上均優(yōu)于 MoonCast、ZipVoice-Dialogiue、MOSS-TTSD 等系統(tǒng),為對(duì)話生成提供了更優(yōu)的解法。未來團(tuán)隊(duì)將持續(xù)優(yōu)化 FireRedTTS-2,拓展支持的說話人人數(shù)與支持的語種,并解鎖可控音效插入等更多玩法。