自從 Google Gemini 將數(shù)學(xué)奧賽的成功部分歸功于「并行思維」后,如何讓大模型掌握這種并行探索多種推理路徑的能力,成為了學(xué)界關(guān)注的焦點。
然而,現(xiàn)有方法多依賴于監(jiān)督微調(diào)(SFT),模型一來只能模仿預(yù)先構(gòu)造的 parallel thinking 數(shù)據(jù),難以泛化到真實的復(fù)雜任務(wù)中,其次這種方式對數(shù)據(jù)要求很高,往往需要復(fù)雜的 data pipeline 來構(gòu)造。
為解決這些難題,來自騰訊 AI Lab 西雅圖、馬里蘭大學(xué)、卡內(nèi)基梅隆大學(xué)、北卡教堂山分校、香港城市大學(xué)、圣路易斯華盛頓大學(xué)等機構(gòu)的研究者們(第一作者鄭童是馬里蘭大學(xué)博士生,本工作于其在騰訊 AI Lab 西雅圖實習(xí)期間完成)首創(chuàng)了 Parallel-R1 框架 ——這是第一個通過強化學(xué)習(xí)(RL)在通用數(shù)學(xué)推理任務(wù)上教會大模型進(jìn)行并行思維的框架。該框架通過創(chuàng)新的「漸進(jìn)式課程」與「交替式獎勵」設(shè)計,成功解決了 RL 訓(xùn)練中的冷啟動和獎勵設(shè)計難題。
實驗表明,Parallel-R1 不僅在多個數(shù)學(xué)基準(zhǔn)上帶來高達(dá) 8.4% 的平均準(zhǔn)確率提升,更通過一種 “中程訓(xùn)練腳手架” 的策略,在 AIME25 測試中實現(xiàn)了 42.9% 的性能飛躍。
論文標(biāo)題:Parallel-R1: Towards Parallel Thinking via Reinforcement Learning論文地址:https://arxiv.org/abs/2509.07980項目地址:https://github.com/zhengkid/Parallel-R1 (Coming Soon)項目主頁:https://zhengkid.github.io/Parallel_R1.github.io/
并行思維的挑戰(zhàn):為何注入并行思維如此困難?
并行思維,即同時探索多條推理路徑再進(jìn)行歸納總結(jié)。
圖 1:并行思考流程示意圖。
目前最主流的注入并行思維的范式是監(jiān)督微調(diào) (SFT),但這種方式本質(zhì)上是行為克隆,強迫模型模仿固定的、預(yù)先生成的數(shù)據(jù),導(dǎo)致模型只會進(jìn)行表面上的模式匹配,而無法真正習(xí)得和泛化并行思維這一內(nèi)在的推理能力。其次,這類方式對數(shù)據(jù)質(zhì)量和多樣性的要求非常高,只有非常高質(zhì)量的數(shù)據(jù)才能讓模型學(xué)習(xí)到很好的 parallel thinking 能力。然而,遺憾的是,在現(xiàn)實世界中,人們很難天然獲取高質(zhì)量的這類數(shù)據(jù),因此只能依賴于人工合成。而對于真實世界的推理任務(wù),構(gòu)造這些數(shù)據(jù)的難度很大,需要復(fù)雜的數(shù)據(jù)管道。
另一方面強化學(xué)習(xí)(RL)是一種更擴展性強的,但在通用、真實的復(fù)雜任務(wù)中進(jìn)行并行思維訓(xùn)練卻面臨兩大核心挑戰(zhàn):
冷啟動問題(Cold-Start):由于預(yù)訓(xùn)練模型從未見過并行思維的特定格式(如同時生成多個解題路徑),在 RL 探索初期,它根本無法自發(fā)產(chǎn)生這類軌跡,導(dǎo)致學(xué)習(xí)無從下手。這時候就需要一個冷啟動階段。但是上文提到,對于真實世界的難題,這種數(shù)據(jù)很難構(gòu)造。獎勵設(shè)計困境(Reward Design):如何平衡「解題正確率」和「思維方式」是一個難題。如果只獎勵最終答案的正確性,模型會傾向于走最簡單、最熟悉的單路徑「捷徑」,從而「遺忘」更復(fù)雜的并行思維;而如果強行要求使用平行格式,又可能導(dǎo)致模型為了格式而犧牲邏輯的嚴(yán)謹(jǐn)性,反而降低了準(zhǔn)確率。
圖 2:漸進(jìn)式課程訓(xùn)練示意圖
Parallel-R1 的解法:首個為真實世界推理任務(wù)打造的 RL 框架
為攻克上述難題,Parallel-R1 作為首個專為通用、復(fù)雜數(shù)學(xué)推理等真實世界任務(wù)設(shè)計的強化學(xué)習(xí)框架被提出。它通過一套精巧的組合拳,系統(tǒng)性地解決了訓(xùn)練困境。
漸進(jìn)式課程:從「學(xué)格式」到「學(xué)探索」
研究者的一個關(guān)鍵發(fā)現(xiàn)是:用簡單的提示工程,讓強大的模型為簡單數(shù)學(xué)題(如 GSM8K)生成高質(zhì)量的并行思維數(shù)據(jù)是可行的(成功率 83.7%),但對于復(fù)雜難題(如 DAPO)則完全無效(成功率 0.0%)。
基于這一洞察,他們巧妙的避開了復(fù)雜的數(shù)據(jù)管道依賴,并設(shè)計了一種漸進(jìn)式課程:
第二階段(能力泛化):當(dāng)模型掌握了基本格式后,再將其置于更困難的數(shù)學(xué)任務(wù)中,通過 RL 進(jìn)行訓(xùn)練 。此時,模型已經(jīng)具備了生成平行軌跡的 “火種”,可以在 RL 的驅(qū)動下自由探索、試錯,并最終將這一能力泛化到未知難題上。
交替式獎勵:在「準(zhǔn)確性」與「多樣性」間取得平衡
針對獎勵設(shè)計的困境,研究團(tuán)隊試驗了多種方案,最終提出了一種高效的交替式獎勵策略。該策略在訓(xùn)練過程中,周期性地在兩種獎勵模式間切換:
80% 的時間使用「準(zhǔn)確率獎勵」:只根據(jù)最終答案是否正確給予獎勵,確保模型的核心目標(biāo)始終是解決問題。20% 的時間使用「分層獎勵」:在這一模式下,如果模型使用了并行思維并且答案正確,會獲得一個額外獎勵(+1.2 分);如果未使用并行思維但答案正確,則獲得標(biāo)準(zhǔn)獎勵(+1.0 分);否則將受到懲罰。
消融實驗(見下表)證明了該策略的優(yōu)越性。單純獎勵準(zhǔn)確率,模型的并行思維使用率極低(13.6%);單純獎勵平行格式,模型性能會嚴(yán)重下滑。而交替式策略在將并行思維使用率提升至 63.0% 的同時,還能在 AIME 等高難度測試上取得最佳性能,完美實現(xiàn)了「既要并行行為又要準(zhǔn)確率」的目標(biāo)。
并行思考模型超過單一思考模型
根據(jù)下面提供的性能對比表,注入了并行思維能力的模型在各項數(shù)學(xué)推理基準(zhǔn)測試中,其性能優(yōu)于傳統(tǒng)的單一(順序)思考模型。
打開「黑箱」:模型如何悄然改變思維策略?
除了提出高效的訓(xùn)練框架,該研究還深入分析了模型在學(xué)習(xí)過程中的動態(tài)變化,揭示了一個有趣現(xiàn)象:模型的并行思維策略會隨著訓(xùn)練的深入,從「探索」演變?yōu)?「驗證」。
圖 3:訓(xùn)練過程中 < Parallel > 模塊相對位置的變化,曲線穩(wěn)步上升,表明其應(yīng)用從早期探索轉(zhuǎn)向后期驗證。
意外之喜:作為「訓(xùn)練腳手架」的并行思維
研究還發(fā)現(xiàn)了一個更令人振奮的結(jié)論:并行思維本身可以作為一種臨時的「結(jié)構(gòu)化探索腳手架」,來幫助模型解鎖更高的性能上限。
研究者設(shè)計了一個兩階段訓(xùn)練實驗:
探索階段(0-200 步):采用交替式獎勵,強制模型高頻率地使用并行思維,進(jìn)行廣泛的策略空間探索。利用階段(200 步后):切換為純粹的準(zhǔn)確率獎勵。此時,模型會逐漸減少對平行格式的依賴,轉(zhuǎn)而專注于提煉和利用在第一階段發(fā)現(xiàn)的最優(yōu)策略。
結(jié)果(見下圖)顯示,進(jìn)入第二階段后,盡管模型的并行思維使用率(綠線)驟降,但其在 AIME25 上的準(zhǔn)確率(紅線)卻持續(xù)攀升,最終達(dá)到了25.6% 的峰值。這一成績相較于從頭到尾只用標(biāo)準(zhǔn) RL 訓(xùn)練的基線模型,實現(xiàn)了高達(dá) 42.9% 的相對提升。這證明了,短暫地「強迫」模型進(jìn)行平行探索,能夠幫助它發(fā)現(xiàn)一個更優(yōu)的「能力區(qū)間」,即使后續(xù)不再使用這種形式,其學(xué)到的核心推理能力也得到了質(zhì)的飛躍。
圖 4:兩階段訓(xùn)練曲線。在探索階段后,并行思維使用率下降,但模型準(zhǔn)確率持續(xù)走高,超越基線。
總結(jié)
在這項工作中,研究者們提出了Parallel-R1,這是首個能在真實的通用數(shù)學(xué)推理任務(wù)上,通過強化學(xué)習(xí)教會大模型進(jìn)行并行思維的框架。除此之外,研究者們進(jìn)一步對并行思考行為以及其潛在價值進(jìn)行了深入探討。