發(fā)布時間:2025-09-21 來源:德隆望尊網(wǎng)作者:luciaoo
高質(zhì)量數(shù)據(jù)的不足,已經(jīng)成為限制大語言模型(LLM)持續(xù)學(xué)習(xí)、提升能力的瓶頸。
為此,Meta 提出了一個名為“語言自我博弈”(Language Self-Play,LSP)的強化學(xué)習(xí)(RL)新方法,通過讓模型在不依賴額外數(shù)據(jù)的情況下進行自我改進,從而消除了這種依賴性。
論文鏈接:https://arxiv.org/abs/2509.07414
這一方法利用了自我博弈(self-play)的博弈論框架,將模型的能力視為在競技游戲中的表現(xiàn),并通過讓模型自己與自己博弈來產(chǎn)生更強的策略。
在指令遵循基準(zhǔn)測試中,使用 Llama-3.2-3B-Instruct 進行的實驗表明,預(yù)訓(xùn)練模型不僅可以單獨通過自我博弈來提高其在挑戰(zhàn)性任務(wù)上的性能,而且比數(shù)據(jù)驅(qū)動的基線模型更有效。
自我博弈:既是挑戰(zhàn)者,又是解題者
據(jù)論文介紹,在 LSP 框架中,同一個預(yù)訓(xùn)練 LLM 被賦予兩種不同身份,形成動態(tài)對抗關(guān)系。
其中,“挑戰(zhàn)者” (Challenger)負(fù)責(zé)生成查詢內(nèi)容,目標(biāo)是設(shè)計更具挑戰(zhàn)性的指令,以此“難住”解題者,從而最小化任務(wù)獎勵。為了讓挑戰(zhàn)者生成有效查詢,研究團隊設(shè)計了專用提示詞( ),明確要求其生成符合任務(wù)類型、測試模型能力的輸入,既可以是簡單指令,也能是高難度或帶有“壓力測試”性質(zhì)的內(nèi)容。
“解題者”(Solver)則負(fù)責(zé)對挑戰(zhàn)者生成的查詢進行響應(yīng),目標(biāo)是給出高質(zhì)量回答,最大化任務(wù)獎勵。這里的獎勵既可以是基于結(jié)果驗證的客觀評分,也可以是基于人類偏好的主觀評價。
圖|LSP Agent 在挑戰(zhàn)者和解題者兩種模式下運行。當(dāng)解題者不斷學(xué)習(xí)優(yōu)化對 prompt 的響應(yīng)時,挑戰(zhàn)者則會設(shè)計更具挑戰(zhàn)性的任務(wù)。這兩種模式均由同一模型實現(xiàn),從而支持持續(xù)訓(xùn)練,生成質(zhì)量不斷提升的自動生成數(shù)據(jù)。
挑戰(zhàn)者和解題者的對抗關(guān)系,簡單來說是由前者出“難題”,后者全力以赴“破題”,在持續(xù)對抗中,實現(xiàn)雙方能力的同步提升。為了讓“自我博弈”過程穩(wěn)定、高效,LSP 引入了兩項核心技術(shù)支撐:
群體相對策略優(yōu)化(GRPO):每次訓(xùn)練迭代時,挑戰(zhàn)者先生成 N 個查詢;針對每個查詢,解題者生成 G 個不同回答,并分別獲得對應(yīng)的任務(wù)獎勵。隨后,通過計算“群體價值”,既為解題者的回答質(zhì)量提供評估基準(zhǔn),也幫助團隊量化挑戰(zhàn)者希望優(yōu)化的查詢難度指標(biāo)。
KL 散度正則化:這一技術(shù)主要用于防止模型“走偏”。一方面,它能確保經(jīng)過訓(xùn)練的模型不會與初始參考模型偏差過大,避免性能波動;另一方面,能有效阻止挑戰(zhàn)者生成無語義意義的“亂碼式”查詢,保證訓(xùn)練過程的有效性。
從 LSP-Zero 到 LSP:長期、穩(wěn)定自主訓(xùn)練
最初,研究團隊提出了 LSP 的基礎(chǔ)版本 —— LSP-Zero,這是一種純零和博弈模式,僅依靠挑戰(zhàn)者與解題者的對抗驅(qū)動訓(xùn)練,沒有額外的質(zhì)量約束。
但他們在實驗中發(fā)現(xiàn),LSP-Zero 存在明顯缺陷:隨著訓(xùn)練推進,模型容易陷入“對抗性無意義游戲”。例如,在使用 OpenAssistant 的獎勵模型(reward-model-deberta-v3-large-v2)時,解題者會出現(xiàn)“獎勵黑客攻擊”—— 不管挑戰(zhàn)者的查詢是什么類型,都用 Python 代碼回應(yīng),以此鉆獎勵規(guī)則的空子,導(dǎo)致訓(xùn)練偏離提升能力的核心目標(biāo)。
為了引導(dǎo)游戲?qū)崿F(xiàn)高質(zhì)量的交互體驗,研究人員對 LSP-Zero 進行升級,推出了加入自獎勵機制的版本 LSP:引入質(zhì)量自獎勵,由參考模型對“挑戰(zhàn)者查詢 + 解題者回答”的質(zhì)量進行評分,并將這一分?jǐn)?shù)加入雙方的最終獎勵中。自獎勵采用7 分制加分標(biāo)準(zhǔn),從 7 個維度全面評估交互質(zhì)量:
當(dāng)且僅當(dāng)用戶的任務(wù)可以從指令中明確識別;
當(dāng)且僅當(dāng)指令清晰、具體和結(jié)構(gòu)良好;
用戶能理解解題者的響應(yīng);
當(dāng)且僅當(dāng)響應(yīng)解決了用戶問題的很大一部分(無需完全完成);
響應(yīng)有效地、全面地回答了問題的核心要素;
響應(yīng)是清晰的、簡明的、有組織的、有用的;
當(dāng)且僅當(dāng)是用戶可能喜歡的形式與風(fēng)格。
加入自獎勵后,LSP 的“自我博弈”不再是單純的零和博弈,而是轉(zhuǎn)向“高質(zhì)量共贏”。挑戰(zhàn)者需要生成有價值的查詢,解題者需要給出優(yōu)質(zhì)回答,雙方共同追求更高的質(zhì)量評分。這一改進徹底解決了無意義對抗問題,讓模型能實現(xiàn)長期、穩(wěn)定的自主訓(xùn)練。
為驗證 LSP 的有效性,研究團隊以 AlpacaEval 基準(zhǔn)和 Llama-3.2-3B-Instruct 為基礎(chǔ)模型,開展了兩組實驗。
首先,他們將無數(shù)據(jù)的 LSP 與作為自獎勵正則化消融實驗的 LSP-Zero 進行對比,并將其與基于 Alpaca 數(shù)據(jù)通過 RL 訓(xùn)練的模型進行比較。該實驗旨在分析在 RL 數(shù)據(jù)完全缺失的情況下,僅通過自我博弈策略,能夠恢復(fù)多少基于數(shù)據(jù)訓(xùn)練的性能。
圖|展示了基于 GRPO(數(shù)據(jù)支持,黃色條形圖)、LSP-Zero 與 LSP(無數(shù)據(jù)支持,紅色和藍(lán)色條形圖分別對應(yīng))在 AlpacaEval 基準(zhǔn)測試中相對于基礎(chǔ)模型 Llama-3.2-3B-Instruct 的勝率對比。所有算法在整體基準(zhǔn)測試中均優(yōu)于基礎(chǔ)模型(最右側(cè)條形圖)。具體勝率分別為:GRPO 40.9%、LSP-Zero 40.1%、LSP 40.6%?;疑珜嵕€表示基礎(chǔ)模型與自身對比的勝率(即模型以相等概率贏得、平局和輸?shù)襞c自身比賽)。
通過在 AlpacaEval 數(shù)據(jù)集上計算各算法對 Llama-3.2-3B-Instruct 的勝率,包括各獨立數(shù)據(jù)集的表現(xiàn),他們得到以下結(jié)果。盡管未使用任何訓(xùn)練數(shù)據(jù),LSP-Zero 和 LSP 仍顯著提升了基礎(chǔ)模型的性能,其整體表現(xiàn)與 GRPO 相當(dāng),而 LSP 模型比 LSP-Zero 模型更具優(yōu)勢。值得注意的是,在某些任務(wù)(例如專攻對話式開放式指令的 Vicuna 數(shù)據(jù)集)中,LSP-Zero 和 LSP 模型最終表現(xiàn)顯著優(yōu)于基礎(chǔ)模型和 GRPO。這是因為挑戰(zhàn)者生成的 prompt 本身就帶有對話屬性,與任務(wù)需求高度匹配,凸顯了 LSP 在特定場景下的優(yōu)勢。
圖|展示了 LSP-Zero 和 LSP(無數(shù)據(jù),紅色與藍(lán)色柱狀圖)在 AlpacaEval 基準(zhǔn)測試中,與初始訓(xùn)練模型(基于 GRPO 數(shù)據(jù)訓(xùn)練,黃色柱狀圖)的勝率對比??傮w而言,LSP 表現(xiàn)優(yōu)于 GRPO,在 Vicuna 任務(wù)中優(yōu)勢顯著。具體勝率分別為:GRPO 40.9%、LSP-Zero 40.0%、LSP 43.1%。灰色實線表示基礎(chǔ)模型自身的勝率。
此外,研究團隊還做了另一組實驗:先使用 GRPO 訓(xùn)練模型,再以該模型為初始模型,用 LSP 繼續(xù)訓(xùn)練。結(jié)果顯示,LSP 能在已有基礎(chǔ)上進一步提升性能。LSP 對 Llama-3.2-3B-Instruct 的整體勝率從 40.9% 提升至 43.1%。在 Vicuna 模型中,LSP-Zero 將 GRPO 的勝率從 28.7% 提升至 36.3%,LSP 甚至進一步達(dá)到了 46.3%。
不過,LSP 方法也存在不足:在以聊天機器人用戶類型查詢?yōu)橹鞯?Koala 數(shù)據(jù)集中,LSP 性能略遜于 GRPO。研究團隊分析,這是因為 LSP 生成的查詢更偏向結(jié)構(gòu)化、有序的風(fēng)格,與 Koala 數(shù)據(jù)集的松散對話場景匹配度較低,未來工作仍需要優(yōu)化查詢生成的多樣性。
無數(shù)據(jù)訓(xùn)練的新可能
LSP 的提出,不僅解決了大模型訓(xùn)練的數(shù)據(jù)依賴難題,更從技術(shù)層面驗證了“無數(shù)據(jù)訓(xùn)練”的可行性,為大模型未來發(fā)展帶來多重價值。
例如,在訓(xùn)練成本方面,無需大規(guī)模收集、清洗、標(biāo)注數(shù)據(jù),大幅減少了數(shù)據(jù)獲取環(huán)節(jié)的人力與資源投入;在數(shù)據(jù)稀缺的應(yīng)用場景下,LSP 可讓模型在不依賴外部數(shù)據(jù)的情況下持續(xù)優(yōu)化;而且,通過“自我博弈 + 自我獎勵”機制,模型能夠長期自主訓(xùn)練,實現(xiàn)自主進化。
研究團隊相信,一旦 AI 實現(xiàn)“具身”,并能夠收集自己的經(jīng)驗數(shù)據(jù),這種自我博弈框架在擴展知識方面就有希望顯現(xiàn)出巨大潛力。
整理:小瑜
如需轉(zhuǎn)載或投稿,請直接在公眾號內(nèi)留言