機(jī)器之心報(bào)道
機(jī)器之心編輯部
自 2014 年提出以來,Adam 及其改進(jìn)版 AdamW 長期占據(jù)開放權(quán)重語言模型預(yù)訓(xùn)練的主導(dǎo)地位,幫助模型在海量數(shù)據(jù)下保持穩(wěn)定并實(shí)現(xiàn)較快收斂。
隨著模型規(guī)模迅速擴(kuò)大,預(yù)訓(xùn)練已成為計(jì)算密集型任務(wù)的典型代表,在大模型研發(fā)中往往是最主要的計(jì)算開銷。在這種背景下,優(yōu)化器的設(shè)計(jì)直接關(guān)系到收斂速度與計(jì)算成本。
研究者們探索了多種改進(jìn)方向,其中最快的優(yōu)化器往往采用矩陣型預(yù)條件子(如 Muon、Soap、Kron),相較于經(jīng)過嚴(yán)格調(diào)優(yōu)的 AdamW,可以帶來約 30–40% 的迭代級別加速。
斯坦福大學(xué) Percy Liang 團(tuán)隊(duì)的研究指出,盡管存在許多聲稱能提供顯著加速(1.4 至 2 倍)的替代方案,AdamW 依然是預(yù)訓(xùn)練的穩(wěn)健首選,但矩陣型方法在特定數(shù)據(jù)–模型比例下展現(xiàn)出明顯優(yōu)勢。
論文標(biāo)題:Fantastic Pretraining Optimizers and Where to Find Them論文地址:https://www.arxiv.org/pdf/2509.02046v1Github:https://github.com/marin-community/marin/issues/1290博客:https://wandb.ai/marin-community/marin/reports/Fantastic-Optimizers-and-Where-to-Find-Them--VmlldzoxMjgzMzQ2NQ
研究者認(rèn)為,這種現(xiàn)象可能源于兩個(gè)關(guān)鍵的方法論缺陷:
問題 1:不公平的超參數(shù)調(diào)優(yōu)。
基線模型通常調(diào)優(yōu)不足:在常用的 AdamW 基線中,僅僅是調(diào)優(yōu)學(xué)習(xí)率這一個(gè)參數(shù),就能在 1.3 億參數(shù)規(guī)模的模型上實(shí)現(xiàn) 2 倍的加速。
固定共享的超參數(shù)并不能保證比較的公平性:例如,與標(biāo)準(zhǔn)的權(quán)重衰減值 0.1 相比,Lion 優(yōu)化器更偏好較高的權(quán)重衰減值(如 0.6)。
左:常用的 AdamW 基線存在調(diào)優(yōu)不足的問題。 在 Brown 等人 [2020] 提出、并被后續(xù)多項(xiàng)研究采用的 GPT-3 訓(xùn)練方案中,僅僅針對一個(gè) 1 億參數(shù)的模型調(diào)整學(xué)習(xí)率這一個(gè)超參數(shù),便可實(shí)現(xiàn)高達(dá) 2 倍的加速,這凸顯了進(jìn)行恰當(dāng)超參數(shù)優(yōu)化的重要性。右:在不同優(yōu)化器之間固定超參數(shù)并不能保證比較的公平性。 在以往的研究中,像學(xué)習(xí)率和權(quán)重衰減這類共享超參數(shù)通常被設(shè)為常量。然而,即使是概念上相似的優(yōu)化器,其對應(yīng)的最優(yōu)超參數(shù)也可能大相徑庭。
問題 2:測試規(guī)模不足
大多數(shù)測試僅使用小型模型(參數(shù)遠(yuǎn)小于 10 億)或遵循 Chinchilla 論文提出的 1 倍數(shù)據(jù)配比。那么,在更大規(guī)模的模型或更高的數(shù)據(jù)配比下,結(jié)果會(huì)如何呢?
此外,訓(xùn)練早期的檢查點(diǎn)也可能產(chǎn)生誤導(dǎo),在學(xué)習(xí)率衰減階段,不同方法的損失曲線可能會(huì)發(fā)生交叉,從而導(dǎo)致最終排名反轉(zhuǎn)。因此,必須在(不同的)設(shè)定下進(jìn)行訓(xùn)練結(jié)束時(shí)的最終評估。
左:加速效果隨模型規(guī)模的增大而衰減。 盡管一些優(yōu)化器在參數(shù)量小于 10 億的模型上相比 AdamW 能展現(xiàn)出較高的加速比(1.3-1.4 倍),但當(dāng)模型規(guī)模增至 12 億參數(shù)時(shí),其加速比會(huì)衰減至僅 1.1 倍。右:基于矩陣的優(yōu)化器性能穩(wěn)定優(yōu)于基于標(biāo)量的優(yōu)化器。 該圖展示了三種基于標(biāo)量的優(yōu)化器(AdamW, Nesterov AdamW, Mars)和三種基于矩陣的優(yōu)化器(Kron, Soap, Muon)在不同 Chinchilla 數(shù)據(jù)配比下訓(xùn)練時(shí)的損失曲線?;诰仃嚨膬?yōu)化器相比基于標(biāo)量的優(yōu)化器實(shí)現(xiàn)了一致的加速效果。此外,在過訓(xùn)練(overtrained)的情況下,這三種基于矩陣的優(yōu)化器最終會(huì)收斂到相似的損失值。
為了驗(yàn)證這一假設(shè),研究人員進(jìn)行了系統(tǒng)性的比較研究,涵蓋了十一種不同的深度學(xué)習(xí)優(yōu)化器。他們在多種模型規(guī)模(從 1 億到 12 億參數(shù))和數(shù)據(jù)–模型比例(參照 Chinchilla 最優(yōu)比例的 1 倍至 8 倍)下,為每一種優(yōu)化器都進(jìn)行了嚴(yán)謹(jǐn)、獨(dú)立的超參數(shù)調(diào)優(yōu)。
本研究所使用的優(yōu)化器。
研究發(fā)現(xiàn):
獨(dú)立調(diào)優(yōu)至關(guān)重要:一個(gè)優(yōu)化器的最優(yōu)超參數(shù)配置往往無法直接遷移到另一種優(yōu)化器上。如果缺乏獨(dú)立調(diào)優(yōu),不僅比較結(jié)果缺乏公平性,而且新優(yōu)化器相較于精心調(diào)優(yōu)過的 AdamW,實(shí)際加速效果遠(yuǎn)低于其聲稱的數(shù)值。短期評估具有誤導(dǎo)性:僅在短時(shí)間訓(xùn)練窗口內(nèi)評估優(yōu)化器性能是不可靠的。隨著訓(xùn)練的進(jìn)行和學(xué)習(xí)率衰減,不同優(yōu)化器的性能排名可能會(huì)發(fā)生逆轉(zhuǎn),其損失曲線甚至?xí)啻谓徊?。矩陣方法性能領(lǐng)先:所有速度最快的優(yōu)化器都采用了基于矩陣的預(yù)條件子,而非傳統(tǒng)的逐元素標(biāo)量縮放。Muon、Soap 和 Kron 等方法,相比嚴(yán)格調(diào)優(yōu)后的 AdamW,能夠?qū)崿F(xiàn) 30–40% 的單步訓(xùn)練速度提升。
有趣的是,最優(yōu)選擇也與具體場景相關(guān):在標(biāo)準(zhǔn) Chinchilla 數(shù)據(jù)比例下,Muon 表現(xiàn)最佳;而當(dāng)數(shù)據(jù)量相對于模型規(guī)模的比例提升至 8 倍以上時(shí),Soap 則成為更優(yōu)的選擇。
方法
研究設(shè)計(jì)了一套嚴(yán)謹(jǐn)?shù)姆椒ㄕ搧碓u估這些優(yōu)化器,該方法分為三個(gè)主要階段。首先是通用設(shè)置階段,明確了實(shí)驗(yàn)環(huán)境。研究使用了四種不同規(guī)模的 Transformer 模型,參數(shù)量從 130M 到 1.2B,序列長度均為 4096,并詳細(xì)列舉了各模型層數(shù)、隱藏維度等具體配置。
所研究的各個(gè)模型規(guī)模的詳細(xì)架構(gòu)超參數(shù)。
數(shù)據(jù)方面,研究混合使用了 DCLM-baseline、StarCoder V2 和 ProofPile 2 數(shù)據(jù)集,并使用 LLaMA-3 分詞器進(jìn)行分詞,確保了訓(xùn)練數(shù)據(jù)的豐富性。評估的優(yōu)化器涵蓋了 AdamW、NAdamW、Mars、Cautious、Lion、Adam-mini、Muon、Scion、Kron (PSGD) 、Soap 和 Sophia,代表了當(dāng)前深度學(xué)習(xí)優(yōu)化領(lǐng)域的主流和前沿方法。
階段 I: 全面參數(shù)掃描
研究旨在解決基線優(yōu)化器超參數(shù)調(diào)整不當(dāng)導(dǎo)致其性能被低估的問題。研究采用了坐標(biāo)下降法,對所有優(yōu)化器的超參數(shù)(包括學(xué)習(xí)率、權(quán)重衰減、預(yù)熱步數(shù)、β?、β?、ε、最大梯度范數(shù)和批次大小)在預(yù)設(shè)網(wǎng)格上進(jìn)行了詳盡搜索。
這一階段的實(shí)驗(yàn)設(shè)置涵蓋了 130M、300M 和 500M 模型在 1 倍 Chinchilla 數(shù)據(jù)量下的訓(xùn)練,以及 130M 模型在 2 倍、4 倍、8 倍 Chinchilla 數(shù)據(jù)量下的訓(xùn)練。
研究發(fā)現(xiàn),對每個(gè)優(yōu)化器進(jìn)行嚴(yán)格的超參數(shù)調(diào)整至關(guān)重要,因?yàn)椴煌瑑?yōu)化器之間的最優(yōu)超參數(shù)配置差異顯著,盲目遷移超參數(shù)會(huì)導(dǎo)致不公平的比較。
此外,研究也觀察到,與經(jīng)過精心調(diào)整的基線 AdamW 相比,實(shí)際的加速效果普遍低于此前一些研究所聲稱的水平。
階段 II: 敏感超參數(shù)識別
研究根據(jù)第一階段的結(jié)果,識別出那些最優(yōu)值會(huì)隨模型規(guī)模變化的敏感超參數(shù),例如學(xué)習(xí)率和預(yù)熱長度。隨后,這些敏感超參數(shù)在 300M 和 500M 模型以及 2 倍、4 倍、8 倍 Chinchilla 數(shù)據(jù)量下進(jìn)行了進(jìn)一步的網(wǎng)格搜索。
第一階段與第二階段的主要結(jié)果。上圖: 我們繪制了第一階段和第二階段實(shí)驗(yàn)中,模型在 C4/EN 數(shù)據(jù)集上的驗(yàn)證集損失。圖中的每一個(gè)點(diǎn)都對應(yīng)于每種優(yōu)化器在相應(yīng)的 Chinchilla 數(shù)據(jù)配比下所能達(dá)到的最優(yōu)損失值。下圖: 我們針對部分優(yōu)化器,繪制了它們在 HellaSwag 基準(zhǔn)上的性能。這些優(yōu)化器包括:AdamW 基線、性能排名前 2 的基于標(biāo)量的優(yōu)化器,以及性能排名前 3 的基于矩陣的優(yōu)化器。性能數(shù)據(jù)來自于它們各自最優(yōu)的運(yùn)行批次。
通過結(jié)合前兩個(gè)階段的結(jié)果,研究獲得了 12 種不同設(shè)置下的近乎最優(yōu)超參數(shù)集及其對應(yīng)的損失。為了量化不同優(yōu)化器相對于 AdamW 的加速效果,研究擬合了 AdamW 損失隨數(shù)據(jù)預(yù)算變化的縮放定律,并以此計(jì)算出達(dá)到相同損失所需的 AdamW 數(shù)據(jù)量與優(yōu)化器實(shí)際所需數(shù)據(jù)量之比,作為加速比。
研究發(fā)現(xiàn),基于矩陣的優(yōu)化器雖然表現(xiàn)普遍優(yōu)于基于標(biāo)量的優(yōu)化器,但其加速比在實(shí)際測試中均未超過 1.4 倍。許多替代優(yōu)化器在小規(guī)模模型或有限數(shù)據(jù)比例下看似具有優(yōu)勢,但隨著模型規(guī)模擴(kuò)大,這些加速優(yōu)勢逐漸消失甚至反轉(zhuǎn),AdamW 依然是最穩(wěn)健的預(yù)訓(xùn)練首選。
階段 III: 案例研究
該階段旨在對更大規(guī)模的實(shí)驗(yàn)進(jìn)行深入探索。研究首先檢驗(yàn)了超參數(shù)的擬合程度,通過擬合形式為 的平滑定律,預(yù)測了在模型規(guī)模 N 和數(shù)據(jù)規(guī)模 D 下的最優(yōu)設(shè)置。
為了驗(yàn)證這些縮放定律,研究對 1.2B 模型在 1 倍 Chinchilla 數(shù)據(jù)量下進(jìn)行了全面掃描,結(jié)果顯示預(yù)測的配置與實(shí)際最優(yōu)配置之間的性能差異極小,證明了預(yù)測的有效性。
隨后,研究進(jìn)行了兩項(xiàng)案例研究:一是訓(xùn)練 1.2B 模型在 1 至 8 倍 Chinchilla 數(shù)據(jù)量下,以檢驗(yàn)優(yōu)化器加速效果隨模型規(guī)模擴(kuò)展的變化;二是在 16 倍 Chinchilla 數(shù)據(jù)量下訓(xùn)練 130M 和 300M 模型,以觀察在極端數(shù)據(jù)量與模型比例下的優(yōu)化器表現(xiàn)。
案例分析。左圖: 在 12 億參數(shù)模型上,AdamW、NAdamW、Muon 和 Soap 四種優(yōu)化器的驗(yàn)證集損失縮放情況。結(jié)果顯示,Muon 和 Soap 相比 AdamW 仍有顯著的加速效果,但相比 NAdamW 已無明顯加速優(yōu)勢。中圖: 采用與圖 3 相同的方法估算加速比。我們觀察到,Muon 和 Soap 的加速比隨模型規(guī)模增大而衰減,最終降至僅 1.1 倍。右圖: 在 3 億參數(shù)模型和 16 倍 Chinchilla 數(shù)據(jù)配比的設(shè)定下,實(shí)驗(yàn)結(jié)果表明,當(dāng)數(shù)據(jù)與模型的比例進(jìn)一步增大時(shí),Soap 的性能優(yōu)于 Muon。
這一階段的結(jié)果進(jìn)一步揭示了 Muon 優(yōu)化器的潛在局限性:盡管 Muon 對高達(dá) 1.2B 參數(shù)的模型仍有加速效果,但加速比會(huì)下降到 1.2 倍以下。在高數(shù)據(jù)與模型比例(如 16 倍 Chinchilla)下,NAdamW 和 Soap 在 130M 模型上超越了 Muon,且 Soap 在 300M 模型上也超過了 Muon。研究推測,在數(shù)據(jù)與模型比例很高時(shí),Soap 和 Kron 所維持的二階動(dòng)量變得更為有效。
更多細(xì)節(jié)請閱讀原論文。
>