新智元報(bào)道
編輯:元宇
【新智元導(dǎo)讀】為了降低大模型預(yù)訓(xùn)練成本,最近兩年,出現(xiàn)了很多新的優(yōu)化器,聲稱能相比較AdamW,將預(yù)訓(xùn)練加速1.4×到2×。但斯坦福的一項(xiàng)研究,指出不僅新優(yōu)化器的加速低于宣稱值,而且會(huì)隨模型規(guī)模的增大而減弱,該研究證實(shí)了嚴(yán)格基準(zhǔn)評(píng)測(cè)的必要性。
一直以來(lái),預(yù)訓(xùn)練,都是大模型訓(xùn)練過(guò)程中最花錢的部分。
比如,在DeepSeek V3中,它的成本占比就超過(guò)95%。
誰(shuí)能在這里節(jié)省算力,就等于賺了。
長(zhǎng)期以來(lái),AdamW都是「默認(rèn)選項(xiàng)」。但最近兩年,出現(xiàn)了很多新的優(yōu)化器。
它們大都聲稱能夠相比AdamW,將預(yù)訓(xùn)練加速1.4×到2×,但卻很少能真正落地。
斯坦福大學(xué)的研究人員,認(rèn)為問(wèn)題主要出現(xiàn)在兩個(gè)方法學(xué)缺陷上:
一些基線的超參數(shù)調(diào)得不當(dāng);
許多實(shí)驗(yàn)局限于較小規(guī)模的設(shè)置,導(dǎo)致這些優(yōu)化器在更廣泛、更真實(shí)場(chǎng)景下的表現(xiàn)仍待驗(yàn)證。
論文地址:https://arxiv.org/abs/2509.02046
有趣的是,這篇論文的標(biāo)題「神奇優(yōu)化器在哪里」(Fantastic Pretraining Optimizers and Where to Find Them),正是「捏它」自《神奇動(dòng)物在哪里》(Fantastic Beasts and Where to Find Them)。
不得不說(shuō),論玩梗還是大佬們厲害!
不同縮放范式下的加速差異
研究人員對(duì)比了大模型在不同縮放范式下的加速差異。
他們?cè)谒姆N不同的數(shù)據(jù)-模型比(相當(dāng)于Chinchilla最優(yōu)范式的 1×、2×、4×、8×)下進(jìn)行基準(zhǔn)測(cè)試,并將模型規(guī)模擴(kuò)展到1.2B參數(shù)。
圖1左上顯示,在被廣泛采用的GPT-3配方中,僅調(diào)一個(gè)超參數(shù),就能讓預(yù)訓(xùn)練獲得2×的加速,這突顯了正確超參數(shù)優(yōu)化的重要性。
研究表明,在一系列模型規(guī)模和數(shù)據(jù)-模型比上,進(jìn)行細(xì)致的超參數(shù)調(diào)優(yōu)與訓(xùn)練結(jié)束時(shí)的評(píng)測(cè)是必要的,主要有三個(gè)原因:
首先,超參數(shù)不能盲目遷移,在優(yōu)化器間固定超參數(shù)會(huì)導(dǎo)致不公平的比較。
第二,新優(yōu)化器的加速低于宣稱值,且隨模型規(guī)模增大而減弱。相對(duì)于研究人員調(diào)優(yōu)的AdamW基線,其他優(yōu)化器的加速不超過(guò)1.4×。
此外,雖然Muon、Soap等新優(yōu)化器在小模型(0.1B)上顯示出1.3×加速,但在8×Chinchilla比例下的1.2B參數(shù)模型上,加速會(huì)降到約1.1×。
第三,早期的損失曲線可能產(chǎn)生顯著誤導(dǎo)。
在學(xué)習(xí)率衰減期間,不同優(yōu)化器的損失曲線可能多次交叉,因此用中間檢查點(diǎn)來(lái)評(píng)判優(yōu)化器,得到的排名可能與在目標(biāo)訓(xùn)練預(yù)算下比較的結(jié)果不同。
優(yōu)化器設(shè)計(jì)的新見(jiàn)解
研究人員基于基準(zhǔn)測(cè)試,帶來(lái)了三個(gè)關(guān)于優(yōu)化器設(shè)計(jì)的新見(jiàn)解:
1. 小模型更適合基于矩陣的優(yōu)化器
研究人員發(fā)現(xiàn),對(duì)于小模型,基于矩陣的優(yōu)化器,持續(xù)優(yōu)于基于標(biāo)量的優(yōu)化器。
基于標(biāo)量的優(yōu)化器(如AdamW、Lion、Mars等),需要通過(guò)標(biāo)量操作逐個(gè)更新參數(shù)。
經(jīng)過(guò)適當(dāng)調(diào)參后,所有基于標(biāo)量的優(yōu)化器的優(yōu)化速度與AdamW相近,平均加速比不足1.2×。
盡管其更新規(guī)則多樣,但在小于520M參數(shù)的模型上,基于矩陣的優(yōu)化器相對(duì)AdamW均可帶來(lái)約1.3×的加速。
2. 最優(yōu)優(yōu)化器的選擇,關(guān)鍵指標(biāo)是「數(shù)據(jù)-模型比」
在1×Chinchilla范式下的贏家,隨著數(shù)據(jù)-模型比提升,可能不再最優(yōu)。
比如,在較小的Chinchilla比例下,Muon一直是表現(xiàn)最好的優(yōu)化器。
但當(dāng)數(shù)據(jù)-模型比增至8×或更高時(shí),Kron和Soap的表現(xiàn)優(yōu)于Muon(圖3與圖4)。
在本項(xiàng)研究中,研究人員研究了表1所列的11種優(yōu)化器。
模型參數(shù)量,涵蓋了130M、300M、520M、1.2B四種規(guī)模,詳細(xì)超參數(shù)見(jiàn)表2。
超參數(shù)的三種調(diào)參方式
按照不同階段,研究人員對(duì)超參數(shù)采用了三種不同程度的調(diào)參方式:
階段1:對(duì)超參數(shù)進(jìn)行「細(xì)顆粒度」調(diào)參
研究人員在6種不同設(shè)置上執(zhí)行該遍歷,具體為1×Chinchilla下的130M、300M、500M,以及2×、4×、8×Chinchilla下的130M。
對(duì)于每個(gè)優(yōu)化器以及上述六種范式,研究人員都找到了一個(gè)按坐標(biāo)的局部最優(yōu)解。
表3是一個(gè)針對(duì)300M參數(shù)、1×Chinchilla的AdamW示例性超參數(shù)優(yōu)化過(guò)程。
階段2:著重調(diào)整對(duì)「尺度敏感」的超參數(shù)
由于廣泛調(diào)參在更大規(guī)模實(shí)驗(yàn)上代價(jià)過(guò)高,所以,研究人員對(duì)該過(guò)程進(jìn)行了簡(jiǎn)化,著重調(diào)整對(duì)「尺度敏感」的超參數(shù)。
如表4,研究人員僅將對(duì)尺度敏感的超參數(shù)帶入階段2,從而把下一輪調(diào)參對(duì)象集中在那些跨尺度確實(shí)需要重新調(diào)參的超參數(shù)上。
通過(guò)這組實(shí)驗(yàn),研究人員觀察到兩點(diǎn)現(xiàn)象:
1.基于矩陣的優(yōu)化器始終優(yōu)于基于標(biāo)量的優(yōu)化器,但所有優(yōu)化器相對(duì)AdamW的加速比都不超過(guò)1.5×;
2.在基于矩陣的優(yōu)化器內(nèi)部,Muon在1–4×Chinchilla比例下表現(xiàn)最佳,但隨著Chinchilla比例提高,會(huì)被Soap與Kron反超。
階段3:為進(jìn)一步外推而建立超參數(shù)縮放律
研究人員基于階段2獲得的優(yōu)化超參數(shù)設(shè)置,擬合一個(gè)平滑的縮放律,用以預(yù)測(cè)每個(gè)隨尺度敏感的超參數(shù)的最優(yōu)值。
作為模型大小N,與數(shù)據(jù)預(yù)算D的函數(shù),研究人員將每個(gè)隨尺度敏感超參數(shù)h的最優(yōu)值建模為:
其中A、B、α與β為學(xué)習(xí)得到的系數(shù)。
研究人員在每個(gè)優(yōu)化器的12個(gè)觀測(cè)三元組(N,D,h)上,用非線性最小二乘來(lái)估計(jì)這些參數(shù),使預(yù)測(cè)與真實(shí)最優(yōu)超參數(shù)值的平方誤差最小。
為檢驗(yàn)預(yù)測(cè)質(zhì)量,研究人員在N=1.2B、Chinchilla=1的設(shè)置下對(duì)AdamW運(yùn)行了完整的階段1遍歷,并將識(shí)別出的最優(yōu)解與擬合出的超參數(shù)進(jìn)行對(duì)比。
在圖2上圖中,研究人員繪制了兩個(gè)階段的C4/EN驗(yàn)證損失;在圖2下圖中,研究人員繪制了為部分優(yōu)化器選擇的運(yùn)行所對(duì)應(yīng)的HellaSwag表現(xiàn)。
在圖3中,顯示了跨尺度的不同優(yōu)化器加速。
研究人員通過(guò)為AdamW擬合縮放律,并將不同優(yōu)化器的損失映射到對(duì)應(yīng)的等效數(shù)據(jù)預(yù)算來(lái)估計(jì)加速,得到了以下二點(diǎn)觀察:
1. 最高加速被限制在1.4×;
2. 基于矩陣的優(yōu)化器始終優(yōu)于基于標(biāo)量的優(yōu)化器,且隨數(shù)據(jù)預(yù)算增加呈現(xiàn)更高的加速(表現(xiàn)出超線性趨勢(shì))。
實(shí)證發(fā)現(xiàn)
1. 在0.1B–0.5B參數(shù)模型上的結(jié)果
在所有模型規(guī)模與算力預(yù)算下,方差減少類的Adam變體(NAdamW、Mars、Cautious)與基于矩陣的優(yōu)化器都相對(duì)AdamW基線,帶來(lái)了加速。
然而,沒(méi)有任何方法達(dá)到了過(guò)往文獻(xiàn)聲稱的2×的加速。
研究人員得出如下結(jié)論:
(1)基于矩陣的方法優(yōu)于基于標(biāo)量的方法。加速比隨數(shù)據(jù)預(yù)算增加而上升,但隨模型規(guī)模增大而下降。
(2)方差削減技術(shù)帶來(lái)小而穩(wěn)定的提升。
在基于標(biāo)量的家族中,所有方差削減型的Adam變體(NAdamW、Mars、Cautious)都穩(wěn)定地超過(guò)vanilla的AdamW——僅在最小規(guī)模實(shí)驗(yàn)上有輕微落后。
(3)AdamW的內(nèi)存高效變體與AdamW的表現(xiàn)保持緊密。
兩種內(nèi)存高效的AdamW變體(Lion、Adam-mini),盡管輔助狀態(tài)更少,其表現(xiàn)與AdamW緊密跟隨,最多僅慢5%,有時(shí)甚至優(yōu)于AdamW。
2. 在1.2B參數(shù)模型上的結(jié)果
研究人員利用擬合的超參數(shù)縮放律,將模型規(guī)模擴(kuò)大到1.2B,以考察優(yōu)化器的加速如何隨模型規(guī)模變化。
觀察到NAdamW、Muon與Soap依然相對(duì)AdamW帶來(lái)加速,但這些優(yōu)化器的加速減弱到約1.1×(圖4,左與中),且不再帶來(lái)下游改進(jìn)(表 5)。
3. 高數(shù)據(jù)-模型比
在130M與520M模型的8×Chinchilla范式下,Muon已被Soap超過(guò)。
為進(jìn)一步驗(yàn)證,研究人員將三份300M模型訓(xùn)練到16×Chinchilla,并確認(rèn)當(dāng)數(shù)據(jù)-模型比增加時(shí),Muon不再是最優(yōu)優(yōu)化器(圖4,右)。
研究人員推測(cè),當(dāng)數(shù)據(jù)-模型比增大時(shí),Soap與Kron保持的二階動(dòng)量會(huì)更有效。從長(zhǎng)期看,對(duì)參數(shù)方向異質(zhì)性的自適應(yīng)可能帶來(lái)更大的加速。
該研究證實(shí)了嚴(yán)格基準(zhǔn)評(píng)測(cè)的必要性。
各優(yōu)化器的共性現(xiàn)象
研究人員在預(yù)訓(xùn)練中,通過(guò)對(duì)11種深度學(xué)習(xí)優(yōu)化器進(jìn)行了基準(zhǔn)評(píng)測(cè),發(fā)現(xiàn)它們相對(duì)AdamW的真實(shí)增益遠(yuǎn)小于此前報(bào)道。
由此,研究人員強(qiáng)調(diào)了三個(gè)關(guān)鍵教訓(xùn):
1.許多聲稱的加速源于超參數(shù)調(diào)優(yōu)不足,因?yàn)楣降膾邊?huì)消除大多數(shù)表面的優(yōu)勢(shì);
2.基于早期或不一致的評(píng)估進(jìn)行比較可能具有誤導(dǎo)性,因?yàn)樵谕暾?xùn)練軌跡上優(yōu)化器的排名常會(huì)發(fā)生變化;
3.即使表現(xiàn)最好的替代方案也只提供溫和的加速,且隨模型規(guī)模增大而進(jìn)一步減弱,在12億參數(shù)時(shí)降至1.1×。
作者介紹
Kaiyue Wen
Kaiyue Wen是斯坦福大學(xué)的博士生。目前在馬騰宇 (Tengyu Ma) 的課題組進(jìn)行輪轉(zhuǎn),同時(shí)與Percy Liang老師合作。
他本科畢業(yè)于清華大學(xué)姚班,期間獲得了獲得了馬騰宇、劉知遠(yuǎn)、Andrej Risteski、張景昭、王禹皓以及李志遠(yuǎn)等多位老師的指導(dǎo)。
他的研究興趣涵蓋深度學(xué)習(xí)的理論與應(yīng)用,長(zhǎng)遠(yuǎn)目標(biāo)是理解深度學(xué)習(xí)背后的物理學(xué)原理,并堅(jiān)信理論分析與實(shí)證研究相結(jié)合是實(shí)現(xiàn)這一目標(biāo)的關(guān)鍵。
馬騰宇(Tengyu Ma)
Tengyu Ma是斯坦福大學(xué)計(jì)算機(jī)科學(xué)系和統(tǒng)計(jì)系的助理教授。
他本科畢業(yè)于清華姚班,于普林斯頓大學(xué)獲得博士學(xué)位。
他的研究興趣涵蓋機(jī)器學(xué)習(xí)、算法理論等方向,具體包括:深度學(xué)習(xí)、(深度)強(qiáng)化學(xué)習(xí)、預(yù)訓(xùn)練/基礎(chǔ)模型、魯棒性、非凸優(yōu)化、分布式優(yōu)化以及高維統(tǒng)計(jì)學(xué)。
Percy Liang
Percy Liang是斯坦福大學(xué)計(jì)算機(jī)科學(xué)副教授,兼任基礎(chǔ)模型研究中心(CRFM)主任。同時(shí)也是CodaLab Worksheets的創(chuàng)建者,并借此堅(jiān)定倡導(dǎo)科研工作的可復(fù)現(xiàn)性。
他專注于通過(guò)開(kāi)源和嚴(yán)格的基準(zhǔn)測(cè)試,提升基礎(chǔ)模型(特別是大語(yǔ)言模型)的可及性與可理解性。
他曾圍繞機(jī)器學(xué)習(xí)和自然語(yǔ)言處理領(lǐng)域進(jìn)行了廣泛研究,具體方向包括魯棒性、可解釋性、人機(jī)交互、學(xué)習(xí)理論、知識(shí)落地、語(yǔ)義學(xué)以及推理等。
此前,他于2004年在MIT獲得學(xué)士學(xué)位,并于2011年在UC伯克利獲得博士學(xué)位。
參考資料:
https://arxiv.org/abs/2509.02046
關(guān)于我們|版權(quán)聲明| 違法和不良信息舉報(bào)電話:010-84151598 | 網(wǎng)絡(luò)敲詐和有償刪帖舉報(bào)電話:010-84151598
Copyright ? 2008-2024 by {當(dāng)前域名}. all rights reserved