午夜激情影院国产_久久毛片免费播放_国产成人综合在线95精品_精品视频在线观自拍自拍_无码粉嫩小泬抽搐白浆免费_在线观看麻豆国产传媒61_黄色视频无码亚洲啊v在线_国产成人精品免费久亚洲高清不卡_先锋无码午夜资源网站_2021自拍视频亚洲国产第一区

  • 登頂多模態(tài)推理榜MMMU!UCSD新方法超越GPT-5、Gemini

      發(fā)布時間:2025-09-20 00:36:36   作者:玩站小弟   我要評論
    早秋明星董潔同款穿搭!時髦又好抄 家人們!快來瞅這組早秋明星。

    新智元報道

    編輯:LRST

    【新智元導(dǎo)讀】DreamPRM由加州大學(xué)圣地亞哥分校的研究團(tuán)隊(duì)開發(fā),在數(shù)學(xué)推理權(quán)威測評榜MMMU上獲得了第一名。

    近年來,大語言模型(LLM)在推理能力上的進(jìn)展顯著,其中過程獎勵模型(Process Reward Model, PRM)的提出,使得模型能夠在推理鏈條的中間步驟獲得監(jiān)督,從而更穩(wěn)健地選擇合理的解題路徑。

    這類方法在文本推理任務(wù)中已經(jīng)取得了良好效果,但在擴(kuò)展至多模態(tài)場景時,仍然面臨兩個突出挑戰(zhàn):

    分布偏移:多模態(tài)輸入空間巨大,訓(xùn)練與推理分布往往存在顯著差異;

    數(shù)據(jù)質(zhì)量不均:大規(guī)模訓(xùn)練集不可避免地包含噪聲或低質(zhì)量樣本,降低了有效監(jiān)督信號。

    因此,如何在多模態(tài)推理中有效利用高質(zhì)量樣本,抑制噪聲樣本的負(fù)面影響,成為亟需解決的問題。

    針對于此,研究人員設(shè)計(jì)了新的訓(xùn)練框架,通過雙層優(yōu)化框架,將數(shù)據(jù)樣本的權(quán)重(Instance Weights)作為可學(xué)習(xí)參數(shù),動態(tài)改變數(shù)據(jù)樣本的在訓(xùn)練中的影響。

    論文地址:https://arxiv.org/abs/2509.05542

    代碼地址:https://github.com/coder-qicao/DreamPRM-1.5

    MMMU Leaderboard

    論文 第一作者為博士生Qi Cao,通訊作者為該校副教授Pengtao Xie。

    從DreamPRM到DreamPRM-1.5

    從「領(lǐng)域加權(quán)」到「樣本加權(quán)」

    此前,研究人員提出了DreamPRM框架,通過領(lǐng)域級重加權(quán)(domain reweighting)的方式,在不同數(shù)據(jù)子集之間分配權(quán)重,從而提升訓(xùn)練效果。

    在此基礎(chǔ)上,DreamPRM-1.5將加權(quán)粒度進(jìn)一步細(xì)化到單個訓(xùn)練樣本:

    高質(zhì)量樣本獲得更大權(quán)重;

    低質(zhì)量或噪聲樣本權(quán)重降低。

    這種實(shí)例級重加權(quán)(instance reweighting)策略,使模型能夠充分挖掘每條數(shù)據(jù)的潛在價值。

    兩種方法:Instance Table和Instance Net

    DreamPRM1.5的兩種模型架構(gòu)

    為了實(shí)現(xiàn)「樣本級加權(quán)」,研究人員設(shè)計(jì)了兩種互補(bǔ)方案:

    Instance Table

    給每個訓(xùn)練樣本一個獨(dú)立的權(quán)重參數(shù);

    靈活度高,尤其適合小規(guī)模數(shù)據(jù)集;

    缺點(diǎn)是參數(shù)量和樣本數(shù)掛鉤,數(shù)據(jù)一大就很難撐住。

    Instance Net

    不直接存表,而是用一個小型MLP網(wǎng)絡(luò)來預(yù)測每條數(shù)據(jù)的權(quán)重;

    參數(shù)量固定,不受數(shù)據(jù)規(guī)模限制;

    更適合大規(guī)模訓(xùn)練,泛化能力更強(qiáng)。

    這就像兩種「學(xué)習(xí)筆記」方式:Instance Table 像是給每道題都寫一條批注;Instance Net 則像是總結(jié)出一套「看題給分」的規(guī)則。

    方法核心

    雙層優(yōu)化(Bi-level Optimization)

    DreamPRM-1.5 的訓(xùn)練流程采用雙層優(yōu)化框架:

    下層優(yōu)化:利用樣本權(quán)重對 PRM 進(jìn)行更新:

    上層優(yōu)化:在元數(shù)據(jù)集上評估推理表現(xiàn),并基于反饋動態(tài)更新樣本權(quán)重:

    這種設(shè)計(jì)確保了權(quán)重的學(xué)習(xí)不是靜態(tài)設(shè)定,而是由推理效果驅(qū)動、動態(tài)調(diào)整的,從而增強(qiáng)了模型在復(fù)雜任務(wù)中的適應(yīng)性。

    生成式獎勵模型

    面向推理過程的打分機(jī)制

    在DreamPRM-1.5中,研究人員采用了生成式獎勵模型(Generative Reward Model)來對推理過程中的每一步進(jìn)行評分。其核心思想是:

    評分方式:模型在每一步輸出「+」或「-」,分別表示該步推理是否合理;

    打分機(jī)制:通過softmax計(jì)算 「+」 的概率,將其作為該步驟的置信度;

    聚合策略:對整條推理鏈的步驟分?jǐn)?shù)進(jìn)行聚合(平均),再與標(biāo)準(zhǔn)答案進(jìn)行對比,用于指導(dǎo)樣本權(quán)重的更新。

    這一設(shè)計(jì)的優(yōu)點(diǎn)在于,它不僅能逐步評估推理鏈條的合理性,還能為實(shí)例重加權(quán)提供更細(xì)粒度的信號。

    實(shí)驗(yàn)設(shè)計(jì)與實(shí)現(xiàn)細(xì)節(jié)

    模型基座:采用InternVL3-1B作為PRM的基礎(chǔ)模型,并在推理階段基于GPT-5-mini進(jìn)行測試。設(shè)計(jì)了生成式獎勵模型的

    訓(xùn)練數(shù)據(jù):從VisualPRM-400k中采樣不同規(guī)模的數(shù)據(jù)(12k、100k)分別訓(xùn)練Instance Table與Instance Net

    元數(shù)據(jù)集:使用MMMU-Pro的標(biāo)準(zhǔn)分割(僅使用test set數(shù)據(jù),以避免與validation set出現(xiàn)重合),生成候選推理鏈作為meta set,用于權(quán)重更新。

    訓(xùn)練流程:

    冷啟動:先進(jìn)行一次有監(jiān)督微調(diào)(20k樣本),使模型能夠穩(wěn)定輸出「+/-」標(biāo)記;

    雙層優(yōu)化:在此基礎(chǔ)上進(jìn)行100k步迭代,采用AdamW優(yōu)化器與余弦學(xué)習(xí)率調(diào)度。

    計(jì)算資源:單卡NVIDIA A100,訓(xùn)練約72小時完成

    實(shí)驗(yàn)結(jié)果

    在MMMU基準(zhǔn)上的表現(xiàn)

    研究人員在MMMU(Massive Multi-discipline Multimodal Understanding)基準(zhǔn)上對方法進(jìn)行了系統(tǒng)評測。

    該基準(zhǔn)涵蓋30個學(xué)科、183個子領(lǐng)域,題型覆蓋圖表、地圖、化學(xué)結(jié)構(gòu)等多模態(tài)輸入,是目前最具挑戰(zhàn)性的推理測試之一。

    主要結(jié)果

    GPT-5-mini w/ thinking(基線):80.0%

    DreamPRM-1.5(Instance Table):84.6% (+4.6)

    DreamPRM-1.5(Instance Net):83.6% (+3.6)

    對比分析

    No Selection:使用相同數(shù)據(jù)但不做重加權(quán),僅有 79.1%,驗(yàn)證了實(shí)例加權(quán)的重要性;

    VisualPRM:盡管使用完整的 400k 數(shù)據(jù)集,但僅達(dá)到 80.5%,說明數(shù)據(jù)規(guī)模并不能完全彌補(bǔ)質(zhì)量差異;

    Self-consistency:經(jīng)典的 test-time scaling 方法為 81.4%,依然低于 DreamPRM-1.5。

    整體來看,DreamPRM-1.5 不僅顯著超越了基于 GPT-5-mini 的多種強(qiáng)基線,還在精度上超過了GPT-5(84.2%)和Gemini 2.5 Pro Deep-Think(84.0%)等頂級閉源模型。

    結(jié)論與展望

    DreamPRM-1.5將實(shí)例級重加權(quán)引入多模態(tài)推理訓(xùn)練中,通過雙層優(yōu)化動態(tài)調(diào)整樣本權(quán)重,使模型能夠更好地識別和利用高質(zhì)量數(shù)據(jù)。

    主要貢獻(xiàn)體現(xiàn)在:

    提出實(shí)例級重加權(quán)框架,突破了僅在領(lǐng)域級別加權(quán)的限制;

    設(shè)計(jì)了Instance Table 與 Instance Net兩種互補(bǔ)實(shí)現(xiàn),兼顧小規(guī)模與大規(guī)模訓(xùn)練場景;

    在MMMU基準(zhǔn)上取得新的SOTA結(jié)果,超過多個閉源大模型。

    這一結(jié)果表明,在未來的推理模型研究中,數(shù)據(jù)質(zhì)量的精細(xì)利用方式也是值得關(guān)注的重要方面。

    更智能的樣本加權(quán)與過程評分方法,有望成為推動多模態(tài)推理進(jìn)一步發(fā)展的關(guān)鍵方向。

    參考資料:

    https://arxiv.org/abs/2505.20241v2