發(fā)布時間:2025-09-19 來源:斷發(fā)紋身網作者:嘎嘎吼吼吼
智東西作者 陳駿達編輯 心緣
那些畫風“油膩”的AI生圖,終于有救了?
智東西9月16日報道,騰訊近期開源勢頭太猛了,最新發(fā)布的圖像模型算法SRPO登上Hugging Face趨勢榜首,并在趨勢榜前3占2。
目前Hugging Face模型趨勢榜前6中,有5個均來自國內企業(yè),被騰訊、百度、阿里包攬。
SRPO由騰訊混元生圖團隊聯合香港中文大學(深圳)、清華大學聯合開發(fā),9月13日開源,已發(fā)布完整訓練代碼及技巧,社區(qū)量化版本下載量達1.6萬次,Github Star數量超過600。
SRPO的全稱是Semantic Relative Preference Optimization(語義相對偏好優(yōu)化),旨在解決當前開源社區(qū)中熱門AI生圖模型Flux生成人像時皮膚質感差、過于油膩的問題。
通過在線調整獎勵偏好、優(yōu)化早期生成軌跡等手段,SRPO可改善圖像生成效果,能將模型生成圖片的真實度、美學優(yōu)秀率的人類評估提升超300%。
▲Flux與SRPO生成效果對比
在取得更好效果的同時,SRPO大幅提升了訓練效率,在32卡設置下,僅需10分鐘(5.3GPU卡時)就可以完成訓練,效率相比DanceGRPO提升了75倍。
開發(fā)者可在ComfyUI中使用SRPO,僅需將下圖導入ComfyUI即可獲取完整工作流,或者直接加載SRPO-workflow的JSON文件。
目前,SRPO已被上傳至Hugging Face、Github等開源托管平臺,相關技術報告已發(fā)布。
論文鏈接:
https://arxiv.org/abs/2509.06942
項目主頁:
https://tencent.github.io/srpo-project-page/
GitHub:
https://github.com/Tencent-Hunyuan/SRPO
Hugging Face:
https://huggingface.co/tencent/SRPO
開源社區(qū)還在其基礎上制作了多個量化版本。
量化版本鏈接:
https://huggingface.co/wikeeyang/SRPO-Refine-Quantized-v1.0
https://huggingface.co/befox/SRPO-GGUF
https://huggingface.co/rockerBOO/flux.1-dev-SRPO
一、引入新型采樣策略,給去噪提供“標準答案”
在SRPO中,研究團隊引入了一種用于擴散微調的新型采樣策略Direct-Align,可以有效地恢復高度噪聲的圖像,從而使優(yōu)化過程更加穩(wěn)定且計算要求更低,尤其是在初始時間步驟中。
當前主流的方法主要依賴多步采樣器(如DDIM)結合直接梯度反傳來將生成過程與獎勵偏好對齊,計算成本高且容易出現梯度爆炸和優(yōu)化不穩(wěn)定。因此,現有方法通常只能優(yōu)化生成軌跡的后半段。
這種“僅優(yōu)化后半段”的策略極易導致獎勵模型在高頻信息上的過擬合問題。實驗結果表明,模型會逐漸學會“鉆獎勵模型的空子”——具體表現為:HPSv2獎勵模型會偏好偏紅色調的圖像,PickScore傾向于紫色圖像,而ImageReward則容易對過曝區(qū)域給出過高評分。
SRPO的研究團隊發(fā)現,解決采樣瓶頸的秘密就在于擴散模型的前向公式:中間圖像是噪聲和干凈圖像的插值。這一發(fā)現表明只要掌握噪聲先驗的參考信息,就可以通過精確插值重建擴散軌跡上的任意中間狀態(tài)。
基于這一理論發(fā)現,該團隊創(chuàng)新性地提出了Direct-Align方法:首先對輸入圖像進行可控的噪聲注入,隨后通過單步模型推理,最后借助預先注入的噪聲作為“參考錨點”進行圖像重建。
這種帶有“標準答案”的去噪方式,相比ReFL等直接依賴模型預測的傳統(tǒng)方法,顯著降低了重建誤差,實現了更精準的獎勵信號傳導。
二、有效避免獎勵破解,給模型加上“語義方向盤”
SRPO的研究團隊改進了直接利用獎勵信號進行反向傳播的方法(例如ReFL和DRaFT)的訓練策略,并直接使用負獎勵對模型進行正則化,無需KL散度或單獨的獎勵系統(tǒng)。同時,該團隊還首次在模型中加入了動態(tài)可控的文本條件,能夠在獎勵模型范圍內動態(tài)調整對風格的獎勵偏好。
上述調整的原因是,文生圖的在線強化學習方法(如ReFL、DRaFT)通過直接采樣圖片并反傳可微獎勵梯度,訓練效率高,但高度依賴預訓練獎勵模型,這些模型難以滿足多樣化、高質量的后訓練需求。
例如,用舊獎勵模型優(yōu)化新架構(如SD3、Flux)或提升特定美學維度時,效果有限。傳統(tǒng)做法需大量離線優(yōu)化、微調獎勵模型或手工設計復合獎勵函數,耗時且難以快速應對新需求。
SRPO的研究團隊發(fā)現,當前主流的圖像-文本雙分支獎勵模型,可以視為以文本分支的輸出為模型參數關于圖片特征的函數。這樣一來,通過調整文本分支的語義特征,就能有效引導整個獎勵模型的偏好方向。
基于此,SRPO的研究團隊性提出了“語義引導偏好”機制,通過為獎勵模型添加特定的控制提示詞(如“真實感”)來定向調整其優(yōu)化目標。實驗結果顯示,某些精心設計的控制詞能夠增強獎勵模型在真實感等特定維度的優(yōu)化能力。
然而,研究團隊進一步發(fā)現,單純的語義引導仍存在獎勵破解(reward hacking)的風險,而獎勵偏差主要源自圖像分支(因為文本分支不參與梯度反傳)。
針對這一問題,團隊提出了創(chuàng)新的“語義相對偏好優(yōu)化”策略:同時使用正向詞和負向詞作為引導信號,通過負向梯度有效中和獎勵模型的一般性偏差,同時保留語義差異中的特定偏好。
在具體實現上,為了平衡訓練效率和負向詞強度,團隊采用了加權獎勵公式的設計,其實現機制類似于無分類器引導(classifier-free guidance)。
實驗結果顯示,SRPO顯著增強獎勵模型在真實度等特定維度的優(yōu)化能力。這一突破性方法為長期受困于高質量數據獲取難題的研究者,提供了一條更加直接高效的優(yōu)化路徑,有望顯著降低模型優(yōu)化的門檻和成本。
三、美學優(yōu)秀率、真實度提升超300%,未出現明顯獎勵破解
SRPO的研究團隊在HPDv2基準測試上對方法進行了評估。HPDv2是一個文生圖領域廣泛使用的基準,用來衡量模型生成圖像的質量,特別是與人類偏好(human preferences)對齊的程度。
在測試中,Direct-Align方法在Aesthetic predictor v2.5(AE)、PickScore等主流評測指標上均已達到SOTA水平,而結合SRPO后,在AE和PickScore等關鍵指標上更是取得明顯提升。
在人類評估方面,與Direct-Align等直接優(yōu)化獎勵偏好的方法不同,SRPO不會因獎勵破解而犧牲真實感,能夠在不依賴額外訓練數據的情況下,將模型的美學優(yōu)秀率從8.2%提升至38.9%,提升幅度超過300%,圖像感知真實度提升同樣超過300%。
用SRPO增強后的FLUX.1.dev超過了最新的開源模型FLUX.1.krea,僅需不到1500張圖像即可實現有效訓練。
更為關鍵的是,SRPO未出現明顯的獎勵破解現象,驗證了Direct-Align的設計能夠有效去除獎勵偏差,模型真實感顯著提升。
在主流獎勵模型上,SRPO也未出現偏色等獎勵破解問題。
SRPO具備細粒度的人類偏好優(yōu)化能力,通過引入控制詞能夠顯著提升在常見風格(如亮度調整、漫畫、概念藝術)上的可控性,但在低頻風格(如賽博朋克)中則受到獎勵模型識別能力的限制。
最后,研究還發(fā)現Direct-Align具備類似監(jiān)督微調的擬合特性,當結合真實照片作為離線數據時,SRPO能進一步增強圖像真實感。
結語:系統(tǒng)提升擴散模型真實感,可控性與可解釋性將成優(yōu)化方向
與單純的數據擬合方法不同,SRPO同時整合了人類偏好信號與強化學習優(yōu)化。SRPO研究團隊認為,這是首個大規(guī)模擴散模型中系統(tǒng)性提升真實感的完整方法。
不過,SRPO在可控性和可解釋性上仍存在一定局限。該團隊計劃通過更系統(tǒng)的控制策略、可學習的控制詞以及針對控制信號優(yōu)化的視覺語言模型獎勵來提升方法的可控性與泛化能力。