午夜激情影院国产_久久毛片免费播放_国产成人综合在线95精品_精品视频在线观自拍自拍_无码粉嫩小泬抽搐白浆免费_在线观看麻豆国产传媒61_黄色视频无码亚洲啊v在线_国产成人精品免费久亚洲高清不卡_先锋无码午夜资源网站_2021自拍视频亚洲国产第一区

 
  • 告別錯(cuò)誤累計(jì)與噪聲干擾,EviNote-RAG 開啟 RAG 新范式

    作者:裕2333 來源:上海 瀏覽: 【】 發(fā)布時(shí)間:2025-09-13評(píng)論數(shù):

    本文第一作者戴語琴,清華大學(xué)博士生。該工作為戴語琴在螞蟻大安全實(shí)習(xí)期間完成,該工作屬于螞蟻集團(tuán)大安全 Venus 系列工作,致力于打造搜索智能體 / UI 智能體。本文通訊作者為該校副教授呂帥,研究方向包括大語言模型、多模態(tài)生成、AI4Design。共同通訊作者沈永亮,浙江大學(xué)百人計(jì)劃研究員,博士生導(dǎo)師,研究方向包括大模型推理、RAG 檢索增強(qiáng)生成、多模態(tài)生成模型等。

    在檢索增強(qiáng)生成(RAG)飛速發(fā)展的當(dāng)下,研究者們面臨的最大困境并非「生成」,而是「穩(wěn)定」。

    低信噪比讓關(guān)鍵信息淹沒在冗余文檔里,錯(cuò)誤累計(jì)則讓推理鏈像骨牌一樣層層坍塌。這兩大頑疾,使得現(xiàn)有 RAG 系統(tǒng)在復(fù)雜任務(wù)中難以真正可靠。

    近期,一項(xiàng)由螞蟻集團(tuán)、清華大學(xué)、浙江大學(xué)、MIT、UC Berkeley、香港大學(xué)和新加坡國立大學(xué)等機(jī)構(gòu)聯(lián)合完成的研究提出了全新方案——EviNote-RAG。它不僅在多個(gè)權(quán)威基準(zhǔn)上實(shí)現(xiàn)了顯著性能提升,更在訓(xùn)練穩(wěn)定性與推理可靠性上帶來了質(zhì)的飛躍。

    核心秘訣在于兩個(gè)創(chuàng)新:

    支持性證據(jù)筆記(Supportive-Evidence Notes, SEN):像人類一樣「先做筆記」,用結(jié)構(gòu)化方式過濾噪聲、標(biāo)記不確定信息。

    證據(jù)質(zhì)量獎(jiǎng)勵(lì)(Evidence Quality Reward, EQR):通過邏輯蘊(yùn)含監(jiān)督,確保筆記真正支撐答案,避免淺層匹配和錯(cuò)誤累積。

    這一組合帶來的改變是革命性的:訓(xùn)練曲線不再震蕩,答案推理更加穩(wěn)健。消融與補(bǔ)充實(shí)驗(yàn)進(jìn)一步驗(yàn)證了這一點(diǎn)——SEN 是性能提升的基石,而 EQR 則是質(zhì)量提升的關(guān)鍵。兩者相輔相成,使 EviNote-RAG 成為當(dāng)前最穩(wěn)定、最可信賴的 RAG 框架之一。

    換句話說,EviNote-RAG 不僅解決了性能問題,更為復(fù)雜推理場(chǎng)景下的檢索增強(qiáng)開辟了一條全新的發(fā)展路徑。

    在多個(gè)開放域問答基準(zhǔn)上,EviNote-RAG 取得了顯著突破:

    在HotpotQA上相對(duì)提升 20%(+0.093 F1 score),在Bamboogle上相對(duì)提升 40%(+0.151 F1 score),在2Wiki上相對(duì)提升 91%(+0.256 F1 score),不僅刷新了當(dāng)前最優(yōu)表現(xiàn),還表現(xiàn)出更強(qiáng)的泛化能力與訓(xùn)練穩(wěn)定性。

    論文標(biāo)題:EviNote-RAG: Enhancing RAG Models via Answer-Supportive Evidence Notes論文地址:https://arxiv.org/abs/2509.00877v1Github 地址:https://github.com/Dalyuqin/EviNoteRAG

    研究背景與動(dòng)機(jī)

    在如今這個(gè)信息爆炸的時(shí)代,檢索增強(qiáng)生成(RAG)技術(shù)已經(jīng)成為大型語言模型(LLM)在開放問答(QA)任務(wù)中的得力助手。通過引入外部知識(shí),RAG 能夠有效提升回答的準(zhǔn)確性和時(shí)效性。

    但一個(gè)現(xiàn)實(shí)問題是:LLM 的知識(shí)固定在訓(xùn)練時(shí)刻,容易輸出過時(shí)甚至錯(cuò)誤的信息。于是,檢索增強(qiáng)生成(RAG)被提出:在問答時(shí),從外部知識(shí)庫中檢索最新信息,輔助模型生成更準(zhǔn)確的答案。然而,現(xiàn)有 RAG 系統(tǒng)依然存在兩個(gè)核心痛點(diǎn):

    低信噪比。在開放域檢索場(chǎng)景中,真正與答案相關(guān)的證據(jù)信息往往稀缺且難以識(shí)別,大量無關(guān)或冗余內(nèi)容充斥在檢索結(jié)果中,導(dǎo)致模型在有限的上下文窗口里難以高效聚焦關(guān)鍵信息。

    錯(cuò)誤累。當(dāng)推理跨越不完整或噪聲證據(jù)時(shí),錯(cuò)誤會(huì)在多跳鏈路中層層放大,最終嚴(yán)重削弱答案的準(zhǔn)確性和穩(wěn)定性。這一問題在多跳問答場(chǎng)景中尤為突出。

    過去的研究嘗試通過改進(jìn)檢索質(zhì)量、引入重排序或摘要壓縮、以及對(duì)特定語料進(jìn)行監(jiān)督微調(diào)來緩解上述問題。雖然這些方法在一定程度上降低了噪聲、減輕了推理負(fù)擔(dān),但它們普遍依賴標(biāo)注的信息提取數(shù)據(jù)或外部啟發(fā)式規(guī)則,缺乏一種端到端、穩(wěn)健且可泛化的解決路徑。如何從根本上突破低信噪比與錯(cuò)誤累計(jì)這兩大瓶頸,成為推動(dòng) RAG 演進(jìn)的核心動(dòng)因。

    因此,研究者提出了新的框架——EviNote-RAG。

    EviNote-RAG 與傳統(tǒng)方法的對(duì)比:EviNote-RAG 通過證據(jù)注釋提取關(guān)鍵信息,并在蘊(yùn)意法官的指導(dǎo)下,確保保留的內(nèi)容直接支持答案,從而減少噪音并提高性能。

    傳統(tǒng)的「檢索-回答」范式不同,EviNote-RAG 將流程重構(gòu)為「檢索-筆記-回答」的三階段結(jié)構(gòu)。

    在這一框架中,模型首先生成Supportive-Evidence Notes(SENs)——類似人類筆記的精簡(jiǎn)摘要,僅保留與答案相關(guān)的關(guān)鍵信息,并對(duì)不確定或缺失的部分進(jìn)行明確標(biāo)注。這一過程有效過濾了無關(guān)內(nèi)容,從源頭上緩解了低信噪比問題。

    進(jìn)一步地,EviNote-RAG 通過引入Evidence Quality Reward(EQR)——基于邏輯蘊(yùn)含的獎(jiǎng)勵(lì)信號(hào),對(duì) SEN 是否真正支撐最終答案進(jìn)行評(píng)估和反饋。這一機(jī)制促使模型避免依賴淺層匹配或片段化證據(jù),從而大幅減輕了錯(cuò)誤累計(jì)的風(fēng)險(xiǎn)。

    得益于 SEN 與 EQR 的協(xié)同作用,EviNote-RAG 不僅在多個(gè)開放域問答基準(zhǔn)上實(shí)現(xiàn)了顯著性能提升,還在訓(xùn)練穩(wěn)定性、泛化能力與推理可靠性方面表現(xiàn)突出,真正為解決 RAG 的兩大頑疾提供了一條端到端的可行路徑。

    技術(shù)亮點(diǎn)

    檢索-筆記-回答新范式:不再直接依賴原始檢索結(jié)果,而是通過結(jié)構(gòu)化的筆記生成,主動(dòng)過濾干擾信息,增強(qiáng)證據(jù)利用率。

    類人筆記機(jī)制:SEN 模塊模仿人類做筆記的習(xí)慣,用「*」標(biāo)記關(guān)鍵信息,用「–」標(biāo)記不確定信息,避免模型被誤導(dǎo)。

    邏輯蘊(yùn)含驅(qū)動(dòng)的獎(jiǎng)勵(lì)信號(hào):引入輕量級(jí)自然語言推理模型作為「蘊(yùn)含判別器」,確保筆記能夠邏輯上支撐最終答案,從而在訓(xùn)練中提供更密集、更高質(zhì)量的獎(jiǎng)勵(lì)信號(hào)。

    EviNote-RAG 概述:為了提高信息利用率,該方法引入了一個(gè)記錄階段,在這個(gè)階段,模型生成支持性證據(jù)筆記(SENs),這些筆記只捕獲回答所需的信息?;谔N(yùn)涵的證據(jù)質(zhì)量獎(jiǎng)勵(lì)(EQR)進(jìn)一步確保每個(gè)注釋忠實(shí)地支持最終答案,引導(dǎo)模型走向更準(zhǔn)確和基于證據(jù)的推理。

    實(shí)驗(yàn)表現(xiàn)

    在7 個(gè)主流 QA 基準(zhǔn)數(shù)據(jù)集上測(cè)試了 EviNote-RAG,涵蓋了in-domain(同分布任務(wù))和 out-of-domain(跨域任務(wù))兩大類。評(píng)價(jià)指標(biāo)包括F1和EM(Exact Match)。

    結(jié)果非常亮眼:在HotpotQA(多跳推理任務(wù))上相比基礎(chǔ)模型,F(xiàn)1 提升 +0.093(20%);在 Bamboogle(跨域復(fù)雜 QA)上 F1 提升 +0.151(40%);在 2Wiki(多跳跨域 QA)上 F1 提升 +0.256(91%)。

    Training Dynamics:

    從不穩(wěn)定到穩(wěn)健,RAG 訓(xùn)練的新范式

    在傳統(tǒng) RAG 框架中,訓(xùn)練往往充滿不確定性:獎(jiǎng)勵(lì)稀疏,KL 發(fā)散,甚至在訓(xùn)練中后期出現(xiàn)「坍塌」現(xiàn)象,模型陷入無效循環(huán)或生成退化答案。

    EviNote-RAG 的引入,徹底改變了這一局面。通過在訓(xùn)練過程中加入Supportive-Evidence Notes(SEN)與Evidence Quality Reward(EQR),模型不僅學(xué)會(huì)了過濾無關(guān)信息,更獲得了密集、穩(wěn)定的獎(jiǎng)勵(lì)信號(hào)。這一結(jié)構(gòu)化的「檢索-筆記-回答」范式,使得訓(xùn)練曲線從動(dòng)蕩轉(zhuǎn)向平滑,逐步提升性能的同時(shí),極大增強(qiáng)了魯棒性。

    我們的分析揭示了三個(gè)關(guān)鍵發(fā)現(xiàn):

    Finding 1.穩(wěn)定性來自結(jié)構(gòu)化指令,而非獎(jiǎng)勵(lì)本身。僅靠獎(jiǎng)勵(lì)設(shè)計(jì)無法避免模型漂移,唯有通過「先做筆記、再回答」的流程,把推理顯式約束在證據(jù)之上,才能保證訓(xùn)練穩(wěn)定增長(zhǎng)。

    Finding 2.檢索噪聲過濾顯著提升計(jì)算效率。SEN 在訓(xùn)練早期即丟棄無關(guān)證據(jù),使輸出更簡(jiǎn)潔聚焦,減少冗余推理,從而顯著降低推理時(shí)延。

    Finding 3.行為監(jiān)督不僅提升穩(wěn)定性,更改善輸出質(zhì)量。EQR 的引入有效防止了「過短回答」與「循環(huán)生成」等退化模式,使模型在保持高效的同時(shí),輸出更忠實(shí)、更有邏輯支撐。

    結(jié)果表明,EviNote-RAG 不只是性能提升,更是一種訓(xùn)練范式的革新:在噪聲橫行的檢索環(huán)境中,訓(xùn)練終于能像一條清晰的軌道般穩(wěn)定前行。

    案例分析

    一個(gè)直觀的案例是回答「誰創(chuàng)作了《Knockin’ on Heaven’s Door》?」。

    在傳統(tǒng) RAG 系統(tǒng)中,模型容易被檢索文檔中的噪聲或誤導(dǎo)性信息干擾。例如,某些文檔強(qiáng)調(diào) Guns N’ Roses 的翻唱版本,甚至用語暗示其「作者身份」。結(jié)果,模型很容易被這種表述帶偏,最終輸出錯(cuò)誤答案「Guns N’ Roses」。

    而在同樣的場(chǎng)景下,EviNote-RAG 展現(xiàn)出了截然不同的表現(xiàn)。通過生成Supportive-Evidence Notes(SEN),模型能夠主動(dòng)篩除無關(guān)或誤導(dǎo)性的片段,僅保留和問題直接相關(guān)的核心證據(jù)。多份文檔反復(fù)提及「Bob Dylan 為 1973 年電影《Pat Garrett and Billy the Kid》創(chuàng)作了這首歌」,這些被標(biāo)注為關(guān)鍵信息,最終幫助模型穩(wěn)定輸出正確答案「Bob Dylan」。

    這一案例生動(dòng)展示了EviNote-RAG 在低信噪比環(huán)境下的優(yōu)勢(shì):即便存在大量混淆性信息,模型依然能夠通過「先做筆記、再給答案」的流程,構(gòu)建出基于真實(shí)證據(jù)的推理鏈,從而避免被誤導(dǎo)。換句話說,EviNote-RAG 不僅是在「回答問題」,更是在「學(xué)會(huì)像人類一樣做判斷」。

    消融實(shí)驗(yàn)與補(bǔ)充實(shí)驗(yàn):

    拆解模塊貢獻(xiàn),驗(yàn)證方法穩(wěn)健性

    為了進(jìn)一步理解 EviNote-RAG 的機(jī)制貢獻(xiàn),我們系統(tǒng)地進(jìn)行了消融實(shí)驗(yàn)與補(bǔ)充實(shí)驗(yàn)。結(jié)果表明,我們的方法并非黑箱優(yōu)化的「偶然勝利」,而是每一個(gè)設(shè)計(jì)環(huán)節(jié)都發(fā)揮了關(guān)鍵作用。

    消融實(shí)驗(yàn):SEN 與 EQR 締造穩(wěn)健推理在逐步剝離組件的實(shí)驗(yàn)中,基線模型(SEARCH-R1)在跨域和多跳任務(wù)中表現(xiàn)不穩(wěn)定。引入Supportive-Evidence Notes(SEN)后,模型性能顯著提升:無關(guān)檢索內(nèi)容被過濾,答案相關(guān)性更強(qiáng)。在此基礎(chǔ)上進(jìn)一步加入Evidence Quality Reward(EQR),模型在復(fù)雜推理鏈路中表現(xiàn)更加穩(wěn)定,F(xiàn)1 和 EM 得到進(jìn)一步提升。這一組合清晰地驗(yàn)證了我們的方法論邏輯:SEN 提供結(jié)構(gòu)化約束,EQR 提供邏輯一致性監(jiān)督,二者相輔相成,最終顯著增強(qiáng)推理準(zhǔn)確性。

    補(bǔ)充實(shí)驗(yàn):不同總結(jié)策略與獎(jiǎng)勵(lì)設(shè)計(jì)的比較我們進(jìn)一步探索了不同的總結(jié)與監(jiān)督方式:Naive Summary (NS)、Naive Evidence (NE)、Force Summary (FS) 等。結(jié)果顯示,強(qiáng)行要求輸出總結(jié)(FS)非但沒有帶來增益,反而由于獎(jiǎng)勵(lì)稀疏導(dǎo)致性能下降。

    相比之下,SEN 在明確標(biāo)注關(guān)鍵信息與不確定信息的同時(shí),提供了更細(xì)粒度的監(jiān)督信號(hào),顯著優(yōu)于 NS/NE。實(shí)驗(yàn)還表明,單純的獎(jiǎng)勵(lì)擾動(dòng)(Stochastic Reward)難以帶來穩(wěn)定提升,而結(jié)合 EQR 的 SEN+EQR 則在穩(wěn)定性與準(zhǔn)確性上均達(dá)到最佳。這一系列對(duì)照實(shí)驗(yàn)凸顯出一個(gè)核心結(jié)論:有效的監(jiān)督不在于「要求總結(jié)」,而在于「如何組織與標(biāo)記支持性證據(jù)」。

    核心發(fā)現(xiàn):

    SEN 是性能提升的基礎(chǔ):通過強(qiáng)制模型「做筆記」,顯著降低噪聲干擾。

    EQR 是質(zhì)量提升的關(guān)鍵:通過邏輯蘊(yùn)含約束,防止淺層匹配,強(qiáng)化因果一致性。

    結(jié)構(gòu)化監(jiān)督勝于簡(jiǎn)單約束:相比強(qiáng)制總結(jié)或隨機(jī)獎(jiǎng)勵(lì),SEN+EQR 提供了穩(wěn)定、密集且高質(zhì)量的學(xué)習(xí)信號(hào)。

    綜上,消融與補(bǔ)充實(shí)驗(yàn)不僅驗(yàn)證了 EviNote-RAG 的有效性,更揭示了在 noisy RAG 環(huán)境中,結(jié)構(gòu)化證據(jù)組織與邏輯監(jiān)督是突破性能瓶頸的關(guān)鍵。