午夜激情影院国产_久久毛片免费播放_国产成人综合在线95精品_精品视频在线观自拍自拍_无码粉嫩小泬抽搐白浆免费_在线观看麻豆国产传媒61_黄色视频无码亚洲啊v在线_国产成人精品免费久亚洲高清不卡_先锋无码午夜资源网站_2021自拍视频亚洲国产第一区

  • Meta超級智能實驗室首篇論文:重新定義RAG

      發(fā)布時間:2025-09-19 20:04:20   作者:玩站小弟   我要評論
    在閱讀此文之前,麻煩您點擊一下“關(guān)注”,既方便您進行討論和分。

    金磊 發(fā)自 凹非寺量子位 | 公眾號 QbitAI

    Meta超級智能實驗室的首篇論文,來了——

    提出了一個名為REFRAG的高效解碼框架,重新定義了RAG(檢索增強生成),最高可將首字生成延遲(TTFT)加速30倍。

    畢竟算是超級智能實驗的“開山之作”,研究一出,就已經(jīng)在網(wǎng)上掀起了不少的熱議。

    例如Reddti網(wǎng)友表示:

    若效果真如研究所說的那樣,那對RAG來說是相當不錯的改進,看起來可以做到在不犧牲準確性的情況下,能顯著提高速度和上下文大小。

    天下苦RAG上下文計算冗余久矣

    首先,我們需要理解并回顧一下RAG的工作原理。

    當一個大型語言模型(LLM)被要求回答需要精確背景知識的問題時,如果僅依賴它內(nèi)部參數(shù)化的知識,可能會出現(xiàn)事實性錯誤或信息滯后等情況。

    而RAG就通過一個外部知識庫(如企業(yè)文檔、專業(yè)數(shù)據(jù)庫等)進行檢索,將與問題最相關(guān)的信息提取出來,作為上下文與原始問題一同提供給LLM。LLM在獲得這些精確的參考資料后,就能生成內(nèi)容更可靠、更具時效性的答案。

    然而,這個模式在工程方面也帶來了不小的挑戰(zhàn),即推理效率與信息量的權(quán)衡。

    當AI檢索到的參考資料非常多(也就是我們通常說的“長上下文”)時,LLM的處理負擔會大幅增加。

    模型處理上下文的計算復雜度通常與上下文長度的平方成正比,導致生成第一個字的延遲(Time-to-First-Token, TTFT)顯著增加,這直接影響了實時交互應用的用戶體驗。

    同時,處理長上下文也意味著更高的計算和內(nèi)存開銷,為系統(tǒng)的規(guī)?;渴饚砹颂魬?zhàn)。

    基于這樣的背景,Meta超級智能實驗室的研究人員發(fā)現(xiàn),在RAG應用中,LLM處理檢索到的多個文檔時,其計算過程存在大量冗余。

    通過實驗,他們觀察到模型內(nèi)部的注意力機制在處理這些文檔時,呈現(xiàn)出一種“塊對角”(block-diagonal)的稀疏模式。

    這意味著,模型的注意力主要集中在單個文檔內(nèi)部,以及各文檔與用戶問題之間的關(guān)聯(lián)上。而不同文檔片段之間的交叉注意力得分通常很低,表明它們之間的關(guān)聯(lián)性較弱。

    然而,標準的Transformer架構(gòu)并不會區(qū)分這些關(guān)聯(lián)性的強弱,而是對上下文中的所有詞元(token)進行全局的注意力計算,這導致了大量計算資源被消耗在分析那些關(guān)聯(lián)性很弱的文檔片段上。

    基于這一觀察,研究團隊提出:RAG解碼過程中的大部分注意力計算對于最終結(jié)果的貢獻有限,可以在不顯著影響性能的前提下被優(yōu)化或移除。

    REFRAG,就此應運而生。

    REFRAG:一種選擇性壓縮解碼方案

    REFRAG這個框架,主要通過“壓縮(Compress)、感知(Sense)、擴展(Expand)”的流程,優(yōu)化了LLM處理外部知識的方式。

    壓縮:將上下文轉(zhuǎn)換為緊湊表征

    REFRAG首先改變了上下文的呈現(xiàn)方式,它沒有將所有檢索到的原始文本直接輸入給主LLM,而是引入了一個輕量級的編碼器模型。

    這個編碼器將長篇的參考資料切分為多個“塊”(chunks),并為每個“塊”生成一個緊湊的向量表示——“塊嵌入”(chunk embedding)。這個“塊嵌入”可以視為原始文本塊的濃縮摘要。

    這一步驟帶來了兩個直接的好處,首先就是縮短輸入序列長度,因為LLM需要處理的輸入從數(shù)千個詞元縮減為數(shù)百個“塊嵌入”,顯著降低了后續(xù)的計算量。

    其次是由于這些“塊嵌入”可以被預先計算并存儲,當知識庫中的同一文檔被再次檢索時,系統(tǒng)可以直接調(diào)用緩存的嵌入,避免了重復的編碼計算。

    感知:智能判斷關(guān)鍵信息

    考慮到并非所有信息都適合壓縮,某些包含關(guān)鍵細節(jié)的文本片段需要被保留。

    為此,REFRAG訓練了一個基于強化學習(RL)的策略網(wǎng)絡。

    這個網(wǎng)絡的功能是分析所有的“塊嵌入”和用戶問題,判斷哪些文本塊包含最核心的信息,需要以原始文本的形式呈現(xiàn)給LLM。

    擴展:結(jié)合壓縮與原始文本

    經(jīng)過前兩步的處理,最終輸入到主LLM的是一個混合序列,它包含了大部分上下文的“塊嵌入”(壓縮表示)和少量被判斷為關(guān)鍵的“原始文本塊”。

    LLM基于這份經(jīng)過優(yōu)化的輸入材料來生成答案,大部分背景信息通過壓縮表示快速獲取,而核心細節(jié)則通過原始文本進行精確理解。通過這種方式,REFRAG在保留關(guān)鍵信息的同時,最大限度地降低了計算負載。

    性能無損,效率提升

    根據(jù)論文數(shù)據(jù),REFRAG框架在多個維度上取得了較為不錯的成果。

    例如在推理速度方面,以首字生成延遲(TTFT)為例,REFRAG實現(xiàn)了最高30.85倍的加速。與之前的先進方法相比,也取得了3.75倍的提升。

    這意味著在需要快速響應的場景下,系統(tǒng)的延遲可以得到有效控制。

    其次,實驗還表明,在獲得顯著加速的同時,REFRAG在困惑度(Perplexity)以及多種下游任務(如問答、摘要)的準確率上,與使用完整上下文的基線模型相比沒有性能損失。

    此外,由于壓縮技術(shù)使得模型能在同等計算預算下處理更多信息,上下文窗口等效擴大了16倍,這在某些任務上反而帶來了性能增益。

    據(jù)了解,這個方法的設計不僅適用于RAG,也適用于多輪對話、長文檔摘要等其他需要處理長上下文信息的任務。

    總而言之,Meta超級智能實驗室的這項研究,通過巧妙的算法設計,有效解決了當前大模型在處理長上下文時面臨的核心效率問題。REFRAG為開發(fā)更高效、更經(jīng)濟、更具擴展性的AI應用提供了一個重要的解決方案。

    參考鏈接:[1]https://arxiv.org/abs/2509.01092[2]https://www.reddit.com/r/singularity/comments/1nai17r/new_research_from_meta_superintelligence_labs_big/