機(jī)器之心報道
編輯:+0、張倩
想象一下,如果 ChatGPT 等 AI 大模型在生成的時候,能把自己不確定的地方都標(biāo)記出來,你會不會對它們生成的答案放心很多?
上周末,OpenAI 發(fā)的一篇論文引爆了社區(qū)。這篇論文系統(tǒng)性地揭示了幻覺的根源,指出問題出在獎勵上 —— 標(biāo)準(zhǔn)的訓(xùn)練和評估程序更傾向于對猜測進(jìn)行獎勵,而不是在模型勇于承認(rèn)不確定時給予獎勵??赡芫褪且驗橐庾R到了這個問題,并找出了針對性的解法,GPT-5 的幻覺率大幅降低。
隨著 AI 大模型在醫(yī)療咨詢、法律建議等高風(fēng)險領(lǐng)域的應(yīng)用不斷深入,幻覺問題會變得越來越棘手,因此不少研究者都在往這一方向發(fā)力。除了像 OpenAI 那樣尋找幻覺原因,還有不少人在研究幻覺檢測技術(shù)。然而,現(xiàn)有的幻覺檢測技術(shù)在實際應(yīng)用中面臨瓶頸,通常僅適用于簡短的事實性查詢,或需要借助昂貴的外部資源進(jìn)行驗證。
針對這一挑戰(zhàn),來自蘇黎世聯(lián)邦理工學(xué)院(ETH)和 MATS 的一項新研究提出了一種低成本、可擴(kuò)展的檢測方法,能夠?qū)崟r識別長篇內(nèi)容中的「幻覺 token」,并成功應(yīng)用于高達(dá) 700 億(70B)參數(shù)的大型模型。
論文標(biāo)題:Real-Time Detection of Hallucinated Entities in Long-Form Generation論文地址:https://arxiv.org/abs/2509.03531代碼地址:https://github.com/obalcells/hallucination_probes項目地址:https://www.hallucination-probes.com/代碼和數(shù)據(jù)集:https://github.com/obalcells/hallucination_probes
該方法的核心是精準(zhǔn)識別實體級幻覺,例如捏造的人名、日期或引文,而非判斷整個陳述的真?zhèn)?。這種策略使其能夠自然地映射到 token 級別的標(biāo)簽,從而實現(xiàn)實時流式檢測。
通過 token 級探針檢測幻覺實體。在長文本生成場景(Long Fact、HealthBench)中,線性探針的性能遠(yuǎn)超基于不確定性的基線方法,而 LoRA 探針則進(jìn)一步提升了性能。該探針同樣在短文本場景(TriviaQA)以及分布外推理領(lǐng)域(MATH)中表現(xiàn)出色。圖中展示的是 Llama-3.3-70B 模型的結(jié)果。
為實現(xiàn)這一目標(biāo),研究人員開發(fā)了一種高效的標(biāo)注流程。他們利用網(wǎng)絡(luò)搜索來驗證模型生成內(nèi)容中的實體,并為每一個 token 標(biāo)注是否有事實依據(jù)?;谶@個專門構(gòu)建的數(shù)據(jù)集,研究人員通過線性探針(linear probes)等簡潔高效的技術(shù),成功訓(xùn)練出精準(zhǔn)的幻覺分類器。
在對四種主流模型家族的評估中,該分類器的表現(xiàn)全面超越了現(xiàn)有基準(zhǔn)方法。尤其是在處理長篇回復(fù)時,其效果遠(yuǎn)勝于語義熵(semantic entropy)等計算成本更高的方法。例如,在 Llama-3.3-70B 模型上,該方法的 AUC(分類器性能指標(biāo))達(dá)到了 0.90,而基準(zhǔn)方法僅為 0.71。此外,它在短式問答場景中也展現(xiàn)出優(yōu)越的性能。
值得注意的是,盡管該分類器僅使用實體級標(biāo)簽進(jìn)行訓(xùn)練,它卻能有效識別數(shù)學(xué)推理任務(wù)中的錯誤答案。這一發(fā)現(xiàn)表明,該方法具備了超越實體檢測的泛化能力,能夠識別更廣泛的邏輯錯誤。
雖然原始數(shù)據(jù)集的標(biāo)注成本高昂,但研究發(fā)現(xiàn),基于一個模型標(biāo)注的數(shù)據(jù)可被復(fù)用于訓(xùn)練針對其他模型的有效分類器。因此,研究團(tuán)隊已公開發(fā)布此數(shù)據(jù)集,以推動社區(qū)的后續(xù)研究。
方法概覽
用于 token 級幻覺檢測的數(shù)據(jù)集構(gòu)建
為了訓(xùn)練能夠在 token 級別檢測幻覺的分類器,研究者需要一個對長文本中的幻覺內(nèi)容有精確標(biāo)注的數(shù)據(jù)集。這個過程分為兩步:(1) 生成包含事實與幻覺內(nèi)容的混合文本 ;(2) 對這些文本進(jìn)行準(zhǔn)確的 token 級標(biāo)注,以識別哪些 token 屬于被捏造的實體。下圖展示了該標(biāo)注流程。
token 級標(biāo)注流水線。
數(shù)據(jù)生成
研究者在 LongFact 數(shù)據(jù)集的基礎(chǔ)上,創(chuàng)建了一個規(guī)模擴(kuò)大 10 倍、領(lǐng)域更多樣化的提示集LongFact++
LongFact++ 包含主題查詢、名人傳記、引文生成和法律案件等四類提示,旨在誘導(dǎo)大語言模型生成富含實體的長文本,作為后續(xù)標(biāo)注的原材料。
token 級標(biāo)注
與傳統(tǒng)方法將文本分解為 atomic claims 不同,該研究專注于標(biāo)注實體(如人名、日期、引文等),因為實體有明確的 token 邊界,易于進(jìn)行流式檢測。他們使用帶有網(wǎng)絡(luò)搜索功能的 Claude 4 Sonnet 模型來自動完成標(biāo)注流程。
該系統(tǒng)會識別文本中的實體,通過網(wǎng)絡(luò)搜索驗證其真實性,并將其標(biāo)記為「Supported」(有證據(jù)支持)、「Not Supported」(被證實是捏造的)或「Insufficient Information」(信息不足)。
標(biāo)簽質(zhì)量
為驗證標(biāo)注質(zhì)量,研究者進(jìn)行了兩項檢查。首先,人類標(biāo)注員的標(biāo)注結(jié)果與大模型自動標(biāo)注結(jié)果的一致性為 84%。其次,在一個包含已知錯誤(人工注入)的受控數(shù)據(jù)集中,該標(biāo)注流程的召回率為 80.6%,假陽性率為 15.8% 。
訓(xùn)練 token 級探針
實驗結(jié)果
在長文本設(shè)置中(LongFact 和 HealthBench),token 級探針在兩個主要模型上的表現(xiàn)都顯著優(yōu)于基線方法(表 1)。簡單的線性探針始終實現(xiàn)了 0.85 以上的 AUC 值,而 LoRA 探針進(jìn)一步提升了性能,將 AUC 推高到 0.89 以上。
相比之下,基于不確定性的基線方法表現(xiàn)均不佳,AUC 值均未超過 0.76。在短文本設(shè)置中(TriviaQA),基線方法比長文本設(shè)置中表現(xiàn)更強(qiáng),但探針仍然領(lǐng)先。LoRA 探針始終實現(xiàn)了超過 0.96 的 AUC 值,線性探針也表現(xiàn)良好。值得注意的是,本文提出的探針在 MATH 數(shù)據(jù)集上也取得了強(qiáng)勁的結(jié)果。這種分布外的性能表明,本文提出的方法捕獲了正確性的信號,這些信號的泛化性超出了其最初針對的虛構(gòu)實體。
作者在三個次要模型上復(fù)制了長文本結(jié)果,每個模型僅使用 2000 個其自身長文本生成的注釋樣本進(jìn)行訓(xùn)練。結(jié)果是相似的:LoRA 探針再次優(yōu)于線性探針,在 LongFact 生成上的 AUC 值在 0.87-0.90 之間。次要模型的完整結(jié)果顯示在表 5 中。
雖然 LoRA 探針的 AUC 值在多個設(shè)置中接近或超過 0.9,但長文本上的 [email protected] 最高約為 0.7,即在 10% 假陽性率下,檢測器能夠識別出大約三分之二的幻覺實體。這些結(jié)果既突出了相對于標(biāo)準(zhǔn)基于不確定性基線方法的實際收益,也表明在這類方法能夠廣泛應(yīng)用于高風(fēng)險場景之前,仍有進(jìn)一步改進(jìn)的空間。
更多細(xì)節(jié)請參見原論文。
>關(guān)于我們|版權(quán)聲明| 違法和不良信息舉報電話:010-84151598 | 網(wǎng)絡(luò)敲詐和有償刪帖舉報電話:010-84151598
Copyright ? 2008-2024 by {當(dāng)前域名}. all rights reserved