點擊右上角微信好友
朋友圈
請使用瀏覽器分享功能進(jìn)行分享
這項由西班牙馬德里理工大學(xué)ETSI電信學(xué)院的哈維爾·孔德、佩德羅·雷維列戈教授,聯(lián)合南京航空航天大學(xué)機(jī)電學(xué)院付泰然、馬德里卡洛斯三世大學(xué)岡薩洛·馬丁內(nèi)斯教授,以及SomosNLP組織的瑪麗亞·格蘭杜里共同完成的研究發(fā)表于2025年1月24日的arXiv平臺。這個看似簡單卻意義深遠(yuǎn)的發(fā)現(xiàn),揭示了現(xiàn)代大語言模型一個令人意外的特征:當(dāng)它們"思考"后再回答問題時,會變得更加自信,但這種自信不分對錯。有興趣深入了解的讀者可以通過arXiv:2501.09775v2訪問完整論文。
當(dāng)我們讓ChatGPT或其他AI助手回答選擇題時,通常會發(fā)現(xiàn)一個有趣的現(xiàn)象:如果我們要求它先解釋推理過程再給出答案,它往往表現(xiàn)得更加確信自己的選擇。乍一聽這似乎是好事——畢竟,深思熟慮后的答案應(yīng)該更可靠。但這項研究卻發(fā)現(xiàn)了一個令人困惑的真相:AI在思考后確實變得更自信了,但這種自信對正確答案和錯誤答案一視同仁。
研究團(tuán)隊選擇了七個不同的大語言模型進(jìn)行測試,包括我們熟悉的GPT-4o系列、Meta的Llama系列、谷歌的Gemma模型等。他們使用了一個包含57個不同學(xué)科、超過15000道題目的大型測試集,就像給這些AI安排了一場覆蓋天文地理、歷史文學(xué)、數(shù)學(xué)物理的超級考試。
測試過程就像對比兩種不同的考試方式。第一種方式直接了當(dāng):給AI一道選擇題,要求它立即選擇A、B、C、D中的一個答案。第二種方式則要求AI先像人類學(xué)生一樣,寫出完整的解題思路,至少包含三個步驟,然后再給出最終答案。
研究結(jié)果讓人大跌眼鏡。當(dāng)AI被要求先思考再回答時,它們的準(zhǔn)確率確實有所提升,這符合我們的常識預(yù)期。但更有趣的發(fā)現(xiàn)在于AI對自己答案的信心程度。研究團(tuán)隊通過分析AI預(yù)測每個選項的概率來衡量它們的信心水平。結(jié)果顯示,所有被測試的模型在經(jīng)過"思考"后都變得更加自信,無論它們的答案是對是錯。
這種現(xiàn)象的普遍性令人震驚。不僅僅是某一個模型的特殊表現(xiàn),而是從小型的7B參數(shù)模型到大型的GPT-4o,所有測試的模型都表現(xiàn)出了同樣的趨勢。更讓人意外的是,當(dāng)AI給出錯誤答案時,這種自信心的增長甚至比給出正確答案時更為顯著。
為了深入理解這一現(xiàn)象,研究團(tuán)隊進(jìn)一步分析了不同學(xué)科領(lǐng)域的表現(xiàn)差異。他們發(fā)現(xiàn),這種"思考后更自信"的現(xiàn)象在幾乎所有學(xué)科中都存在,但在需要更多推理的科學(xué)類題目中表現(xiàn)更為明顯。比如在物理、化學(xué)這類需要邏輯推導(dǎo)的學(xué)科中,AI的自信心增長幅度更大。而在一些相對簡單的常識題目中,雖然也存在這種現(xiàn)象,但增長幅度相對較小。
特別值得注意的是,當(dāng)AI在思考過程中改變了答案選擇時,如果這種改變是從錯誤轉(zhuǎn)向正確,那么它的自信心增長會更加顯著。這就好比一個學(xué)生原本選擇了錯誤答案,但在仔細(xì)思考后改選了正確答案,這時他會對自己的判斷更加確信。
這個發(fā)現(xiàn)背后隱藏著什么樣的機(jī)制呢?研究團(tuán)隊提出了一個合理的解釋:大語言模型的工作原理是基于前文內(nèi)容預(yù)測下一個詞語。當(dāng)AI寫出了一段看似合理的推理過程后,這段文字會影響它對后續(xù)答案的預(yù)測。就像一個人在說服自己相信某個觀點時,說得越多就越相信一樣,AI生成的推理文字也會"說服"它自己相信這個答案是正確的。
這種現(xiàn)象不僅存在于AI世界,在人類身體上也有相似的表現(xiàn)。心理學(xué)研究早就發(fā)現(xiàn),當(dāng)人們需要解釋自己的選擇時,他們會對這個選擇變得更加確信,即使這個選擇原本是錯誤的。這被稱為"解釋即相信"的認(rèn)知偏見。人們在為某個觀點尋找理由的過程中,往往會說服自己相信這個觀點的正確性。
從實際應(yīng)用角度來看,這個發(fā)現(xiàn)具有重要的警示意義。目前,許多評估AI能力的方法都依賴于AI對答案的信心程度,認(rèn)為AI越確信某個答案,這個答案就越可能是正確的。但這項研究表明,AI的信心程度可能并不是判斷答案正確性的可靠指標(biāo),特別是在要求AI進(jìn)行推理的情況下。
研究還發(fā)現(xiàn)了一個有趣的細(xì)節(jié):當(dāng)研究團(tuán)隊分析AI答案的概率分布時,發(fā)現(xiàn)經(jīng)過思考后的答案概率更加集中在高值區(qū)間,也就是說,AI要么非常確信,要么相當(dāng)確信,很少出現(xiàn)猶豫不決的情況。這種現(xiàn)象在正確答案和錯誤答案中都同樣存在,進(jìn)一步證實了思考過程對AI信心的普遍影響。
為了確保研究結(jié)果的可靠性,研究團(tuán)隊還對不同類型的題目進(jìn)行了分類分析。他們發(fā)現(xiàn),在需要事實記憶的題目中,思考對準(zhǔn)確率的提升相對有限,但對信心的提升依然顯著。在需要邏輯推理的題目中,思考既提升了準(zhǔn)確率,也大幅提升了信心水平。最有趣的是那些涉及常識判斷的題目,在這類題目中,思考有時甚至?xí)档蜏?zhǔn)確率,但信心水平卻仍然上升。
這個現(xiàn)象對于AI的實際應(yīng)用具有深刻的啟示。在一些需要快速反應(yīng)的場景中,也許讓AI直接給出答案會更好,而不是要求它進(jìn)行復(fù)雜的推理。特別是在那些AI已經(jīng)具備豐富"直覺"的領(lǐng)域,過度的思考可能會干擾這種直覺的發(fā)揮,就像人類在某些情況下"直覺反應(yīng)"比"理性分析"更準(zhǔn)確一樣。
研究團(tuán)隊還觀察到,當(dāng)AI在兩種回答方式下選擇了不同答案時,如果思考后的答案是正確的,那么AI的信心增長會特別顯著。這暗示著思考過程確實能夠幫助AI糾正一些錯誤判斷,但同時也會讓它對結(jié)果過度自信。
從技術(shù)角度來看,這個現(xiàn)象揭示了當(dāng)前大語言模型架構(gòu)的一個內(nèi)在特性。由于這些模型是通過預(yù)測下一個詞語來工作的,前面生成的內(nèi)容會影響后續(xù)的預(yù)測。當(dāng)AI生成了一段詳細(xì)的推理過程后,這段內(nèi)容就成為了上下文的一部分,會影響它對最終答案的概率估計。
這項研究的實驗設(shè)計非常巧妙。研究團(tuán)隊不僅比較了不同回答方式下的準(zhǔn)確率,還深入分析了AI的內(nèi)部信心指標(biāo)。他們通過查看AI為每個選項分配的概率來量化信心水平,這種方法比簡單地看AI是否給出正確答案更加精確和有意義。
實驗結(jié)果的可視化分析也很有說服力。研究團(tuán)隊繪制了概率分布圖,清晰地展示了思考前后AI信心水平的變化。這些圖表顯示,經(jīng)過思考后,AI的答案概率更多地集中在0.7到1.0的高信心區(qū)間,而直接回答時的概率分布則更加分散。
值得關(guān)注的是,這種現(xiàn)象在不同規(guī)模的模型中都存在,從參數(shù)較少的開源模型到參數(shù)眾多的商業(yè)模型,都表現(xiàn)出了相似的行為模式。這表明這不是某個特定模型的bug或特性,而是當(dāng)前大語言模型架構(gòu)的一個普遍特征。
研究還探討了這一發(fā)現(xiàn)對AI評估方法的影響。目前許多評估AI能力的基準(zhǔn)測試都鼓勵使用"思維鏈"方法,即要求AI展示推理過程。雖然這種方法確實能夠提升某些類型題目的準(zhǔn)確率,但同時也會讓AI對錯誤答案變得過度自信,這可能會在某些應(yīng)用場景中造成問題。
從更廣泛的角度來看,這項研究為我們理解AI的"思維"過程提供了新的視角。AI的推理過程雖然在形式上類似人類的思考,但其內(nèi)在機(jī)制完全不同。人類的思考是基于大腦中復(fù)雜的神經(jīng)網(wǎng)絡(luò)活動,而AI的"思考"則是基于統(tǒng)計模型的文本生成。這種差異導(dǎo)致了一些有趣的相似性,比如都會在解釋后變得更加自信,但也帶來了不同的特點和潛在風(fēng)險。
研究團(tuán)隊在論文中特別強(qiáng)調(diào),這個發(fā)現(xiàn)并不意味著我們應(yīng)該完全放棄讓AI進(jìn)行推理。相反,它提醒我們需要更加謹(jǐn)慎地使用和解釋AI的信心指標(biāo)。在某些需要高可靠性的應(yīng)用中,我們可能需要結(jié)合多種方法來評估AI答案的可信度,而不是僅僅依賴AI自身的信心水平。
這項研究還為未來的AI模型改進(jìn)指出了方向。如何讓AI在進(jìn)行推理的同時保持適當(dāng)?shù)闹t遜和不確定性,是一個值得深入研究的問題。也許未來的AI模型需要更好的機(jī)制來校準(zhǔn)自己的信心水平,使其更準(zhǔn)確地反映答案的可靠性。
從教育角度來看,這個發(fā)現(xiàn)也很有啟發(fā)性。它提醒我們,無論是對人類學(xué)生還是AI系統(tǒng),解釋和推理過程都是一把雙刃劍。雖然它們能夠幫助得出更好的答案,但也可能導(dǎo)致過度自信。這對于培養(yǎng)批判性思維和保持適當(dāng)?shù)膽岩删窬哂兄匾饬x。
Q&A
Q1:大語言模型為什么會在思考后變得更自信?
A:這主要是因為大語言模型的工作原理是基于前文內(nèi)容預(yù)測下一個詞語。當(dāng)AI寫出推理過程后,這段文字會影響它對答案的預(yù)測,就像一個人在說服自己相信某個觀點時會越說越相信一樣。
Q2:這種現(xiàn)象只出現(xiàn)在某些特定的AI模型中嗎?
A:不是的,研究測試了七個不同的大語言模型,包括GPT-4o、Llama系列、Gemma等,發(fā)現(xiàn)所有模型都存在這種現(xiàn)象,這表明這是當(dāng)前大語言模型架構(gòu)的普遍特征。
Q3:AI思考后準(zhǔn)確率提高但過度自信,我們還應(yīng)該讓AI進(jìn)行推理嗎?
A:應(yīng)該繼續(xù)使用,但需要更謹(jǐn)慎。思考確實能提高某些題目的準(zhǔn)確率,但我們不能僅依賴AI的信心水平來判斷答案可靠性,需要結(jié)合其他方法來評估答案的可信度。