新智元報道
編輯:犀牛
【新智元導(dǎo)讀】大模型相當(dāng)于奧數(shù)金牌生真的成立嗎?陶哲軒的洞見:必須把AI研究中的隱性目標(biāo)說清楚、管起來。與此同時,香港大學(xué)馬毅教授團(tuán)隊參與發(fā)布的GAUSS框架,用三大領(lǐng)域、十二項技能給AI做數(shù)學(xué)體檢,不只看對錯,更挖推理、學(xué)習(xí)與創(chuàng)造力的短板。
陶哲軒最近的日子過得不太舒服。
他頻頻發(fā)聲吐槽科研經(jīng)費(fèi)短缺,甚至還得抽出寶貴的時間和精力去到處籌款。
不過,作為當(dāng)世最偉大的數(shù)學(xué)家之一,他并未停止研究探索。
這不,就在剛剛,他發(fā)表了一篇短博客,犀利地指出了當(dāng)前AI數(shù)學(xué)研究中的一個核心問題——
AI雖然能夠解決研究中的那些顯性目標(biāo),但我們也付出了大量的隱形代價。
AI研究中的隱性代價
數(shù)學(xué)家們的研究項目通常都會有一個終極目標(biāo),比如:「年底前,完成對數(shù)學(xué)定理X的證明?!?/p>
然而,在這個終極目標(biāo)里,還隱藏著一些看不見、摸不著,卻同樣重要的東西。
它們沒有被寫在墻上,卻存在于團(tuán)隊的每個人心中。
比如,我們希望通過這個項目:
為開源數(shù)學(xué)庫Mathlib貢獻(xiàn)出可復(fù)用的代碼;
團(tuán)隊里的新手能在此過程中成長為獨(dú)當(dāng)一面的專家;
在嚴(yán)謹(jǐn)?shù)淖C明過程中,能碰撞出對定理X更深刻、更本質(zhì)的理解;
更重要的是,希望凝聚一個充滿活力、熱愛鉆研的學(xué)術(shù)社區(qū)。
這些,就是項目中的「隱性目標(biāo)」。
過去,科學(xué)家們很少為這些隱性目標(biāo)擔(dān)憂。
因為在一個由人類主導(dǎo)的項目里,所有這些隱形目標(biāo)幾乎都與寫在墻上的那個「終極目標(biāo)」相伴而生。
這個過程就像一位優(yōu)秀的登山向?qū)?,他不僅要帶領(lǐng)隊伍登頂,更會在此過程中教會大家識別植物、閱讀星空、團(tuán)結(jié)協(xié)作。
登頂(顯性目標(biāo))與團(tuán)隊成長(隱性目標(biāo))的實現(xiàn),幾乎是同一趟旅程的兩個側(cè)面。
然而,現(xiàn)在情況不同了。
正如陶哲軒指出的那樣——AI的到來,使得之前的這種約定俗成面臨前所未有的挑戰(zhàn)。
一場關(guān)于項目目標(biāo)的「隱性危機(jī)」,已經(jīng)悄然降臨。
AI破壞者與Goodhart定律
在深入陶哲軒的洞見之前,我們不妨先來理解一個他在博文中提到的經(jīng)濟(jì)學(xué)定律——Goodhart定律(Goodhart's law)。
它的核心思想用一句話就能概括:當(dāng)一個「度量指標(biāo)」被過度依賴并轉(zhuǎn)化為「行為目標(biāo)」時,這個指標(biāo)將不再能準(zhǔn)確反映其原本要衡量的真實狀態(tài),甚至?xí)で袨?、偏離初始目標(biāo)。
聽起來有點繞?舉個栗子。
一家公司的客服中心,為了提升服務(wù)效率,設(shè)立了一個KPI:縮短平均通話時長。
管理層認(rèn)為,通話時間越短,意味著問題解決得越快,客戶滿意度自然就高。
最初,這個指標(biāo)確實激勵客服人員更高效地溝通。
但很快,為了追求極致的「短」,一些員工開始在遇到復(fù)雜問題時,巧妙地引導(dǎo)客戶掛斷電話,甚至直接掛斷。
結(jié)果呢?
平均通話時長這個數(shù)字變得異常漂亮,但客戶滿意度卻跌入谷底。
原本用于衡量效率的標(biāo)尺,在成為被追逐的目標(biāo)后,徹底失去了它原有的意義。
這就是Goodhart定律——它像一面鏡子,照出了系統(tǒng)中的投機(jī)取巧和目標(biāo)的異化。
不幸的是,按照陶哲軒的洞見,AI——尤其是那些強(qiáng)大的優(yōu)化算法——正是Goodhart定律最忠實、也是最極致的執(zhí)行者。
給AI一個明確的目標(biāo),它就會像一個無比強(qiáng)大、絕對專注,卻又近乎天真的「阿拉丁神燈」,動用全部算力、不惜一切代價去實現(xiàn)所謂的「終極目標(biāo)」,而完全忽略那些也許是同樣重要的「隱形目標(biāo)」。
陶哲軒的這些擔(dān)憂,正在他所熟悉的數(shù)學(xué)形式化證明領(lǐng)域發(fā)生。
回到上文中的場景。
那個「完成定理X證明」的顯性目標(biāo),如果交給一個人類團(tuán)隊,他們?yōu)榱藰?gòu)建一個優(yōu)雅、可讀、可維護(hù)的證明,自然會去打磨那些基礎(chǔ)定義和引理,這些成果順理成章地就能被整合進(jìn)Mathlib,惠及整個學(xué)術(shù)圈。
在這個過程中,新手通過模仿、學(xué)習(xí)和實踐,逐漸掌握了核心技能;團(tuán)隊成員之間的討論、爭辯與合作,本身就深化了對數(shù)學(xué)結(jié)構(gòu)的理解,并加強(qiáng)了社區(qū)的凝聚力。
但如果將這個任務(wù)交給一個超級AI呢?
在AI的目標(biāo)函數(shù)里,只有一行冷冰冰的指令:「找到一條從公理到定理X的邏輯路徑」。
它可能會在幾小時內(nèi),生成一個長達(dá)數(shù)萬行、邏輯上無懈可擊,但人類完全無法閱讀、無法理解、無法復(fù)用的證明。
它可能繞過所有常規(guī)的、優(yōu)美的引理,用一種我們前所未見的、詭異的「捷徑」直達(dá)終點。
從顯性目標(biāo)來看,AI取得了100分的完美成績。
但那些隱性目標(biāo)呢?
對Mathlib的貢獻(xiàn)? 零。這份天書般的證明基本上毫無復(fù)用價值。
新人的成長? 零。沒有人能從中學(xué)到任何東西。
深化對數(shù)學(xué)的理解? 可能是負(fù)分。它甚至可能破壞我們對「好的證明」的品味。
社區(qū)的建設(shè)? 零。整個過程是黑箱操作,沒有人與人之間的互動。
AI以其極致的效率,在達(dá)成顯性目標(biāo)的同時,精準(zhǔn)地「優(yōu)化」掉了所有我們珍視的、卻未曾明確聲明的隱性價值。
它完美地登上了山頂,卻把整片森林夷為平地。
陶哲軒的建議
陶哲軒沒有將矛頭指向AI本身,而是指向了我們?nèi)祟愖约骸椖康脑O(shè)計者和管理者。
他提醒我們,在AI日益成為強(qiáng)大工具的今天,我們不能再依賴過去那種約定俗成的默契。
必須做出更艱苦的努力,去審視、去挖掘、去明確定義那些我們曾經(jīng)認(rèn)為「理所當(dāng)然」的隱性目標(biāo)。
這意味著,項目管理者需要從「指標(biāo)的設(shè)定者」轉(zhuǎn)變?yōu)椤竷r值的詮釋者」。
在啟動一個項目前,需要組織一場更深入的討論,不僅要問做什么,更要反復(fù)追問為什么要做這件事,以及在這個過程中,我們希望獲得哪些「副產(chǎn)品」。
比如:
我們追求的,僅僅是軟件代碼的最終交付,還是一個高內(nèi)聚、可傳承的開發(fā)團(tuán)隊?
我們想要的,僅僅是一個抓人眼球的廣告文案,還是一個能沉淀品牌價值、引發(fā)用戶情感共鳴的故事?
我們需要的,僅僅是一個數(shù)學(xué)定理的冰冷證明,還是一個能啟發(fā)后人、枝繁葉茂的知識體系?
這些問題,在AI時代變得無比尖銳與迫切。
GAUSS:不止測評AI的答案
好消息是,陶哲軒的這些擔(dān)憂正被越來越多的數(shù)學(xué)家們看到。
更重要的是,他們中的一些杰出代表已經(jīng)給出了一些解決的方案。
近日,一群來自國際頂尖大學(xué)(伯克利、加州理工、斯坦福、華盛頓大學(xué)等)數(shù)學(xué)系的博士(大部分是曾經(jīng)的奧數(shù)金牌得主),以及香港大學(xué)計算與數(shù)據(jù)科學(xué)學(xué)院院長、AI講座教授馬毅對最新的GPT5等模型各方面的數(shù)學(xué)能力進(jìn)行了全面、專業(yè)、客觀的驗證。
AI們的數(shù)學(xué)能力到底如何了?
為此,他們發(fā)布了一個長達(dá)120頁的報告,提出了如何對大語言模型數(shù)學(xué)能力進(jìn)行專業(yè)評價的框架——GAUSS。
項目地址:https://gaussmath.ai/
報告地址:https://drive.google.com/file/d/1ka15SjUl2FhzQMPOv4GQyyu5rb0tVAJT/view
GAUSS旨在系統(tǒng)地分解和評估問題解決所依賴的核心認(rèn)知技能。
與現(xiàn)有數(shù)據(jù)集不同,GAUSS不僅檢查最終答案——它還評估知識、概念理解、問題解決策略、溝通、學(xué)習(xí)和創(chuàng)造力等維度,為模型的能力和局限性提供全面評估。
GAUSS的目標(biāo):
能力拆分:把模型的本事拆成12個維度,一項項評估,用像「雷達(dá)圖」那樣的方式一眼看出哪里強(qiáng)、哪里弱。
防題熟:不光用GSM8K、MATH這些老基準(zhǔn),多加更難的題,比如奧賽題、研課作業(yè)、研究型題目,別靠刷熟題拿高分。
防泄題:精挑細(xì)選題目,確保是模型訓(xùn)練時沒見過的,這樣評測才公平、靠譜。
GAUSS將數(shù)學(xué)能力劃分為三大領(lǐng)域、十二項技能:
數(shù)學(xué)知識與理解:數(shù)學(xué)知識記憶、知識與理論的理解
計算與分析能力:問題求解與溝通、解題框架、邏輯思維與推理、書寫與呈現(xiàn)
學(xué)習(xí)、元技能與創(chuàng)造力:學(xué)習(xí)新知識、直覺、元技能、數(shù)學(xué)建模、泛化、創(chuàng)造力
這一結(jié)構(gòu)從基礎(chǔ)的知識回憶到創(chuàng)造性的命題,全面拆解了數(shù)學(xué)認(rèn)知的各個層面。
GAUSS官網(wǎng)還給出了一些他們測試的實例,更多實例可以在項目官網(wǎng)查看。
歸根結(jié)底,GAUSS不只是一個基準(zhǔn)測試那么簡單,它標(biāo)志著方法論的轉(zhuǎn)變——從「模型有沒有解出題?」轉(zhuǎn)向「按技能維度看,模型的強(qiáng)項和短板是什么?」
通過同時揭示優(yōu)勢與薄弱環(huán)節(jié),GAUSS為打造下一代AI系統(tǒng)提供了路線圖:不止于產(chǎn)出答案,而能展現(xiàn)真正的推理、學(xué)習(xí)與發(fā)現(xiàn)能力。
而這,恰好呼應(yīng)了陶哲軒的擔(dān)憂——我們不能只看AI給出的答案,還要考慮其他的「隱形項目」。
相信隨著越來越多的研究人員注意到這些問題,也會得到越來越多的像GAUSS這樣的應(yīng)對方案。
參考資料:
https://mathstodon.xyz/@tao/115196924307085967
https://gaussmath.ai/