缺錢但不缺洞見：剛剛，陶哲軒揭秘AI如何吞噬數(shù)學(xué)項目的靈魂！

2025-09-20 10:17:53分類：金華閱讀(24327)

新智元報道

編輯：犀牛

【新智元導(dǎo)讀】大模型相當(dāng)于奧數(shù)金牌生真的成立嗎？陶哲軒的洞見：必須把AI研究中的隱性目標(biāo)說清楚、管起來。與此同時，香港大學(xué)馬毅教授團(tuán)隊參與發(fā)布的GAUSS框架，用三大領(lǐng)域、十二項技能給AI做數(shù)學(xué)體檢，不只看對錯，更挖推理、學(xué)習(xí)與創(chuàng)造力的短板。

陶哲軒最近的日子過得不太舒服。

他頻頻發(fā)聲吐槽科研經(jīng)費(fèi)短缺，甚至還得抽出寶貴的時間和精力去到處籌款。

不過，作為當(dāng)世最偉大的數(shù)學(xué)家之一，他并未停止研究探索。

這不，就在剛剛，他發(fā)表了一篇短博客，犀利地指出了當(dāng)前AI數(shù)學(xué)研究中的一個核心問題——

AI雖然能夠解決研究中的那些顯性目標(biāo)，但我們也付出了大量的隱形代價。

AI研究中的隱性代價

數(shù)學(xué)家們的研究項目通常都會有一個終極目標(biāo)，比如：「年底前，完成對數(shù)學(xué)定理X的證明?！?/p>

然而，在這個終極目標(biāo)里，還隱藏著一些看不見、摸不著，卻同樣重要的東西。

它們沒有被寫在墻上，卻存在于團(tuán)隊的每個人心中。

比如，我們希望通過這個項目：

為開源數(shù)學(xué)庫Mathlib貢獻(xiàn)出可復(fù)用的代碼；

團(tuán)隊里的新手能在此過程中成長為獨(dú)當(dāng)一面的專家；

在嚴(yán)謹(jǐn)?shù)淖C明過程中，能碰撞出對定理X更深刻、更本質(zhì)的理解；

更重要的是，希望凝聚一個充滿活力、熱愛鉆研的學(xué)術(shù)社區(qū)。

這些，就是項目中的「隱性目標(biāo)」。

過去，科學(xué)家們很少為這些隱性目標(biāo)擔(dān)憂。

因為在一個由人類主導(dǎo)的項目里，所有這些隱形目標(biāo)幾乎都與寫在墻上的那個「終極目標(biāo)」相伴而生。

這個過程就像一位優(yōu)秀的登山向?qū)?，他不僅要帶領(lǐng)隊伍登頂，更會在此過程中教會大家識別植物、閱讀星空、團(tuán)結(jié)協(xié)作。

登頂（顯性目標(biāo)）與團(tuán)隊成長（隱性目標(biāo)）的實現(xiàn)，幾乎是同一趟旅程的兩個側(cè)面。

然而，現(xiàn)在情況不同了。

正如陶哲軒指出的那樣——AI的到來，使得之前的這種約定俗成面臨前所未有的挑戰(zhàn)。

一場關(guān)于項目目標(biāo)的「隱性危機(jī)」，已經(jīng)悄然降臨。

AI破壞者與Goodhart定律

在深入陶哲軒的洞見之前，我們不妨先來理解一個他在博文中提到的經(jīng)濟(jì)學(xué)定律——Goodhart定律（Goodhart's law）。

它的核心思想用一句話就能概括：當(dāng)一個「度量指標(biāo)」被過度依賴并轉(zhuǎn)化為「行為目標(biāo)」時，這個指標(biāo)將不再能準(zhǔn)確反映其原本要衡量的真實狀態(tài)，甚至?xí)で袨?、偏離初始目標(biāo)。

聽起來有點繞？舉個栗子。

一家公司的客服中心，為了提升服務(wù)效率，設(shè)立了一個KPI：縮短平均通話時長。

管理層認(rèn)為，通話時間越短，意味著問題解決得越快，客戶滿意度自然就高。

最初，這個指標(biāo)確實激勵客服人員更高效地溝通。

但很快，為了追求極致的「短」，一些員工開始在遇到復(fù)雜問題時，巧妙地引導(dǎo)客戶掛斷電話，甚至直接掛斷。

結(jié)果呢？

平均通話時長這個數(shù)字變得異常漂亮，但客戶滿意度卻跌入谷底。

原本用于衡量效率的標(biāo)尺，在成為被追逐的目標(biāo)后，徹底失去了它原有的意義。

這就是Goodhart定律——它像一面鏡子，照出了系統(tǒng)中的投機(jī)取巧和目標(biāo)的異化。

不幸的是，按照陶哲軒的洞見，AI——尤其是那些強(qiáng)大的優(yōu)化算法——正是Goodhart定律最忠實、也是最極致的執(zhí)行者。

給AI一個明確的目標(biāo)，它就會像一個無比強(qiáng)大、絕對專注，卻又近乎天真的「阿拉丁神燈」，動用全部算力、不惜一切代價去實現(xiàn)所謂的「終極目標(biāo)」，而完全忽略那些也許是同樣重要的「隱形目標(biāo)」。

陶哲軒的這些擔(dān)憂，正在他所熟悉的數(shù)學(xué)形式化證明領(lǐng)域發(fā)生。

回到上文中的場景。

那個「完成定理X證明」的顯性目標(biāo)，如果交給一個人類團(tuán)隊，他們?yōu)榱藰?gòu)建一個優(yōu)雅、可讀、可維護(hù)的證明，自然會去打磨那些基礎(chǔ)定義和引理，這些成果順理成章地就能被整合進(jìn)Mathlib，惠及整個學(xué)術(shù)圈。

在這個過程中，新手通過模仿、學(xué)習(xí)和實踐，逐漸掌握了核心技能；團(tuán)隊成員之間的討論、爭辯與合作，本身就深化了對數(shù)學(xué)結(jié)構(gòu)的理解，并加強(qiáng)了社區(qū)的凝聚力。

但如果將這個任務(wù)交給一個超級AI呢？

在AI的目標(biāo)函數(shù)里，只有一行冷冰冰的指令：「找到一條從公理到定理X的邏輯路徑」。

它可能會在幾小時內(nèi)，生成一個長達(dá)數(shù)萬行、邏輯上無懈可擊，但人類完全無法閱讀、無法理解、無法復(fù)用的證明。

它可能繞過所有常規(guī)的、優(yōu)美的引理，用一種我們前所未見的、詭異的「捷徑」直達(dá)終點。

從顯性目標(biāo)來看，AI取得了100分的完美成績。

但那些隱性目標(biāo)呢？

對Mathlib的貢獻(xiàn)？零。這份天書般的證明基本上毫無復(fù)用價值。

新人的成長？零。沒有人能從中學(xué)到任何東西。

深化對數(shù)學(xué)的理解？可能是負(fù)分。它甚至可能破壞我們對「好的證明」的品味。

社區(qū)的建設(shè)？零。整個過程是黑箱操作，沒有人與人之間的互動。

AI以其極致的效率，在達(dá)成顯性目標(biāo)的同時，精準(zhǔn)地「優(yōu)化」掉了所有我們珍視的、卻未曾明確聲明的隱性價值。

它完美地登上了山頂，卻把整片森林夷為平地。

陶哲軒的建議

陶哲軒沒有將矛頭指向AI本身，而是指向了我們?nèi)祟愖约骸椖康脑O(shè)計者和管理者。

他提醒我們，在AI日益成為強(qiáng)大工具的今天，我們不能再依賴過去那種約定俗成的默契。

必須做出更艱苦的努力，去審視、去挖掘、去明確定義那些我們曾經(jīng)認(rèn)為「理所當(dāng)然」的隱性目標(biāo)。

這意味著，項目管理者需要從「指標(biāo)的設(shè)定者」轉(zhuǎn)變?yōu)椤竷r值的詮釋者」。

在啟動一個項目前，需要組織一場更深入的討論，不僅要問做什么，更要反復(fù)追問為什么要做這件事，以及在這個過程中，我們希望獲得哪些「副產(chǎn)品」。

比如：

我們追求的，僅僅是軟件代碼的最終交付，還是一個高內(nèi)聚、可傳承的開發(fā)團(tuán)隊？

我們想要的，僅僅是一個抓人眼球的廣告文案，還是一個能沉淀品牌價值、引發(fā)用戶情感共鳴的故事？

我們需要的，僅僅是一個數(shù)學(xué)定理的冰冷證明，還是一個能啟發(fā)后人、枝繁葉茂的知識體系？

這些問題，在AI時代變得無比尖銳與迫切。

GAUSS：不止測評AI的答案

好消息是，陶哲軒的這些擔(dān)憂正被越來越多的數(shù)學(xué)家們看到。

更重要的是，他們中的一些杰出代表已經(jīng)給出了一些解決的方案。

近日，一群來自國際頂尖大學(xué)(伯克利、加州理工、斯坦福、華盛頓大學(xué)等)數(shù)學(xué)系的博士(大部分是曾經(jīng)的奧數(shù)金牌得主)，以及香港大學(xué)計算與數(shù)據(jù)科學(xué)學(xué)院院長、AI講座教授馬毅對最新的GPT5等模型各方面的數(shù)學(xué)能力進(jìn)行了全面、專業(yè)、客觀的驗證。

AI們的數(shù)學(xué)能力到底如何了？

為此，他們發(fā)布了一個長達(dá)120頁的報告，提出了如何對大語言模型數(shù)學(xué)能力進(jìn)行專業(yè)評價的框架——GAUSS。