午夜激情影院国产_久久毛片免费播放_国产成人综合在线95精品_精品视频在线观自拍自拍_无码粉嫩小泬抽搐白浆免费_在线观看麻豆国产传媒61_黄色视频无码亚洲啊v在线_国产成人精品免费久亚洲高清不卡_先锋无码午夜资源网站_2021自拍视频亚洲国产第一区

  • 根株附麗網(wǎng)根株附麗網(wǎng)

    缺錢但不缺洞見:剛剛,陶哲軒揭秘AI如何吞噬數(shù)學(xué)項目的靈魂!

    新智元報道

    編輯:犀牛

    【新智元導(dǎo)讀】大模型相當(dāng)于奧數(shù)金牌生真的成立嗎?陶哲軒的洞見:必須把AI研究中的隱性目標(biāo)說清楚、管起來。與此同時,香港大學(xué)馬毅教授團(tuán)隊參與發(fā)布的GAUSS框架,用三大領(lǐng)域、十二項技能給AI做數(shù)學(xué)體檢,不只看對錯,更挖推理、學(xué)習(xí)與創(chuàng)造力的短板。

    陶哲軒最近的日子過得不太舒服。

    他頻頻發(fā)聲吐槽科研經(jīng)費(fèi)短缺,甚至還得抽出寶貴的時間和精力去到處籌款。

    不過,作為當(dāng)世最偉大的數(shù)學(xué)家之一,他并未停止研究探索。

    這不,就在剛剛,他發(fā)表了一篇短博客,犀利地指出了當(dāng)前AI數(shù)學(xué)研究中的一個核心問題——

    AI雖然能夠解決研究中的那些顯性目標(biāo),但我們也付出了大量的隱形代價。

    AI研究中的隱性代價

    數(shù)學(xué)家們的研究項目通常都會有一個終極目標(biāo),比如:「年底前,完成對數(shù)學(xué)定理X的證明?!?/p>

    然而,在這個終極目標(biāo)里,還隱藏著一些看不見、摸不著,卻同樣重要的東西。

    它們沒有被寫在墻上,卻存在于團(tuán)隊的每個人心中。

    比如,我們希望通過這個項目:

    為開源數(shù)學(xué)庫Mathlib貢獻(xiàn)出可復(fù)用的代碼;

    團(tuán)隊里的新手能在此過程中成長為獨(dú)當(dāng)一面的專家;

    在嚴(yán)謹(jǐn)?shù)淖C明過程中,能碰撞出對定理X更深刻、更本質(zhì)的理解;

    更重要的是,希望凝聚一個充滿活力、熱愛鉆研的學(xué)術(shù)社區(qū)。

    這些,就是項目中的「隱性目標(biāo)」。

    過去,科學(xué)家們很少為這些隱性目標(biāo)擔(dān)憂。

    因為在一個由人類主導(dǎo)的項目里,所有這些隱形目標(biāo)幾乎都與寫在墻上的那個「終極目標(biāo)」相伴而生。

    這個過程就像一位優(yōu)秀的登山向?qū)?,他不僅要帶領(lǐng)隊伍登頂,更會在此過程中教會大家識別植物、閱讀星空、團(tuán)結(jié)協(xié)作。

    登頂(顯性目標(biāo))與團(tuán)隊成長(隱性目標(biāo))的實現(xiàn),幾乎是同一趟旅程的兩個側(cè)面。

    然而,現(xiàn)在情況不同了。

    正如陶哲軒指出的那樣——AI的到來,使得之前的這種約定俗成面臨前所未有的挑戰(zhàn)。

    一場關(guān)于項目目標(biāo)的「隱性危機(jī)」,已經(jīng)悄然降臨。

    AI破壞者與Goodhart定律

    在深入陶哲軒的洞見之前,我們不妨先來理解一個他在博文中提到的經(jīng)濟(jì)學(xué)定律——Goodhart定律(Goodhart's law)。

    它的核心思想用一句話就能概括:當(dāng)一個「度量指標(biāo)」被過度依賴并轉(zhuǎn)化為「行為目標(biāo)」時,這個指標(biāo)將不再能準(zhǔn)確反映其原本要衡量的真實狀態(tài),甚至?xí)で袨?、偏離初始目標(biāo)。

    聽起來有點繞?舉個栗子。

    一家公司的客服中心,為了提升服務(wù)效率,設(shè)立了一個KPI:縮短平均通話時長。

    管理層認(rèn)為,通話時間越短,意味著問題解決得越快,客戶滿意度自然就高。

    最初,這個指標(biāo)確實激勵客服人員更高效地溝通。

    但很快,為了追求極致的「短」,一些員工開始在遇到復(fù)雜問題時,巧妙地引導(dǎo)客戶掛斷電話,甚至直接掛斷。

    結(jié)果呢?

    平均通話時長這個數(shù)字變得異常漂亮,但客戶滿意度卻跌入谷底。

    原本用于衡量效率的標(biāo)尺,在成為被追逐的目標(biāo)后,徹底失去了它原有的意義。

    這就是Goodhart定律——它像一面鏡子,照出了系統(tǒng)中的投機(jī)取巧和目標(biāo)的異化。

    不幸的是,按照陶哲軒的洞見,AI——尤其是那些強(qiáng)大的優(yōu)化算法——正是Goodhart定律最忠實、也是最極致的執(zhí)行者。

    給AI一個明確的目標(biāo),它就會像一個無比強(qiáng)大、絕對專注,卻又近乎天真的「阿拉丁神燈」,動用全部算力、不惜一切代價去實現(xiàn)所謂的「終極目標(biāo)」,而完全忽略那些也許是同樣重要的「隱形目標(biāo)」。

    陶哲軒的這些擔(dān)憂,正在他所熟悉的數(shù)學(xué)形式化證明領(lǐng)域發(fā)生。

    回到上文中的場景。

    那個「完成定理X證明」的顯性目標(biāo),如果交給一個人類團(tuán)隊,他們?yōu)榱藰?gòu)建一個優(yōu)雅、可讀、可維護(hù)的證明,自然會去打磨那些基礎(chǔ)定義和引理,這些成果順理成章地就能被整合進(jìn)Mathlib,惠及整個學(xué)術(shù)圈。

    在這個過程中,新手通過模仿、學(xué)習(xí)和實踐,逐漸掌握了核心技能;團(tuán)隊成員之間的討論、爭辯與合作,本身就深化了對數(shù)學(xué)結(jié)構(gòu)的理解,并加強(qiáng)了社區(qū)的凝聚力。

    但如果將這個任務(wù)交給一個超級AI呢?

    在AI的目標(biāo)函數(shù)里,只有一行冷冰冰的指令:「找到一條從公理到定理X的邏輯路徑」。

    它可能會在幾小時內(nèi),生成一個長達(dá)數(shù)萬行、邏輯上無懈可擊,但人類完全無法閱讀、無法理解、無法復(fù)用的證明。

    它可能繞過所有常規(guī)的、優(yōu)美的引理,用一種我們前所未見的、詭異的「捷徑」直達(dá)終點。

    從顯性目標(biāo)來看,AI取得了100分的完美成績。

    但那些隱性目標(biāo)呢?

    對Mathlib的貢獻(xiàn)? 零。這份天書般的證明基本上毫無復(fù)用價值。

    新人的成長? 零。沒有人能從中學(xué)到任何東西。

    深化對數(shù)學(xué)的理解? 可能是負(fù)分。它甚至可能破壞我們對「好的證明」的品味。

    社區(qū)的建設(shè)? 零。整個過程是黑箱操作,沒有人與人之間的互動。

    AI以其極致的效率,在達(dá)成顯性目標(biāo)的同時,精準(zhǔn)地「優(yōu)化」掉了所有我們珍視的、卻未曾明確聲明的隱性價值。

    它完美地登上了山頂,卻把整片森林夷為平地。

    陶哲軒的建議

    陶哲軒沒有將矛頭指向AI本身,而是指向了我們?nèi)祟愖约骸椖康脑O(shè)計者和管理者。

    他提醒我們,在AI日益成為強(qiáng)大工具的今天,我們不能再依賴過去那種約定俗成的默契。

    必須做出更艱苦的努力,去審視、去挖掘、去明確定義那些我們曾經(jīng)認(rèn)為「理所當(dāng)然」的隱性目標(biāo)。

    這意味著,項目管理者需要從「指標(biāo)的設(shè)定者」轉(zhuǎn)變?yōu)椤竷r值的詮釋者」。

    在啟動一個項目前,需要組織一場更深入的討論,不僅要問做什么,更要反復(fù)追問為什么要做這件事,以及在這個過程中,我們希望獲得哪些「副產(chǎn)品」。

    比如:

    我們追求的,僅僅是軟件代碼的最終交付,還是一個高內(nèi)聚、可傳承的開發(fā)團(tuán)隊?

    我們想要的,僅僅是一個抓人眼球的廣告文案,還是一個能沉淀品牌價值、引發(fā)用戶情感共鳴的故事?

    我們需要的,僅僅是一個數(shù)學(xué)定理的冰冷證明,還是一個能啟發(fā)后人、枝繁葉茂的知識體系?

    這些問題,在AI時代變得無比尖銳與迫切。

    GAUSS:不止測評AI的答案

    好消息是,陶哲軒的這些擔(dān)憂正被越來越多的數(shù)學(xué)家們看到。

    更重要的是,他們中的一些杰出代表已經(jīng)給出了一些解決的方案。

    近日,一群來自國際頂尖大學(xué)(伯克利、加州理工、斯坦福、華盛頓大學(xué)等)數(shù)學(xué)系的博士(大部分是曾經(jīng)的奧數(shù)金牌得主),以及香港大學(xué)計算與數(shù)據(jù)科學(xué)學(xué)院院長、AI講座教授馬毅對最新的GPT5等模型各方面的數(shù)學(xué)能力進(jìn)行了全面、專業(yè)、客觀的驗證。

    AI們的數(shù)學(xué)能力到底如何了?

    為此,他們發(fā)布了一個長達(dá)120頁的報告,提出了如何對大語言模型數(shù)學(xué)能力進(jìn)行專業(yè)評價的框架——GAUSS。

    項目地址:https://gaussmath.ai/

    報告地址:https://drive.google.com/file/d/1ka15SjUl2FhzQMPOv4GQyyu5rb0tVAJT/view

    GAUSS旨在系統(tǒng)地分解和評估問題解決所依賴的核心認(rèn)知技能。

    與現(xiàn)有數(shù)據(jù)集不同,GAUSS不僅檢查最終答案——它還評估知識、概念理解、問題解決策略、溝通、學(xué)習(xí)和創(chuàng)造力等維度,為模型的能力和局限性提供全面評估。

    GAUSS的目標(biāo):

    能力拆分:把模型的本事拆成12個維度,一項項評估,用像「雷達(dá)圖」那樣的方式一眼看出哪里強(qiáng)、哪里弱。

    防題熟:不光用GSM8K、MATH這些老基準(zhǔn),多加更難的題,比如奧賽題、研課作業(yè)、研究型題目,別靠刷熟題拿高分。

    防泄題:精挑細(xì)選題目,確保是模型訓(xùn)練時沒見過的,這樣評測才公平、靠譜。

    GAUSS將數(shù)學(xué)能力劃分為三大領(lǐng)域、十二項技能:

    數(shù)學(xué)知識與理解:數(shù)學(xué)知識記憶、知識與理論的理解

    計算與分析能力:問題求解與溝通、解題框架、邏輯思維與推理、書寫與呈現(xiàn)

    學(xué)習(xí)、元技能與創(chuàng)造力:學(xué)習(xí)新知識、直覺、元技能、數(shù)學(xué)建模、泛化、創(chuàng)造力

    這一結(jié)構(gòu)從基礎(chǔ)的知識回憶到創(chuàng)造性的命題,全面拆解了數(shù)學(xué)認(rèn)知的各個層面。

    GAUSS官網(wǎng)還給出了一些他們測試的實例,更多實例可以在項目官網(wǎng)查看。

    歸根結(jié)底,GAUSS不只是一個基準(zhǔn)測試那么簡單,它標(biāo)志著方法論的轉(zhuǎn)變——從「模型有沒有解出題?」轉(zhuǎn)向「按技能維度看,模型的強(qiáng)項和短板是什么?」

    通過同時揭示優(yōu)勢與薄弱環(huán)節(jié),GAUSS為打造下一代AI系統(tǒng)提供了路線圖:不止于產(chǎn)出答案,而能展現(xiàn)真正的推理、學(xué)習(xí)與發(fā)現(xiàn)能力。

    而這,恰好呼應(yīng)了陶哲軒的擔(dān)憂——我們不能只看AI給出的答案,還要考慮其他的「隱形項目」。

    相信隨著越來越多的研究人員注意到這些問題,也會得到越來越多的像GAUSS這樣的應(yīng)對方案。

    參考資料:

    https://mathstodon.xyz/@tao/115196924307085967

    https://gaussmath.ai/

    贊(7663)
    未經(jīng)允許不得轉(zhuǎn)載:>根株附麗網(wǎng)»缺錢但不缺洞見:剛剛,陶哲軒揭秘AI如何吞噬數(shù)學(xué)項目的靈魂!