午夜激情影院国产_久久毛片免费播放_国产成人综合在线95精品_精品视频在线观自拍自拍_无码粉嫩小泬抽搐白浆免费_在线观看麻豆国产传媒61_黄色视频无码亚洲啊v在线_国产成人精品免费久亚洲高清不卡_先锋无码午夜资源网站_2021自拍视频亚洲国产第一区

  • AI攻克物理奧賽!王夢(mèng)迪團(tuán)隊(duì)打造Physics Supernova智能體,超過人類金牌選手平均分

      發(fā)布時(shí)間:2025-09-21 04:50:29   作者:玩站小弟   我要評(píng)論
    經(jīng)濟(jì)日?qǐng)?bào)記者 李瞳千億規(guī)模企業(yè)數(shù)量持續(xù)增長(zhǎng)、重大科技創(chuàng)新成果。

    在學(xué)科競(jìng)賽領(lǐng)域,物理因題目復(fù)雜、推理強(qiáng)度高而長(zhǎng)期被認(rèn)為是人工智能(AI)最難攻克的挑戰(zhàn)之一。與語言類任務(wù)相比,物理問題往往涉及圖像識(shí)別、單位換算、公式推導(dǎo)和近似計(jì)算等多重環(huán)節(jié),更考驗(yàn)系統(tǒng)是否具備對(duì)現(xiàn)實(shí)世界的理解與建模能力。

    隨著 AI 日益深入現(xiàn)實(shí)世界,并不斷邁向通用人工智能(AGI)乃至超級(jí)人工智能(ASI),能否通過物理抽象理解世界、解決問題,正在成為打造高水平智能系統(tǒng)的關(guān)鍵。

    在今年舉行的 2025 年國(guó)際物理奧林匹克競(jìng)賽中,一個(gè)名為Physics Supernova的 AI 系統(tǒng)交出了令人矚目的成績(jī)單:在 3 道理論題測(cè)試中,共獲得 23.5 分(滿分 30 分),在所有 406 名參賽選手中排名第 14,且在三道題目中均進(jìn)入人類前 10%,超過了人類金牌選手的平均得分。

    該系統(tǒng)由普林斯頓大學(xué)王夢(mèng)迪教授團(tuán)隊(duì)及其合作者共同打造,兩位第一作者分別為普林斯頓大學(xué)博士 Jiahao Qiu和清華姚班大四本科生史景喆(在 2021 年國(guó)際物理奧林匹克競(jìng)賽中獲得金牌,全球排名第十)。

    論文鏈接:

    https://arxiv.org/abs/2509.01659

    不同于依賴題庫的傳統(tǒng)方式,Physics Supernova 通過圖像分析、答案復(fù)核等工具模塊,結(jié)合 LLM 的推理能力,實(shí)現(xiàn)了從題目理解到建模計(jì)算的完整過程。這一結(jié)果顯示,合理集成工具的 Agent 架構(gòu),能夠顯著提升 AI 在復(fù)雜科學(xué)問題上的推理與解題能力,其表現(xiàn)已逼近人類頂尖選手,為 AI 在科學(xué)探索領(lǐng)域開辟了新的可能性。

    業(yè)內(nèi)專家指出,這一成績(jī)不僅顯示了AI 在物理解題上的突破性進(jìn)展,也意味著其在科學(xué)推理領(lǐng)域的應(yīng)用邊界正在被重新定義。

    靠工具,AI 也能像物理學(xué)家一樣解題

    Physics Supernova 是一個(gè)專為解決復(fù)雜物理理論問題設(shè)計(jì)的 AI Agent 系統(tǒng),基于 smolagents 框架,并采用 CodeAgent 架構(gòu)。

    與數(shù)學(xué)解題中常見的固定、手工編碼的工作流不同,該系統(tǒng)強(qiáng)調(diào)具備靈活自我規(guī)劃的能力,能夠根據(jù)當(dāng)前的解題進(jìn)展,動(dòng)態(tài)調(diào)用不同的工具。

    圖|Physics Supernova 的架構(gòu)與示例推理軌跡

    研究團(tuán)隊(duì)為該系統(tǒng)配置了兩個(gè)面向物理問題的專用工具:圖像分析器(ImageAnalyzer)與答案復(fù)查器(AnswerReviewer)。

    對(duì)于物理學(xué)家而言,解讀實(shí)驗(yàn)結(jié)果、從圖像中提取關(guān)鍵數(shù)據(jù)是十分重要能力。在部分物理奧賽題中,這甚至是解題過程的核心環(huán)節(jié)。然而,目前的 LLM 在圖表、圖像與示意圖等視覺數(shù)據(jù)的精確測(cè)量方面仍存在不足。ImageAnalyzer 則會(huì)將高分辨率圖像傳遞給專用的視覺語言模型,以執(zhí)行精確的數(shù)值讀取與測(cè)量任務(wù)。

    在實(shí)際解題中,物理學(xué)家也會(huì)持續(xù)評(píng)估自己的理論結(jié)果是否具有物理意義,這包括判斷結(jié)果是否具有符合預(yù)期的物理屬性,或是否違反基本物理原理。AnswerReviewer 被用于在解題過程中識(shí)別錯(cuò)誤類型并定位錯(cuò)誤表達(dá),從而提升系統(tǒng)的自我校正能力。

    為研究各類工具對(duì)最終得分的影響,研究團(tuán)隊(duì)測(cè)試了多種工具組合。結(jié)果顯示,在大多數(shù)問題中(尤其是非簡(jiǎn)單題),移除 AnswerReviewer 會(huì)導(dǎo)致性能顯著下降。而將圖像處理任務(wù)交由 ImageAnalyzer 執(zhí)行,則能夠有效提升整體得分。

    圖|ImageAnalyzer 工具對(duì)理論題第1題C部分的影響

    此外,他們還為 Physics Supernova 接入了一個(gè)用于專業(yè)領(lǐng)域知識(shí)的問答工具——WolframAlpha ,它是一款能夠提供科學(xué)問題準(zhǔn)確解答的計(jì)算型知識(shí)引擎,有助于提升系統(tǒng)在應(yīng)對(duì)專業(yè)領(lǐng)域知識(shí)時(shí)的表現(xiàn)。

    金牌不是終點(diǎn),AI 物理系統(tǒng)的下一站

    實(shí)驗(yàn)是物理研究的基礎(chǔ)。研究團(tuán)隊(duì)指出,該項(xiàng)研究主要聚焦于 IPhO 2025 的理論題,未涉及基于儀器的實(shí)驗(yàn)題,部分原因在于實(shí)驗(yàn)儀器資源受限。

    他們希望,隨著機(jī)器人技術(shù)的發(fā)展,未來基于 LLM 的 AI Agent 有望具備執(zhí)行實(shí)驗(yàn)題的能力。相較于實(shí)體儀器操作,程序化實(shí)驗(yàn)?zāi)軌蚰M更復(fù)雜、更高級(jí)的實(shí)驗(yàn)過程。基于程序的實(shí)驗(yàn)考試,有可能將評(píng)估重點(diǎn)從操控儀器的能力轉(zhuǎn)向理解和運(yùn)用物理的能力。

    從長(zhǎng)遠(yuǎn)來看,基于儀器的實(shí)驗(yàn)評(píng)估同樣也不可或缺。這類實(shí)驗(yàn)更貼近現(xiàn)實(shí)科研情境,能夠更有效地衡量 AI 系統(tǒng)的機(jī)器人能力,并評(píng)估其在極端或非預(yù)期條件下的表現(xiàn)。

    除此之外,他們使用答案復(fù)查工具來驗(yàn)證推導(dǎo)過程。該工具完全基于自然語言運(yùn)行。在數(shù)學(xué)領(lǐng)域,自動(dòng)化驗(yàn)證已經(jīng)取得了顯著進(jìn)展,LLM 可生成可驗(yàn)證的 Lean 格式證明。然而,從自然語言問題出發(fā),推導(dǎo)物理公式并進(jìn)行自動(dòng)驗(yàn)證,目前尚無可靠的技術(shù)路徑。這仍是一個(gè)有待深入研究的方向。

    研究團(tuán)隊(duì)表示,未來值得探索的方向應(yīng)包括:構(gòu)建能驗(yàn)證公式、物理表達(dá)與直觀推理之間抽象轉(zhuǎn)換的方法;建立更加嚴(yán)格、可驗(yàn)證的物理計(jì)算體系;借助具備更廣泛、更深入物理知識(shí)的工具,增強(qiáng)答案復(fù)查系統(tǒng)的能力。

    總之,研究團(tuán)隊(duì)建議,未來關(guān)于 AI 物理解題系統(tǒng)的工作,應(yīng)繼續(xù)拓展其在程序?qū)嶒?yàn)或儀器實(shí)驗(yàn)方面的能力,同時(shí)增強(qiáng)其生成可驗(yàn)證、可信賴物理解答的能力。

    展望未來,這類系統(tǒng)有望進(jìn)一步發(fā)展,成為能夠嵌入現(xiàn)實(shí)世界并執(zhí)行復(fù)雜物理任務(wù)的高級(jí)智能體。

    整理:小羊

    如需轉(zhuǎn)載或投稿,請(qǐng)直接在公眾號(hào)內(nèi)留言