9月18日消息,谷歌DeepMind和OpenAI的人工智能模型在素有“編程界奧運(yùn)會”之稱的比賽中展現(xiàn)出了“金牌級”的表現(xiàn),標(biāo)志著人工智能技術(shù)的發(fā)展迎來了一個重要里程碑。
今年9月初,在國際大學(xué)生程序設(shè)計(jì)競賽(ICPC)全球總決賽上,這些人工智能模型在與全球頂尖人類選手的比拼中取得了上述優(yōu)異成績。
該項(xiàng)賽事被公認(rèn)為全球最負(fù)盛名的編程競賽。谷歌聯(lián)合創(chuàng)始人謝爾蓋·布林(Sergey Brin)和OpenAI首席科學(xué)家雅各布·帕喬基(Jakub Pachocki)等知名人士都曾參加過這項(xiàng)賽事。
盡管OpenAI和DeepMind都并非正式參賽者,但OpenAI于周三表示,其人工智能模型的成績本可以在比賽中拔得頭籌。據(jù)稱,公司最新的GPT-5模型解出了全部12道難題,其中11道是一次性通過的。
由英國諾貝爾獎得主丹米斯·哈薩比斯爵士(Sir Demis Hassabis)領(lǐng)導(dǎo)、總部位于倫敦的DeepMind實(shí)驗(yàn)室則表示,其人工智能推理模型Gemini 2.5 Deep Think的總體表現(xiàn)可以在競賽中位列第二。據(jù)悉,該模型解出了12道難題中的10道,還破解了一道所有人類選手都未能完成的難題。
在軟件工程師越來越依賴新一代人工智能模型輔助編程的大背景下,這一突破應(yīng)運(yùn)而生。
DeepMind的技術(shù)已在多項(xiàng)頂級賽事中戰(zhàn)勝人類,比如擊敗世界頂尖圍棋選手以及在國際數(shù)學(xué)奧林匹克競賽中摘金。今年夏天,OpenAI同樣在國際數(shù)學(xué)奧賽中奪得金牌。
谷歌DeepMind副總裁、谷歌會士(Google Fellow)黎曰國表示:“這是邁向通用人工智能(AGI)的歷史性時刻?!彼傅耐ㄓ萌斯ぶ悄苁浅饺祟惸芰Φ南到y(tǒng),數(shù)十年來,人工智能研究人員一直在追求這一重大目標(biāo)。
加州大學(xué)伯克利分校電氣工程與計(jì)算機(jī)科學(xué)系主任杰拉尼·尼爾森(Jelani Nelson)評價(jià)道:“一個純?nèi)斯ぶ悄芟到y(tǒng)在沒有人類介入的情況下能取得如此成績,令人驚嘆。”尼爾森曾指導(dǎo)過麻省理工學(xué)院、哈佛大學(xué)和加州大學(xué)伯克利分校的多支ICPC參賽隊(duì)。他補(bǔ)充說,“如果幾年前有人告訴我,新技術(shù)能在數(shù)學(xué)和計(jì)算機(jī)科學(xué)領(lǐng)域達(dá)到如此水平,我絕不會相信。”
在這場編程競賽中,三人小組需在5小時內(nèi)共用一臺電腦解決12道高難度編程題,排名依據(jù)解題速度、準(zhǔn)確性和數(shù)量綜合評定。本屆競賽中,人類選手最多解出10道題,139支參賽隊(duì)伍中僅有4支獲得金牌。
要解決這些問題,參賽者必須理解復(fù)雜的問題,制定邏輯清晰的解題計(jì)劃,并確保執(zhí)行過程零失誤。解答這種高難度問題還離不開抽象推理能力和創(chuàng)造力。
人工智能相比人類有一個關(guān)鍵優(yōu)勢:無需團(tuán)隊(duì)協(xié)作。
牛津大學(xué)計(jì)算機(jī)科學(xué)副教授、ICPC教練巴爾泰克·克林(Bartek Klin)說:“我指導(dǎo)隊(duì)伍時,默認(rèn)他們已經(jīng)懂得如何解題……我能給的建議只是如何在高壓環(huán)境下協(xié)同合作。”
DeepMind團(tuán)隊(duì)使用了“強(qiáng)化學(xué)習(xí)”技術(shù),即通過獎勵期望結(jié)果來訓(xùn)練人工智能系統(tǒng),并用高難度的數(shù)學(xué)、推理和編程問題對Gemini模型開展了強(qiáng)化訓(xùn)練。
OpenAI則使用其最新的GPT-5模型解決了所有問題,其中最難的一道題是GPT-5和一個實(shí)驗(yàn)性推理模型共同破解的。
谷歌DeepMind研究總監(jiān)兼首席科學(xué)家鄭恒之(Heng-Tze Cheng)表示,編程競賽是“終極思維博弈”,因?yàn)樗竽P吞岢鲂路椒úW(xué)習(xí)成果泛化,而非簡單地記憶解題方法。
但牛津大學(xué)的克林認(rèn)為,在注重速度的編程競賽環(huán)境中取得成功,未必能轉(zhuǎn)化為實(shí)際工作中出色的軟件開發(fā)能力。他說:“在現(xiàn)實(shí)世界里,最棘手的問題往往需要花上半年時間去思考?!?/p>
雖然Gemini模型解出一道人類選手未能攻克的難題,但也未能解答出所有人類選手完成的題目。DeepMind表示,此次實(shí)驗(yàn)表明人工智能模型可以“提供獨(dú)特新穎的貢獻(xiàn),與人類專家的技能知識形成互補(bǔ)”。
黎曰國表示,這一進(jìn)步還有望改變需要數(shù)學(xué)理解和編程能力的諸多科學(xué)與工程學(xué)科,例如新藥研發(fā)和計(jì)算機(jī)芯片設(shè)計(jì)等。
他說,“解決數(shù)學(xué)和編程競賽中的難題是理解人類智能運(yùn)作方式的關(guān)鍵一步?!?/p>
外界評論:是歷史性突破還是言過其實(shí)?
英國《衛(wèi)報(bào)》撰文稱,谷歌DeepMind宣稱取得的這項(xiàng)“歷史性”人工智能突破,其意義堪比1997年“深藍(lán)”計(jì)算機(jī)擊敗國際象棋大師加里·卡斯帕羅夫(Garry Kasparov),以及2016年人工智能戰(zhàn)勝人類圍棋冠軍的里程碑事件。
文章援引黎曰國的話說,“對我而言,這個時刻等同于國際象棋領(lǐng)域的‘深藍(lán)’和圍棋領(lǐng)域的AlphaGo時刻,甚至意義更為重大,因?yàn)樗咏诮鉀Q現(xiàn)實(shí)世界的問題,而不僅限于國際象棋和圍棋這類受限環(huán)境?!?/p>
但也有聲音給這種說法降溫。加州大學(xué)伯克利分校計(jì)算機(jī)科學(xué)教授斯圖爾特·羅素(Stuart Russell)評論稱,“所謂劃時代意義的說法似乎有些夸大其詞”。他指出人工智能系統(tǒng)在編程任務(wù)方面本就表現(xiàn)出色,而當(dāng)年“深藍(lán)”在國際象棋上的突破“對應(yīng)用人工智能的現(xiàn)實(shí)世界基本沒有產(chǎn)生實(shí)際影響”。
不過羅素也承認(rèn),“要想答對ICPC的題目,代碼必須能正確運(yùn)行(至少要通過有限的測試用例),所以這次的表現(xiàn)可能標(biāo)志著人工智能編程系統(tǒng)在生成高質(zhì)量代碼的準(zhǔn)確性上有所提高。”
羅素提醒道:“人工智能公司持續(xù)宣稱取得突破的壓力巨大?!?/p>
牛津大學(xué)人工智能基礎(chǔ)學(xué)Ashall教授邁克爾·伍爾德里奇(Michael Wooldridge)認(rèn)為,這聽起來確實(shí)令人振奮,但對其所需計(jì)算資源提出了質(zhì)疑。谷歌拒絕透露具體數(shù)據(jù),只是簡單提到其解題所用算力超過了普通用戶每月250美元訂閱谷歌AI Ultra服務(wù)、在Gemini應(yīng)用中所能使用的輕量版Gemini 2.5 Deep Think模型。
ICPC執(zhí)行主任比爾·鮑徹博士(Dr. Bill Poucher)則這樣總結(jié):“Gemini成功進(jìn)入這一競技場并取得金牌級成績,標(biāo)志著在定義下一代所需的人工智能工具和學(xué)術(shù)標(biāo)準(zhǔn)方面,我們迎來了關(guān)鍵時刻?!保ǔ匠剑?/p>