新智元報道
編輯:定慧
【新智元導讀】OpenAI重磅推出GPT-5-Codex,專為智能體編程設計,顯著提升代碼重構、審查和缺陷發(fā)現(xiàn)的表現(xiàn)。其動態(tài)資源分配機制讓模型在低負載請求中更高效,在復雜任務中更深入。2025編程智能體大戰(zhàn)全面升溫,GPT-5-Codex能否突圍?
剛剛,GPT-5「船新」版本上線!
這次OpenAI直接使用Codex品牌名稱來作為新模型后綴,GPT-5-Codex!
新模型能力將更加擅長智能編碼!
即使2025年只剩下三分之一,各家巨頭在「編程智能體」的爭奪依然是白熱化?。?/p>
OpenAI官博更是重新定義了「自動補全」,升級為「agent-complete」。
在OpenAI播客第六集中,總裁Greg與Codex負責人Thibault Sottiaux聊了很多關于GPT-5-Codex,以及到2030年軟件開發(fā)可能會是「什么樣子」。
首先來速通一下此次重大更新。
此次發(fā)布的GPT-5-Codex屬于GPT-5的一個特殊版本,它專為智能體編程(agentic coding)重新設計。
GPT-5-Codex將具備全面的「雙?!固亻L:
即時協(xié)作:與開發(fā)者實時配合,快速回答問題、修復小bug。
獨立執(zhí)行:能長時間自主推進復雜任務(如大規(guī)模重構、跨文件調試)。
簡單說就是,GPT-5-Codex不僅快&而且更加可靠。
GPT-5-Codex的交互響應更靈敏,小任務幾乎即時,大任務可持續(xù)執(zhí)行數(shù)小時。
OpenAI內部測試可連續(xù)7小時完成大規(guī)模重構。
GPT-5-Codex三大性能全面提升
首先,在SWE-bench驗證和代碼重構任務上,GPT-5-Codex都超過了目前最先進的GPT-5-high。
尤其是在非常適合于真實世界任務的代碼重構任務上,GPT-5-Codex的準確率達到了51.3%,遠高于GPT-5-high的33.9%。
其次,GPT-5-Codex此次更新的關鍵特性就是「動態(tài)調整」資源!
根據(jù)OpenAI內部員工的使用數(shù)據(jù),在按模型生成token量(含隱藏推理和最終輸出)排序的后10%用戶請求中,GPT?5-Codex的token消耗量比GPT?5減少93.7%,紅色箭頭處。
相反,在前10%的高復雜度請求中,GPT?5-Codex會投入更多思考時間,其代碼推理、編輯、測試和迭代的耗時達到兩倍,黃色箭頭處。
最后,這次的GPT?5-Codex經過專門訓練,非常擅于執(zhí)行代碼審查和發(fā)現(xiàn)關鍵缺陷。
按照OpenAI的說法,他們發(fā)現(xiàn)GPT?5-Codex生成的評論更不容易出現(xiàn)錯誤或不重要的情況,從而讓用戶能將更多注意力集中在關鍵問題上,比如:
「不正確評論」顯著降低:從13.7%降至4.4%。
「高影響力評論」顯著增加:從39.4%提升到52.4%
「聚焦關鍵重點」:平均每個PR提出的評論數(shù)從1.32降至0.93
此消彼長,這讓Vibe Coding更加接近于嚴肅的工程化編程!
為何用Codex命名?
在GPT-5-Codex的「發(fā)布會」上,Greg聊到了Codex的起源。
最早在GPT-3時代,他們就發(fā)現(xiàn)模型能根據(jù)文檔串(docstring)自動補全函數(shù)代碼,他們認為當時就具備了「語言模型寫代碼」的可行性。
2021年,OpenAI就率先推出Codex,并與GitHub合作打造Copilot,探索AI直接嵌入開發(fā)工作流的可能性。
現(xiàn)在Codex的Web界面
Greg說編程一直是OpenAI特別關注的領域,專門使用代碼數(shù)據(jù)和指標來優(yōu)化模型表現(xiàn),與其他領域不同。
早于Vibe Coding的Harness概念
在這次討論中,Greg還用一個新的詞語「Harness」來解釋了OpenAI其實比流行的Vibe Coding更早就發(fā)現(xiàn)「用語言模型編程」的魔力。
「Harness」這個詞原意是馬具、韁繩,用來把馬與車或騎手連接起來,使力量可以被控制和發(fā)揮。
OpenAI的Greg在講Codex時借用這個詞,表達類似的作用:
模型本身就像「馬」或「大腦」,能產生力量(智能、輸入輸出)。
Harness就像「韁繩/集成框架」,把模型和外部環(huán)境(工具、IDE、終端、云端等)連起來,讓它能真正執(zhí)行任務、發(fā)揮效能。
在做普通語言模型應用時,接口(interface)或「韁繩」(harness)其實很簡單——模型只是補全一段文字,最多再跟進一兩次對話就結束了。
但在編程場景下,文本會「活起來」,因為代碼需要真正被執(zhí)行、需要和工具連接才能發(fā)揮作用。
因此,人們意識到,harness的重要性幾乎和模型本身的智能同等關鍵,它決定了模型是否真的可用。
OpenAI所謂的harness,就是把模型與其余的基礎設施整合起來,讓模型能夠真正地對環(huán)境采取行動。
性能與使用體驗
這次GPT-5-Codex的延遲是一大亮點,代碼補全必須<1.5秒,否則用戶體驗差。
GPT-5-Codex可以連續(xù)執(zhí)行長時間任務,特別適合大型重構、遷移任務。
此次更新后還支持多模式交互:終端vibe coding、IDE編輯、GitHub集成、Cursor集成等,應有盡有,滿足不同開發(fā)習慣。
OpenAI內部實踐
除了GPT-5-Codex外,Greg還爆料了更多內幕。
OpenAI在內部實踐中孵化了幾款關鍵工具,幫助團隊探索AI編程智能體的潛力。
首先是10x,一款內部原型,最初在終端運行,能顯著提高開發(fā)效率。
它支持異步長時間執(zhí)行,工程師甚至可以合上筆記本讓任務繼續(xù)運行,因此被認為帶來「十倍生產力」,但因尚未打磨成熟而未對外發(fā)布 。
其次是Agents.md,這是一個放在代碼庫里的說明文件,類似專門寫給Codex的README。
它能壓縮上下文,減少模型探索代碼的負擔,同時存放團隊的開發(fā)偏好(如測試位置、風格約定)。這樣 Codex 能更快理解項目環(huán)境,執(zhí)行任務更高效 。
最后是Code ReviewAgent,這是在內部試點后效果最驚艷的工具。
它能理解PR的意圖與實現(xiàn)是否一致,檢查依賴關系,發(fā)現(xiàn)人類審查可能遺漏的bug。
內部團隊甚至在上線前一晚依賴它審查數(shù)十個PR,并幾乎零bug發(fā)布。
討論中也提到,2030年的軟件開發(fā)將不再是「人寫代碼+工具輔助」,而是「AI寫大部分代碼+人類監(jiān)督和設計架構」。
開發(fā)者更像是團隊的指揮官,專注于戰(zhàn)略性問題和創(chuàng)意設計,而繁瑣、重復、危險的工作則由 AI 智能體承擔。
收手吧,GPT-5-Codex
現(xiàn)在,編程智能體已經成為各大AI巨頭的火力集中點,打得火熱!
OpenAI此次發(fā)布GPT-5-Codex也是再次「官宣加入戰(zhàn)場」。
但是,收手吧,外面已經全是編程智能體了!
讓我們盤點一下國內外今年到底有多少編程智能體~
國外通用/主流編程AI智能體
Cursor:深度集成在IDE中,有agent模式,會檢索本地代碼, 能跨文件操作、項目級別重構等。
Claude Code CLI:代碼diff、工具調用能力、原型快速實驗。
Gemini CLI:優(yōu)勢在上下文窗口(context window)、處理大型代碼庫的重構能力強。
GitHub Copilot+Copilot 的擴展
國內代表性產品 /平臺
國內在這個賽道加速也非???,不少大廠都在做「編程智能體\編程模型」的組合,已經有很多專門用于編程的模型和產品。
騰訊的代碼助手CodeBuddy
通義千問的Qwen3-Coder
字節(jié)的TRAE
百度的文心智能體平臺
DeepSeek最新的V3.1系列
比如DeepSeek官方公告指出,V3.1在編程智能體和在命令行 / 終端環(huán)境下解決復雜任務中表現(xiàn)比之前的 DeepSeek系列模型有明顯提升。
總體來看,雖然2025年被稱為智能體之年,但主要還是聚焦在編程智能體。
國外市場以Cursor、Gemini CLI、Claude Code等為代表,強調模型執(zhí)行力、重構大上下文處理、IDE/CLI無縫集成等能力。
而國內也同步推出同類型產品對標Cursor和Claude Code等產品。
GPT-5-Codex的上線,讓這場「編程智能體大戰(zhàn)」更加的白熱化!
雖然OpenAI很早就洞察到「語言模型能編程」,但是:
AI編程IDE的認知被Cursor摘取了
AI編程CLI的認知被Claude Code拿到了。
而且國內還同步跟進了各種同類型的產品。
不知道這次起個大早,趕了晚集的GPT-5-Codex能不能拿下「AI智能體編程」的頭銜~
參考資料:
https://openai.com/index/introducing-upgrades-to-codex/
https://x.com/sama/status/1967650108285259822
https://x.com/OpenAI/status/1967650096813871266