大伙有沒有感覺,現(xiàn)在各家的AI,好像越來越蠢了?
事情是這樣的,前幾天我心一狠,給 OpenAI 充了個(gè)200刀的會(huì)員,想著試試現(xiàn)在的 ChatGPT 強(qiáng)到啥程度了。
結(jié)果,我給他丟了個(gè)算術(shù)題,求解 5.9 = x+5.11,哥們直接給我算崩了。。
《這題真是幼兒園級(jí)別》?
堂堂200刀人工智能,還不如我20塊的計(jì)算器啊?
但,我記得GPT-4剛出那會(huì)兒,我還讓它算過高數(shù)?。侩y道模型升級(jí)還會(huì)砍智力嗎?于是我給它丟了個(gè)微寄分過去。
結(jié)果,哥們還會(huì)換元法,一通操作下來,看著還真沒啥問題,評(píng)論區(qū)的大學(xué)生可以驗(yàn)驗(yàn)真假。
所以,兩次算數(shù)用的都是GPT-5,咋還給我見人下菜碟?
本以為是OpenAI飄了,結(jié)果我上網(wǎng)一查發(fā)現(xiàn),這事兒還不是 GPT 一家干的,甚至有點(diǎn)行業(yè)趨勢的意思。
前幾天美團(tuán)發(fā)布的開源模型LongCat,其中就提到自己用一個(gè)路由器提高效率。
DeepSeek V3.1發(fā)布時(shí),也說過自己一個(gè)模型可以有兩種思考模式。
而同樣是AI巨頭的Gemini,在Gemini 2.5 flash發(fā)布時(shí),就引入了相似的模式,讓模型自己決定怎么用腦。
總的來說,大伙都在讓自己的模型“該思考時(shí)再思考”,該偷懶的時(shí)候偷懶。
這么做的動(dòng)機(jī),也很好理解,那就是省錢。從OpenAI發(fā)的資料來看,通過這種“讓模型自己決定要不要思考”的方式省掉的tokens還真不少,GPT5輸出token數(shù)就少了50%-80%。
DeepSeek官方發(fā)的圖表中也顯示,新模型tokens消耗也下降了大概20%-50%。
省一半token,這是什么概念?咱普通人可能體會(huì)不到,但對(duì)OpenAI這樣的大公司來說,可能就是一大筆開銷。
去年央視就有報(bào)道,ChatGPT每天耗電超過50萬度,在如此龐大的基數(shù)下,省出來的部分,夠一個(gè)上萬戶家庭的小鎮(zhèn)用上一天了。
這也難怪奧特曼在網(wǎng)上跟網(wǎng)友說,你們跟GPT說聲謝謝都要花我上千萬美元。之前的高級(jí)模型,一句謝謝也能讓它思考幾分鐘,還真有點(diǎn)浪費(fèi)在里面。
所以,AI這看題下菜的能力,到底咋練成的呢?OpenAI 沒公布具體原理,但 2023 年有篇論文叫《Tryage: Real-time, Intelligent Routing of User Prompts to Large Language Models》,專門分析了這個(gè)問題。
在GPT-3.5出來那陣,大模型還不會(huì)自己調(diào)節(jié)思考能力,每個(gè)問題都能讓AI無限燒腦。
為了提高效率,研究者就想出來了一種叫“感知路由器”的模塊,它本質(zhì)上,就是在混合模型里塞了一個(gè)小巧的語言模型。
在前期訓(xùn)練時(shí),路由器就和刷題一樣,對(duì)“使用哪個(gè)模型最佳”,做出自己的預(yù)測。
哪個(gè)模型適合深度研究,哪個(gè)模型適合快速思考,當(dāng)然有標(biāo)準(zhǔn)答案。系統(tǒng)就會(huì)將這個(gè)預(yù)測分和標(biāo)準(zhǔn)答案進(jìn)行比對(duì),計(jì)算出兩者間的誤差。接著通過微調(diào)路由器內(nèi)部的參數(shù),來減小這個(gè)誤差。
當(dāng)它刷數(shù)百萬道題之后,就逐漸學(xué)會(huì)怎么給你的提示詞,分配合適的模型了。
當(dāng)一個(gè)新提示詞進(jìn)來,AI內(nèi)部的路由小模型就會(huì)先掃一眼,評(píng)估一下這問題配不配我動(dòng)腦。因?yàn)槁酚善鞅容^輕量級(jí),所以這個(gè)評(píng)估過程幾乎是瞬時(shí)的。
而除了OpenAI這法子,AI還有一種偷懶的思路,那就是把不同的token,導(dǎo)向不同的神經(jīng)網(wǎng)絡(luò)。
像美團(tuán)的LongCat就采用了這種方法,從報(bào)告來看,他們采用了一種叫“零計(jì)算專家”的機(jī)制。
通常來說,在你輸入提示詞之后,你的提示詞會(huì)拆分成一個(gè)又一個(gè)的tokens,交給模型內(nèi)部的神經(jīng)網(wǎng)絡(luò)去處理。
但Longcat在處理之前,會(huì)先把它交給一個(gè)叫“Top-k Router”小路由器,它就像一個(gè)流水線上的調(diào)度員,在收到token的時(shí)候,會(huì)判斷這個(gè)token處理起來是復(fù)雜還是簡單。
同時(shí)在它的內(nèi)部,有很多不同分工的神經(jīng)網(wǎng)絡(luò),我們把它們叫做專家。
這些專家,有的喜歡做難題,有的喜歡做簡單題,當(dāng)然,也有摸魚界專家。
比如“請(qǐng)用Python寫一個(gè)快速排序”這句話,“Python”和“快速排序”就是重點(diǎn),“請(qǐng)”和“一個(gè)”就沒那么重要。
像這些沒啥用的token,咱就可以丟給那些摸魚大王了,因?yàn)樗鼈兏静恍枰趺刺幚怼_@下,你就知道“零計(jì)算專家”這個(gè)名字是怎么來的了。
這也能解釋為啥大伙都在吹這個(gè)模型“太快了”。
總的來說,這種設(shè)計(jì)對(duì)模型廠商來說算好事,不僅省錢還能提升訓(xùn)練效率。
從用戶角度講,模型更快了,價(jià)格更便宜了。但我感覺,這玩意是把雙刃劍。如果用不好,還真是實(shí)打?qū)嵱绊懹脩趔w驗(yàn)。。
記得GPT-5剛上線,這路由器就翻車了。用戶發(fā)現(xiàn)自己怎么都調(diào)不出來它的思考模式,問什么它都懶得思考,像擺爛一般只會(huì)“啊對(duì)對(duì)對(duì)”,連“blueberry里有幾個(gè)b?”都數(shù)不明白。
而且,這也算剝奪了用戶的選擇權(quán)。OpenAI一刀切掉了4o,搞得很多網(wǎng)友在網(wǎng)上哭訴說自己失去了一位朋友。
這又讓奧特曼又暫時(shí)為Plus用戶把GPT-4o端了上來,并允許Pro用戶繼續(xù)訪問其他舊模型。
那這個(gè)操作,不就變相說明,在發(fā)布的時(shí)候,這個(gè)路由模型就沒調(diào)好嘛。
咱再說LongCat,它的確很快,但在思維上限上,還是打不過其他大模型的。像我就同時(shí)給LongCat和DeepSeek丟了一個(gè)同樣的問題:什么叫“但丁真不是中國人,但丁真是中國人”?
LongCat這邊刷刷出答案,但沒解讀出來這句話的幽默感;而DeepSeek雖然慢了點(diǎn),笑點(diǎn)解析得卻很清楚。
LongCat
DeepSeek
就像我問你114*514是什么,你說當(dāng)然是58596啊,算得確實(shí)很快啊,但其實(shí)我只想讓你配合我搞抽象。
當(dāng)然,對(duì)路由器罷工,咱也有些解決辦法,那就是在提示詞里加入“深度思考”“ultra think”這些字眼,路由器收到后會(huì)盡量調(diào)用更強(qiáng)大的模型。
不過也只能說治標(biāo)不治本了,多用幾次可能就叫不醒了。。
這就說明 AI 確實(shí)罷工了,咱只能等幾個(gè)小時(shí)再來了。
所以說到底,方向是好的,技術(shù)是新的,但現(xiàn)階段的體驗(yàn)也確實(shí)只是“還行”的。當(dāng)然,大模型成長速度比我們想的更快,咱還能坐等更快更好的模型出世。
撰文:不咕
編輯:江江 & 面線
美編:萱萱
圖片、資料來源:
LongCat、DeepSeek、Reddit、Chat GPT、央視網(wǎng)
部分圖源網(wǎng)絡(luò)