這項(xiàng)由浙江大學(xué)和阿里巴巴通義實(shí)驗(yàn)室聯(lián)合完成的研究發(fā)表于2025年1月,完整論文可通過(guò)arXiv:2501.09751訪問(wèn)。研究團(tuán)隊(duì)由浙江大學(xué)的習(xí)澤坤、方紀(jì)展、方潤(rùn)楠、陳華鈞、張寧宇以及阿里巴巴通義實(shí)驗(yàn)室的尹文彪、吳佳龍、姜勇、謝鵬軍、黃飛等學(xué)者組成。
當(dāng)我們面對(duì)一個(gè)復(fù)雜話(huà)題需要寫(xiě)一篇深入文章時(shí),通常不會(huì)匆忙下筆,而是會(huì)先思考、收集資料、反思已知信息,然后再動(dòng)筆。但現(xiàn)有的AI寫(xiě)作系統(tǒng)就像急性子的學(xué)生,拿到題目就馬上開(kāi)始寫(xiě),結(jié)果往往內(nèi)容淺薄、重復(fù)啰嗦。阿里巴巴的研究團(tuán)隊(duì)意識(shí)到這個(gè)問(wèn)題后,開(kāi)發(fā)了一個(gè)名為OmniThink的創(chuàng)新框架,讓機(jī)器學(xué)會(huì)像人類(lèi)一樣慢慢思考、逐步深入地寫(xiě)作。
現(xiàn)在的AI寫(xiě)作系統(tǒng)主要依賴(lài)檢索增強(qiáng)生成技術(shù),就像是給學(xué)生提供了一堆參考書(shū),讓他們快速查找相關(guān)內(nèi)容然后拼湊成文章。雖然這種方法能生成文章,但有個(gè)致命缺陷:搜索到的信息往往缺乏深度和新穎性,還經(jīng)常重復(fù)。研究團(tuán)隊(duì)發(fā)現(xiàn),即使是最先進(jìn)的STORM和Co-STORM系統(tǒng),也容易產(chǎn)生內(nèi)容重復(fù)的問(wèn)題。比如在一篇關(guān)于AlphaFold的文章中,"AlphaFold由DeepMind開(kāi)發(fā)"這個(gè)基本信息竟然在文中重復(fù)出現(xiàn)了多次。
人類(lèi)寫(xiě)作者之所以能避免這種問(wèn)題,是因?yàn)槲覀儠?huì)不斷反思已經(jīng)收集的信息,重新整理思路,調(diào)整寫(xiě)作方向。這個(gè)過(guò)程被稱(chēng)為反思性實(shí)踐,是認(rèn)知科學(xué)中的重要概念?;谶@個(gè)洞察,研究團(tuán)隊(duì)設(shè)計(jì)了OmniThink框架,讓AI也學(xué)會(huì)這種慢思考的寫(xiě)作方式。
OmniThink的工作原理就像一個(gè)勤奮的研究者逐步深化對(duì)某個(gè)話(huà)題的理解。整個(gè)過(guò)程分為三個(gè)階段:信息獲取、大綱構(gòu)建和文章生成。在信息獲取階段,系統(tǒng)會(huì)建立兩個(gè)核心組件:信息樹(shù)和概念池。信息樹(shù)就像一個(gè)知識(shí)地圖,從主題開(kāi)始向外擴(kuò)展各種相關(guān)子話(huà)題,每個(gè)分支都包含具體的信息內(nèi)容。概念池則像是研究者的思考筆記,記錄著對(duì)話(huà)題理解的各種深層洞察。
這個(gè)過(guò)程最精妙的地方在于擴(kuò)展和反思的循環(huán)。系統(tǒng)會(huì)先分析當(dāng)前信息樹(shù)的所有葉子節(jié)點(diǎn),判斷哪些需要進(jìn)一步擴(kuò)展。當(dāng)需要擴(kuò)展時(shí),系統(tǒng)會(huì)利用概念池中的認(rèn)知來(lái)確定深入的方向和搜索關(guān)鍵詞,然后獲取新信息并添加到信息樹(shù)中。接著,系統(tǒng)會(huì)對(duì)新獲取的信息進(jìn)行反思,提取核心洞察并更新概念池。這樣一輪又一輪的擴(kuò)展和反思,就像學(xué)者在研究過(guò)程中不斷深化理解一樣。
與傳統(tǒng)方法相比,OmniThink有三個(gè)顯著特點(diǎn)。首先是動(dòng)態(tài)檢索能力,系統(tǒng)不是一次性搜索固定數(shù)量的網(wǎng)頁(yè),而是根據(jù)話(huà)題難度和深度需求來(lái)動(dòng)態(tài)調(diào)整信息收集。其次是結(jié)構(gòu)化記憶,通過(guò)信息樹(shù)和概念池的雙重架構(gòu),系統(tǒng)能夠有組織地管理知識(shí)。最重要的是反思性思考能力,系統(tǒng)會(huì)持續(xù)評(píng)估和重新組織已獲取的信息。
研究團(tuán)隊(duì)在WildSeek數(shù)據(jù)集上進(jìn)行了全面評(píng)估。這個(gè)數(shù)據(jù)集包含24個(gè)不同領(lǐng)域的100個(gè)話(huà)題,每個(gè)話(huà)題都有具體的用戶(hù)意圖。實(shí)驗(yàn)使用了多種評(píng)估指標(biāo),包括相關(guān)性、廣度、深度和新穎性等傳統(tǒng)指標(biāo),還特別設(shè)計(jì)了知識(shí)密度這個(gè)新指標(biāo)來(lái)衡量文章中有用信息的比例。
實(shí)驗(yàn)結(jié)果令人印象深刻。在GPT-4o模型上,OmniThink在所有評(píng)估維度都超越了現(xiàn)有最強(qiáng)的基線方法Co-STORM。相關(guān)性得分從4.37提升到4.77,廣度從4.66提升到4.71,深度從4.65提升到4.66,新穎性更是從3.89大幅提升到4.31。知識(shí)密度指標(biāo)顯示,OmniThink生成的文章信息密度達(dá)到22.31,明顯高于其他方法的19-20分水平。
更有說(shuō)服力的是人類(lèi)評(píng)估結(jié)果。研究團(tuán)隊(duì)邀請(qǐng)了15位高學(xué)歷志愿者對(duì)20篇文章進(jìn)行人工評(píng)估,其中53%的評(píng)估者擁有研究生學(xué)歷。結(jié)果顯示,OmniThink在廣度維度上領(lǐng)先Co-STORM達(dá)46%對(duì)22%,其他維度也都有顯著優(yōu)勢(shì)。雖然自動(dòng)評(píng)估顯示新穎性有11%的提升,但人類(lèi)評(píng)估中這個(gè)優(yōu)勢(shì)較小,這提示自動(dòng)評(píng)估與人類(lèi)判斷之間還存在一定差距。
研究團(tuán)隊(duì)還進(jìn)行了詳細(xì)的消融實(shí)驗(yàn)來(lái)分析各個(gè)組件的作用。當(dāng)移除信息樹(shù)的層次結(jié)構(gòu)時(shí),系統(tǒng)性能顯著下降,說(shuō)明結(jié)構(gòu)化組織信息的重要性。當(dāng)禁用反思機(jī)制時(shí),系統(tǒng)在新穎性和信息多樣性方面表現(xiàn)明顯變差。這些實(shí)驗(yàn)證實(shí)了擴(kuò)展和反思機(jī)制對(duì)于提升寫(xiě)作質(zhì)量的關(guān)鍵作用。
從知識(shí)邊界的角度分析,研究團(tuán)隊(duì)將現(xiàn)有方法的局限性歸納為兩類(lèi)邊界問(wèn)題。信息邊界限制是指檢索到的信息量和質(zhì)量有限,認(rèn)知邊界限制是指模型無(wú)法像人類(lèi)那樣有效組織和利用信息。通過(guò)主成分分析可視化不同方法的信息檢索范圍,OmniThink明顯覆蓋了最大的信息空間。認(rèn)知邊界實(shí)驗(yàn)中,即使給傳統(tǒng)RAG方法提供同樣多的網(wǎng)頁(yè)信息,它仍然無(wú)法有效利用,反而可能因?yàn)樾畔⑦^(guò)載而性能下降。
研究還發(fā)現(xiàn)了擴(kuò)展和反思機(jī)制的不同作用。反思主要影響新穎性,因?yàn)樗屇P湍軌蛑匦聦徱曇延兄R(shí),整合信息產(chǎn)生更多樣化的觀點(diǎn)。擴(kuò)展主要影響知識(shí)密度、廣度和深度,因?yàn)樗鼮槟P偷男畔z索設(shè)定了更精確的方向。當(dāng)研究團(tuán)隊(duì)增加擴(kuò)展和反思的深度時(shí),發(fā)現(xiàn)知識(shí)密度和信息多樣性的增長(zhǎng)速度會(huì)逐漸放緩,這表明還存在其他需要識(shí)別和定義的知識(shí)邊界。
OmniThink的創(chuàng)新意義在于首次將人類(lèi)的慢思考過(guò)程系統(tǒng)化地應(yīng)用到機(jī)器寫(xiě)作中。傳統(tǒng)方法就像讓學(xué)生在考試時(shí)間有限的情況下快速作答,而OmniThink更像是給予充足時(shí)間讓學(xué)生深思熟慮后再下筆。這種范式轉(zhuǎn)變不僅提高了文章質(zhì)量,還為長(zhǎng)文本生成研究指出了新方向。
該框架的實(shí)用價(jià)值也很顯著。OmniThink是模型無(wú)關(guān)的,可以與現(xiàn)有的任何大語(yǔ)言模型結(jié)合使用。無(wú)論是GPT系列、文心一言還是通義千問(wèn),都能從這種慢思考機(jī)制中受益。這意味著該技術(shù)有很強(qiáng)的推廣潛力,可以廣泛應(yīng)用于學(xué)術(shù)寫(xiě)作、新聞報(bào)道、技術(shù)文檔等各種長(zhǎng)文本生成場(chǎng)景。
當(dāng)然,這項(xiàng)研究也有一些局限性。目前的工作主要局限于文本搜索和生成,還沒(méi)有考慮多模態(tài)信息的利用。此外,系統(tǒng)還沒(méi)有考慮個(gè)性化的寫(xiě)作風(fēng)格,生成的文本往往偏向?qū)W術(shù)化,可能不太符合普通用戶(hù)的閱讀習(xí)慣。處理時(shí)間方面,由于需要多輪擴(kuò)展和反思,OmniThink比傳統(tǒng)方法需要更多時(shí)間,不過(guò)研究團(tuán)隊(duì)認(rèn)為這種時(shí)間成本是值得的,因?yàn)樗鼡Q來(lái)了顯著的質(zhì)量提升。
展望未來(lái),這項(xiàng)研究為長(zhǎng)文本生成開(kāi)辟了新的研究方向。研究團(tuán)隊(duì)計(jì)劃探索更高級(jí)的機(jī)器寫(xiě)作方法,將更深層的推理與人機(jī)交互結(jié)合。同時(shí),如何將多模態(tài)信息整合到慢思考框架中,如何實(shí)現(xiàn)個(gè)性化的寫(xiě)作風(fēng)格,都是值得進(jìn)一步探索的問(wèn)題。
說(shuō)到底,OmniThink的成功在于它真正理解了寫(xiě)作的本質(zhì):寫(xiě)作不是簡(jiǎn)單的信息拼湊,而是一個(gè)需要深度思考、反復(fù)琢磨的創(chuàng)作過(guò)程。正如古人所說(shuō)"文章千古事,得失寸心知",好文章需要時(shí)間和心力的投入。這項(xiàng)研究讓我們看到了AI寫(xiě)作的新可能:不再是快餐式的內(nèi)容生產(chǎn),而是像人類(lèi)作家一樣的深度創(chuàng)作。隨著這類(lèi)技術(shù)的成熟,我們或許真的能夠擁有既高效又深刻的AI寫(xiě)作助手,為人類(lèi)的知識(shí)創(chuàng)作和傳播貢獻(xiàn)更大力量。
Q&A
Q1:OmniThink與現(xiàn)有AI寫(xiě)作工具STORM、Co-STORM相比有什么不同?
A:OmniThink最大的不同在于引入了"慢思考"機(jī)制。傳統(tǒng)工具像STORM和Co-STORM主要通過(guò)角色扮演對(duì)話(huà)來(lái)收集信息,但缺乏深度反思能力,容易產(chǎn)生重復(fù)內(nèi)容。OmniThink則通過(guò)信息樹(shù)和概念池兩個(gè)組件,讓AI能夠像人類(lèi)一樣不斷擴(kuò)展知識(shí)、反思信息,逐步深化對(duì)話(huà)題的理解,從而生成更有深度和新穎性的文章。
Q2:OmniThink生成一篇文章需要多長(zhǎng)時(shí)間?
A:由于需要多輪擴(kuò)展和反思,OmniThink確實(shí)比傳統(tǒng)方法耗時(shí)更長(zhǎng)。根據(jù)研究團(tuán)隊(duì)的測(cè)試,平均需要322秒,相比Co-STORM的289秒略有增加。不過(guò)研究團(tuán)隊(duì)認(rèn)為這種時(shí)間成本是值得的,因?yàn)樗茱@著提升文章的知識(shí)密度和質(zhì)量,就像廚師花更多時(shí)間精心烹飪能做出更美味的菜肴一樣。
Q3:普通用戶(hù)能使用OmniThink嗎?有什么使用要求?
A:OmniThink是一個(gè)開(kāi)源的研究框架,技術(shù)人員可以通過(guò)GitHub獲取代碼并與各種大語(yǔ)言模型結(jié)合使用。對(duì)于普通用戶(hù)來(lái)說(shuō),目前還需要一定的技術(shù)基礎(chǔ)來(lái)部署。不過(guò)由于該框架是模型無(wú)關(guān)的,未來(lái)很可能會(huì)被集成到各種商業(yè)AI寫(xiě)作工具中,讓普通用戶(hù)也能享受到慢思考寫(xiě)作的優(yōu)勢(shì)。