DeepSeek論文登上《自然》封面，創(chuàng)始人梁文鋒為通訊作者，R1成首個(gè)接受同行評(píng)審的大語言模型

來源：{getone name="zzc/xinwenwang"/}2025-09-18 21:29:27

9月18日，梁文鋒作為通訊作者，帶著DeepSeek-R1的研究，登上最新一期國際頂級(jí)期刊《自然》（Nature）封面。

今年1月份，國產(chǎn)大模型公司深度求索（DeepSeek）在預(yù)印本平臺(tái)arxiv公布論文《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》。

圖據(jù)澎湃新聞

《自然》雜志指出，如此總結(jié)DeepSeek-R1帶來的進(jìn)步：如果訓(xùn)練出的大模型能夠規(guī)劃解決問題所需的步驟，那么它們往往能夠更好地解決問題。這種“推理”與人類處理更復(fù)雜問題的方式類似，但這對(duì)人工智能有極大挑戰(zhàn)，需要人工干預(yù)來添加標(biāo)簽和注釋。

DeepSeek-R1模型采用強(qiáng)化學(xué)習(xí)進(jìn)行訓(xùn)練。在這種學(xué)習(xí)中，模型正確解答數(shù)學(xué)問題時(shí)會(huì)獲得高分獎(jiǎng)勵(lì)，答錯(cuò)則會(huì)受到懲罰。最終它學(xué)會(huì)了推理——逐步解決問題并揭示這些步驟——更有可能得出正確答案。這使得DeepSeek-R1能夠自我驗(yàn)證和自我反思，在給出新問題的答案之前檢查其性能，從而提高其在編程和研究生水平科學(xué)問題上的表現(xiàn)。

圖據(jù)澎湃新聞

據(jù)悉，DeepSeek R1成為首個(gè)通過同行評(píng)議的主要大語言模型，發(fā)表在《自然》雜志的新版DeepSeek-R1論文，與今年1月未經(jīng)同行評(píng)審的初版有較大差異。

在同行評(píng)議過程中，DeepSeek團(tuán)隊(duì)根據(jù)評(píng)審意見減少了對(duì)模型的擬人化描述，并增加了模型訓(xùn)練的技術(shù)細(xì)節(jié)說明，包括模型訓(xùn)練數(shù)據(jù)類型和安全性考慮等，并回應(yīng)了此前關(guān)于知識(shí)蒸餾的質(zhì)疑。

DeepSeek明確否認(rèn)了此前關(guān)于其使用OpenAI模型輸出進(jìn)行訓(xùn)練的質(zhì)疑。在長達(dá)64頁的同行評(píng)審文件中，DeepSeek介紹，DeepSeek-V3 Base（DeepSeek-R1的基座模型）使用的數(shù)據(jù)全部來自互聯(lián)網(wǎng)，雖然可能包含GPT-4生成的結(jié)果，但絕非有意而為之，更沒有專門的蒸餾環(huán)節(jié)。

今年1月20日，中國AI初創(chuàng)公司深度求索（DeepSeek）推出大模型DeepSeek-R1引爆AI行業(yè)，作為一款開源模型，R1在數(shù)學(xué)、代碼、自然語言推理等任務(wù)上的性能能夠比肩OpenAIo1模型正式版，并采用MIT許可協(xié)議，支持免費(fèi)商用、任意修改和衍生開發(fā)等。春節(jié)假期后，國內(nèi)多個(gè)行業(yè)龍頭公司均宣布接入DeepSeek。

伴隨AI大模型行業(yè)的日新月異，DeepSeek已經(jīng)更新出R1以外的新版本，但萬眾期待的R2尚未面世。此前8月21日DeepSeek正式發(fā)布DeepSeek-V3.1，稱其為“邁向Agent（智能體）時(shí)代的第一步”。

據(jù)介紹，V3.1包含三大主要變化。首先，V3.1采用混合推理架構(gòu)，一個(gè)模型同時(shí)支持思考模式與非思考模式；其次，V3.1具有更高的思考效率，相比DeepSeek-R1-0528，DeepSeek-V3.1-Think能在更短時(shí)間內(nèi)給出答案；另外，V3.1具有更強(qiáng)的Agent能力，通過Post-Training優(yōu)化，新模型在工具使用與智能體任務(wù)中的表現(xiàn)有較大提升。

當(dāng)時(shí)，DeepSeek表示，DeepSeek-V3.1使用UE8M0FP8Scale的參數(shù)精度。UE8M0FP8是針對(duì)即將發(fā)布的下一代國產(chǎn)芯片設(shè)計(jì)。這也表明未來基于DeepSeek模型的訓(xùn)練與推理有望更多應(yīng)用國產(chǎn)AI芯片，助力國產(chǎn)算力生態(tài)加速建設(shè)。相關(guān)表態(tài)，一度帶動(dòng)國產(chǎn)芯片算力股價(jià)迎來飆升。

來源：澎湃新聞（記者范佳來）、界面新聞

[責(zé)編：{getone name="zzc/mingzi"/}]

閱讀剩余全文（）

全部導(dǎo)航

DeepSeek論文登上《自然》封面，創(chuàng)始人梁文鋒為通訊作者，R1成首個(gè)接受同行評(píng)審的大語言模型

DeepSeek論文登上《自然》封面，創(chuàng)始人梁文鋒為通訊作者，R1成首個(gè)接受同行評(píng)審的大語言模型