午夜激情影院国产_久久毛片免费播放_国产成人综合在线95精品_精品视频在线观自拍自拍_无码粉嫩小泬抽搐白浆免费_在线观看麻豆国产传媒61_黄色视频无码亚洲啊v在线_国产成人精品免费久亚洲高清不卡_先锋无码午夜资源网站_2021自拍视频亚洲国产第一区

  • DeepSeek首度公開R1模型訓(xùn)練成本僅為29.4萬美元,“美國同行開始質(zhì)疑自己的戰(zhàn)略”

      發(fā)布時間:2025-09-20 20:43:10   作者:玩站小弟   我要評論
    ?????? 女明星跟普通人一樣,結(jié)婚生子后面臨著育兒壓力。。

    【文/網(wǎng) 王一】DeepSeek今年年初以高性價比、高性能、開源驅(qū)動等特點驚艷了世界。其團(tuán)隊近日在英國《自然》雜志發(fā)表論文首次披露,DeepSeek-R1模型的訓(xùn)練成本僅為29.4萬美元,構(gòu)建基礎(chǔ)大語言模型也只花費了約600萬美元,這一成本已遠(yuǎn)遠(yuǎn)低于美國同行透露的數(shù)字,而那還只是美國公司公布出來的大概成本。

    英國路透社9月18日指出,DeepSeek的成本遠(yuǎn)低于美國競爭對手此前透露的數(shù)字,這一信息可能會再次引發(fā)外界圍繞中國在全球人工智能(AI)領(lǐng)域地位的討論。印度新聞網(wǎng)站“Devdiscourse”19日也稱,DeepSeek首次提供成本數(shù)據(jù),引發(fā)了美國公司對自己戰(zhàn)略的質(zhì)疑。

    美國有線電視新聞網(wǎng)(CNN)、美國彭博社等美媒19日都對DeepSeek的29.4萬美元訓(xùn)練成本感到驚訝。美國消費者新聞與商業(yè)頻道(CNBC)評價說,考慮到OpenAI花了多少錢,DeepSeek的成本簡直“驚人(astonishing)”,他們的模型已經(jīng)推翻了只有擁有最先進(jìn)、最快芯片的國家才能在AI競賽中占據(jù)主導(dǎo)地位這一假設(shè),現(xiàn)在他們甚至用數(shù)字對此進(jìn)行了量化。

    17日,《自然》雜志刊登了由DeepSeek團(tuán)隊共同完成、梁文鋒擔(dān)任通訊作者的DeepSeek-R1推理模型研究論文。與今年1月發(fā)布DeepSeek-R1時的初版論文相比,最新的論文披露了更多模型訓(xùn)練的細(xì)節(jié),也標(biāo)志著該模型成為全球首個經(jīng)過同行評審的主流大語言模型。

    最新的論文披露,DeepSeek-R1模型使用了512塊英偉達(dá)H800芯片,訓(xùn)練成本僅為29.4萬美元。

    路透社稱,今年1月的早期論文并未包含相關(guān)信息。大型語言模型的訓(xùn)練成本通常是指,用高性能芯片集群處理海量文本和代碼所產(chǎn)生的巨額費用。OpenAI首席執(zhí)行官薩姆·奧爾特曼2023年曾透露,基礎(chǔ)模型訓(xùn)練成本“遠(yuǎn)超”1億美元,但他的公司從未公布過具體的數(shù)據(jù)。

    當(dāng)期《自然》雜志封面

    該論文還對之前美國官員的一些毫無根據(jù)的質(zhì)疑做出了回應(yīng)。為打壓中國AI發(fā)展,美國政府2022年就禁止英偉達(dá)向中國出口具備先進(jìn)性能的H100和A100芯片。DeepSeek的AI大模型公布后,美國官員不相信中企可以用被“閹割”過的、英偉達(dá)專為中國市場設(shè)計的H800芯片訓(xùn)練出如此高性能的AI模型。

    于是,今年6月,美國官員污稱,DeepSeek在美國出口管制后違規(guī)獲取了“大量” H100芯片并將其用于大模型訓(xùn)練。英偉達(dá)當(dāng)時回應(yīng)稱,DeepSeek所使用的是合法采購的H800芯片,而非H100芯片。

    在《自然》論文的補充材料中,DeepSeek首次承認(rèn)其確實擁有A100芯片,稱曾在研發(fā)前期使用這些芯片“為較小模型的實驗做準(zhǔn)備”,但在這之后,R1模型在512塊H800芯片集群上進(jìn)行了總計80個小時的訓(xùn)練。

    DeepSeek還在論文中首次間接回應(yīng)了今年1月來自白宮高級顧問和部分美國AI業(yè)內(nèi)人士的指控——他們聲稱DeepSeek通過“蒸餾”技術(shù)“違規(guī)復(fù)制”O(jiān)penAI產(chǎn)品功能,并宣稱已經(jīng)發(fā)現(xiàn)“證據(jù)”。但此后,這些所謂的“證據(jù)”從未被公開。

    蒸餾的理論核心是,讓一個龐大且復(fù)雜的預(yù)訓(xùn)練AI模型充當(dāng)“教師”,來訓(xùn)練一個較小的“學(xué)生模型”,后者從“教師模型”學(xué)習(xí)知識,以獲得類似性能,但計算成本更低。不少專家表示,蒸餾在AI業(yè)內(nèi)是一種常見的做法,但若涉及直接復(fù)制閉源專有模型的輸出結(jié)構(gòu)或參數(shù),可能構(gòu)成侵權(quán)。

    DeepSeek一直為蒸餾技術(shù)辯護(hù),認(rèn)為該方法不僅能提升模型性能,還能顯著降低訓(xùn)練和運行成本,從而擴(kuò)大AI技術(shù)的普及范圍。今年1月,該公司就提過,他們使用了美國科技公司Meta的開源AI模型Llama來構(gòu)建其模型的部分精簡版本。

    在9月17日的論文中,DeepSeek表示,其V3模型的訓(xùn)練數(shù)據(jù)來源于網(wǎng)絡(luò)爬取,其中包含“大量由OpenAI模型生成的回答,這可能會導(dǎo)致基礎(chǔ)模型間接從其他強大模型中獲得知識”。不過,DeepSeek強調(diào)這并非刻意為之,而是無意中的結(jié)果。

    參與審閱該論文的Hugging Face機器學(xué)習(xí)工程師路易斯·湯斯頓(Lewis Tunstall)認(rèn)為DeepSeek的解釋有道理,其他實驗室后來用類似的方法成功復(fù)制了R1模型的效果,這表明其他AI模型不需要所謂來自O(shè)penAI的秘密數(shù)據(jù)就可以獲得極高的推理能力。

    科技咨詢網(wǎng)站“Tech Space 2.0”也分析稱,DeepSeek的數(shù)據(jù)策略是使用最大量的免費數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練,并巧妙使用自己生成的數(shù)據(jù)進(jìn)行微調(diào),只在計算上花錢,這種節(jié)儉的策略是其他公司目前正在深入研究的模板。

    該網(wǎng)站指出,DeepSeek-R1在同類產(chǎn)品中脫穎而出,是因為他以極低的成本實現(xiàn)了最先進(jìn)的成果。OpenAI的GPT-4和谷歌的AI模型“雙子座(Gemini)”在某些方面仍然處于領(lǐng)先地位且享有強大的企業(yè)支持,但R1以一種此前從未見過的方式實現(xiàn)了“高端AI的民主化”——開放、復(fù)制成本相對低廉、高度注重效率。Meta的Llama2和法國科技初創(chuàng)企業(yè)米斯特拉爾AI公司(Mistral AI)的模型都秉承開放理念,但R1通過實現(xiàn)頂級性能將這一理念推向了新的高度。

    “Tech Space 2.0”總結(jié)道:“這些比較強調(diào)了一個關(guān)鍵點:AI競爭不再僅僅關(guān)乎誰擁有最多的圖形處理器(GPU),現(xiàn)在還關(guān)乎誰能用更少的資源實現(xiàn)更多的目標(biāo)。從這個角度來看,DeepSeek已經(jīng)改變了游戲規(guī)則?!?/p>

    本文系網(wǎng)獨家稿件,未經(jīng)授權(quán),不得轉(zhuǎn)載。