午夜激情影院国产_久久毛片免费播放_国产成人综合在线95精品_精品视频在线观自拍自拍_无码粉嫩小泬抽搐白浆免费_在线观看麻豆国产传媒61_黄色视频无码亚洲啊v在线_国产成人精品免费久亚洲高清不卡_先锋无码午夜资源网站_2021自拍视频亚洲国产第一区

  • DeepDiver-V2來了,華為開源原生多智能體系統(tǒng),“團(tuán)戰(zhàn)”深度研究

      發(fā)布時(shí)間:2025-09-20 11:12:22   作者:玩站小弟   我要評(píng)論
    演員陳龍現(xiàn)在雖說算不上一線明星,但為人正派,人緣好的他在圈內(nèi)。

    允中 發(fā)自 凹非寺量子位 | 公眾號(hào) QbitAI

    讓智能體組團(tuán)搞深度研究,效果爆表!

    華為最新發(fā)布DeepDiver-V2原生多智能體系統(tǒng)

    采用了“團(tuán)隊(duì)作戰(zhàn)”模式:一個(gè)Planner負(fù)責(zé)任務(wù)分解,任務(wù)分發(fā),進(jìn)度審視和成果驗(yàn)收,多個(gè)專業(yè)Executor并行處理子任務(wù),通過共享文件系統(tǒng)高效交換信息。

    與僅通過推理框架實(shí)現(xiàn)的多智能體系統(tǒng)不同,DeepDiver-V2以多智能體形態(tài)進(jìn)行訓(xùn)練,模型天然具備更強(qiáng)的角色扮演和協(xié)同推理能力。這套系統(tǒng)不僅在復(fù)雜知識(shí)問答任務(wù)上取得突破,更是能夠生成數(shù)萬字的高質(zhì)量深度研究報(bào)告,在多個(gè)榜單中表現(xiàn)亮眼。

    它基于華為openPangu Agent推出的DeepDiver-V2,這是一個(gè)專攻AI深度搜索和長文調(diào)研報(bào)告生成的模型。目前已開源

    開源模型地址:https://ai.gitcode.com/ascend-tribe/openPangu-Embedded-7B-DeepDiver技術(shù)報(bào)告地址:https://ai.gitcode.com/ascend-tribe/openPangu-Embedded-7B-DeepDiver/blob/main/docs/openpangu-deepdiver-v2-tech-report.pdf

    性能爆表:優(yōu)于同規(guī)格競品

    數(shù)字最有說服力。DeepDiver-V2-7B和DeepDiver-V2-38B和在多個(gè)權(quán)威基準(zhǔn)測(cè)試中表現(xiàn)亮眼:

    BrowseComp-zh:DeepDiver-V2-38B達(dá)到34.6分,超越WebSailor-72B(30.1分)和WebSailor-32B(25.5分);DeepDiver-V2-7B同樣超過了WebSailor和MiroThinker同規(guī)格模型。BrowseComp-en:DeepDiver-V2-38B達(dá)到13.4分,同規(guī)模開源模型中最高, 也超過了WebSailor-72B。

    在長文報(bào)告生成方面,DeepDiver-V2提出了一個(gè)全新的面向深度調(diào)研報(bào)告生成的基準(zhǔn)測(cè)試WebPuzzle-Writing,該基準(zhǔn)給每個(gè)調(diào)研query設(shè)置了詳細(xì)的調(diào)研范圍而非開放生成,可以更加方便多個(gè)模型之間的橫評(píng)。

    在該測(cè)試中,DeepDiver-V2生成的報(bào)告平均長度達(dá)24.6K tokens,是OpenAI o3 DeepResearch(10.6K)的兩倍多。自動(dòng)評(píng)測(cè)結(jié)果也顯示DeepDiverV2效果與主流agent產(chǎn)品相當(dāng), 在信息度上格外亮眼,Content Diversity指標(biāo)優(yōu)于其他模型。

    架構(gòu)創(chuàng)新:從單兵作戰(zhàn)到團(tuán)隊(duì)協(xié)作

    團(tuán)隊(duì)之前的研究成果DeepDiver-V1就像一個(gè)全能選手,需要在一個(gè)超長的上下文窗口中處理所有任務(wù),結(jié)果往往因?yàn)樨?fù)擔(dān)過重而表現(xiàn)不佳。DeepDiver-V2改變了這一模式。它采用以Planner(規(guī)劃器)為中心, 協(xié)調(diào)多個(gè)Executor(執(zhí)行器)的MAS(Multi-Agent System,多智能體系統(tǒng))架構(gòu)。

    智能任務(wù)分解

    Planner接到復(fù)雜查詢后,會(huì)進(jìn)行自適應(yīng)復(fù)雜度評(píng)估。簡單問題直接處理,復(fù)雜問題則構(gòu)建一個(gè)”任務(wù)樹”,將大任務(wù)層層分解為可并行/串行/嵌套執(zhí)行的子任務(wù)。

    Planner甚至?xí)捎谩备偁庂愸R”機(jī)制——讓多個(gè) Executor同時(shí)處理相似任務(wù),通過交叉驗(yàn)證提高結(jié)果可靠性。

    文件系統(tǒng)通信

    不同于DeepDiver-V1使用單個(gè)上下文窗口處理多個(gè)任務(wù),智能體之間各自執(zhí)行任務(wù), 并通過共享文件系統(tǒng)交換信息:

    交換的信息 = {當(dāng)前任務(wù)摘要, 任務(wù)執(zhí)行過程產(chǎn)生的中間物料的元數(shù)據(jù)}

    每個(gè)智能體只需傳遞精煉的任務(wù)摘要和文件元數(shù)據(jù),而非完整上下文。詳細(xì)內(nèi)容存儲(chǔ)在共享文件中,其他智能體按需讀取。這種設(shè)計(jì)帶來三大優(yōu)勢(shì):

    1、可擴(kuò)展通信:消息大小保持可控,不受任務(wù)復(fù)雜度影響。2、持久化狀態(tài):歷史信息得以完整保存,LLM Agents無需維護(hù)完整對(duì)話歷史。3、并行執(zhí)行:獨(dú)立子任務(wù)可同時(shí)處理,避免上下文沖突。

    專業(yè)化分工

    系統(tǒng)包含兩類核心Executor:

    1、Information Seeker(信息搜集助手):負(fù)責(zé)證據(jù)收集, 驗(yàn)證, 去噪等。Information Seeker可以網(wǎng)羅相關(guān)信息, 篩選特定信息源, 深度分析并提取關(guān)鍵事實(shí)和數(shù)據(jù), 迭代式的完善收集到的信息以解決Planner分發(fā)的任務(wù)。

    2、Writer(寫作助手):負(fù)責(zé)長文本生成, writer可以構(gòu)建章節(jié)大綱, 并分配資料到各個(gè)章節(jié). Writer使用逐章節(jié)寫作的方式, 并能夠迭代式的完善行文, 能夠保持全局的連貫性。

    MAS(多智能體系統(tǒng))訓(xùn)練

    訓(xùn)練多智能體系統(tǒng)面臨獨(dú)特挑戰(zhàn):當(dāng)最終任務(wù)失敗時(shí),如何判斷是哪個(gè)智能體的責(zé)任?當(dāng)最終任務(wù)成功時(shí), 如何判斷是哪個(gè)智能體做出了貢獻(xiàn)? DeepDiver-V2提出了Planner-centric(以規(guī)劃器為中心的)的分配機(jī)制。

    訓(xùn)練流程采用多階段優(yōu)化:

    1、冷啟動(dòng)監(jiān)督微調(diào)首先讓模型學(xué)會(huì)基本的多角色協(xié)作、工具調(diào)用和文件系統(tǒng)操作,奠定多智能體能力基礎(chǔ)。

    2、拒絕采樣微調(diào)(RFT)

    Trajectory-wise(按軌跡粒度的)過濾:從planner的視角出發(fā), 保留得出正確答案的執(zhí)行路徑。Step-wise(按步驟粒度的)評(píng)分:使用LLM評(píng)判每個(gè)planner中間步驟的質(zhì)量(1-10分)。Credit Broadcasting(信用傳播):planner的評(píng)分通過任務(wù)分配和協(xié)調(diào)關(guān)系傳播到executor軌跡上,這種從粗到細(xì)的過濾確保只有高質(zhì)量的推理步驟用于訓(xùn)練。

    3、在線RFT

    在離線RFT的基礎(chǔ)上, DeepDiver使用相同的credit assignment策略,進(jìn)一步進(jìn)行在線RFT訓(xùn)練, 結(jié)合partial rollout(部分軌跡采樣) 和dynamic rollout-buffered batching(動(dòng)態(tài)軌跡緩存批處理)策略, DeepDiver-V2的在線訓(xùn)練得以高效且穩(wěn)定的進(jìn)行。

    訓(xùn)練數(shù)據(jù)上, DeepDiver-V2繼續(xù)沿用了DeepDiver-V1的訓(xùn)練數(shù)據(jù)WebPuzzle, 然而在WebPuzzle的基礎(chǔ)上, DeepDiver-V2進(jìn)一步增加了更多有挑戰(zhàn)性, 驗(yàn)證性更強(qiáng)的數(shù)據(jù), 同時(shí)加入了原本W(wǎng)ebPuzzle沒有的長文寫作數(shù)據(jù). 經(jīng)過了這些數(shù)據(jù)的訓(xùn)練, DeepDiver-V2表現(xiàn)出了更強(qiáng)大的性能。

    技術(shù)支撐:純血昇騰NPU集群加速

    DeepDiver-V2的訓(xùn)練完全使用Atlas 800I A2集群進(jìn)行, 依托于1000+ NPU組成的大規(guī)模計(jì)算集群。每個(gè)節(jié)點(diǎn)包含8個(gè) NPU,這些NPU通過華為高速緩存一致性系統(tǒng)(HCCS)以全互聯(lián)拓?fù)湎噙B,每個(gè)NPU配備64GB內(nèi)存。用于跨節(jié)點(diǎn)通信時(shí),集群采用基于以太網(wǎng)的RDMA,通過200 Gbps鏈路為跨節(jié)點(diǎn)的NPU提供高帶寬連接。團(tuán)隊(duì)開發(fā)了專門的強(qiáng)化學(xué)習(xí)框架,包括:

    Agent Factory:算法優(yōu)先的代碼庫,簡化多智能體開發(fā)。StaleSync:staleness-aware的梯度的同步調(diào)度機(jī)制,提升30%設(shè)備利用率。分布式訓(xùn)練:支持在線和離線的SFT、RFT和RL訓(xùn)練。

    實(shí)驗(yàn)分析

    研究團(tuán)隊(duì)進(jìn)行了系統(tǒng)性的消融實(shí)驗(yàn)和深度分析,揭示了多智能體協(xié)作背后的幾個(gè)關(guān)鍵機(jī)制和意外發(fā)現(xiàn)。

    Executor能力是性能瓶頸,Planner”夠用就好”團(tuán)隊(duì)通過”角色互換”實(shí)驗(yàn)發(fā)現(xiàn)了一個(gè)有趣現(xiàn)象:系統(tǒng)性能對(duì)Executor能力極其敏感,但對(duì)Planner要求相對(duì)寬松。

    具體數(shù)據(jù)顯示:

    將7B Executor升級(jí)為38B,BrowseComp-zh分?jǐn)?shù)猛增9分(18.3→27.3)。將7B Planner升級(jí)為38B,僅提升6.3分(18.3→24.6)。在長文本寫作任務(wù)中,升級(jí)Writer涉及的模塊帶來的提升(5.51→5.80)遠(yuǎn)超升級(jí)Planner(5.51→5.56)

    這個(gè)發(fā)現(xiàn)顛覆了以往的認(rèn)知——一般大家會(huì)以為”大腦”(Planner)最重要,但實(shí)際上”手腳”(Executor)的能力才是關(guān)鍵。研究團(tuán)隊(duì)分析,這是因?yàn)镻lanner的任務(wù)相對(duì)標(biāo)準(zhǔn)化(分解問題、分配任務(wù)),而 Executor需要處理各種復(fù)雜的實(shí)際場(chǎng)景。一個(gè)中等能力的7B Planner已經(jīng)能勝任大部分協(xié)調(diào)工作。

    單體能力的意外涌現(xiàn):團(tuán)隊(duì)訓(xùn)練造就全能選手

    最令人驚訝的發(fā)現(xiàn)是:為團(tuán)隊(duì)協(xié)作訓(xùn)練的, 服務(wù)于Planner的子智能體,單獨(dú)使用時(shí)竟然也是高手

    當(dāng)研究團(tuán)隊(duì)將Information Seeker從系統(tǒng)中剝離出來單獨(dú)測(cè)試時(shí):

    38B Information Seeker在BrowseComp-zh上得分26.3,Single Agent(ReACT)模式同樣超越了WebSailor-32B(25.5分)。7B Information Seeker得分15.9,超過完整的WebSailor-7B系統(tǒng)(14.2分)。在相對(duì)簡單的Xbench-DeepSearch上,38B Information Seeker單槍匹馬就達(dá)到52.0分,幾乎等同于完整系統(tǒng)(53.0分)。

    這種現(xiàn)象說明,多智能體訓(xùn)練不僅提升了協(xié)作能力,還讓每個(gè)子智能體在處理擴(kuò)展任務(wù)集時(shí)變得更加魯棒。就像優(yōu)秀的團(tuán)隊(duì)成員,既能配合默契,又能獨(dú)當(dāng)一面。

    展望:AI搜索的新范式

    DeepDiver-V2相對(duì)DeepDiver-V1, 從單一模型的”獨(dú)角戲”到多智能體的”交響樂”,這種轉(zhuǎn)變?yōu)榻鉀Q更復(fù)雜的現(xiàn)實(shí)問題開辟了道路。未來, DeepDiver將在企業(yè)調(diào)研、科學(xué)文獻(xiàn)綜述、專業(yè)數(shù)據(jù)分析等專業(yè)領(lǐng)域發(fā)揮巨大作用。

    【參考文獻(xiàn)】[1] Shi, Wenxuan, et al. “Pangu deepdiver: Adaptive search intensity scaling via open-web reinforcement learning.” arXiv preprint arXiv:2505.24332 (2025).[2] Li, Kuan, et al. “WebSailor: Navigating Super-human Reasoning for Web Agent.” arXiv preprint arXiv:2507.02592 (2025).[3] Li, Xiaoxi, et al. “Webthinker: Empowering large reasoning models with deep research capability.” arXiv preprint arXiv:2504.21776 (2025).