午夜激情影院国产_久久毛片免费播放_国产成人综合在线95精品_精品视频在线观自拍自拍_无码粉嫩小泬抽搐白浆免费_在线观看麻豆国产传媒61_黄色视频无码亚洲啊v在线_国产成人精品免费久亚洲高清不卡_先锋无码午夜资源网站_2021自拍视频亚洲国产第一区

  • 2025外灘大會:螞蟻、人大發(fā)布首個原生MoE擴散語言模型

      發(fā)布時間:2025-09-19 07:47:17   作者:玩站小弟   我要評論
      9月18日電 據(jù)公安部微信公眾號消息,9月18日,全球公。

    螞蟻集團和人民大學(xué)聯(lián)合研發(fā)原生MoE架構(gòu)擴散語言模型(dLLM) LLaDA-MoE,在約20T數(shù)據(jù)上完成了從零訓(xùn)練MoE架構(gòu)的擴散語言模型,驗證了工業(yè)級大規(guī)模訓(xùn)練的擴展性和穩(wěn)定性;效果超過此前發(fā)布稠密擴散語言模型LLaDA1.0/1.5和Dream-7B,比肩等效自回歸模型,并保有數(shù)倍的推理速度優(yōu)勢。模型將在近期完全開源,以推動全球AI社區(qū)在dLLM上的技術(shù)發(fā)展。

    9月11日,在2025Inclusion·外灘大會上,螞蟻集團與中國人民大學(xué)聯(lián)合發(fā)布業(yè)界首個原生MoE架構(gòu)的擴散語言模型(dLLM)“LLaDA-MoE”,中國人民大學(xué)高瓴人工智能學(xué)院副教授李崇軒,螞蟻集團通用人工智能研究中心主任、西湖大學(xué)特聘研究員、西湖心辰創(chuàng)始人藍振忠參與了發(fā)布儀式。

    (中國人民大學(xué)、螞蟻集團聯(lián)合發(fā)布首個MoE架構(gòu)擴散模型LLaDA-MoE)

    據(jù)介紹,這款新模型通過非自回歸的掩碼擴散機制,首次通過原生訓(xùn)練的MoE在大規(guī)模語言模型中實現(xiàn)了與Qwen2.5相當?shù)恼Z言智能(如上下文學(xué)習(xí)、指令遵循、代碼和數(shù)學(xué)推理等),挑戰(zhàn)了“語言模型必須自回歸”的主流認知。

    實現(xiàn)數(shù)據(jù)顯示,LLaDA-MoE模型性能效果在代碼、數(shù)學(xué)、Agent等任務(wù)上領(lǐng)先于LLaDA1.0/1.5和Dream-7B等擴散語言模型,接近或超越了自回歸模型 Qwen2.5-3B-Instruct,僅激活 1.4B 參數(shù)即可實現(xiàn)等效3B稠密模型的性能。

    (LLaDA-MoE性能表現(xiàn))

    “LLaDA-MoE模型驗證了工業(yè)級大規(guī)模訓(xùn)練的擴展性和穩(wěn)定性,意味我們在把dLLM訓(xùn)擴到更大規(guī)模的路上又往前走了一步?!彼{振忠在發(fā)布現(xiàn)場表示。

    中國人民大學(xué)高瓴人工智能學(xué)院副教授李崇軒介紹,“兩年過去,AI大模型能力突飛猛進,但存在一些問題始終沒有得到本質(zhì)上的解決。究其原因,這是當前大模型普遍采用的自回歸生成范式所造成的——模型天然是單向建模的,從前往后依次生成下一個token。這導(dǎo)致它們難以捕tokens 之間的雙向依賴關(guān)系?!?/p>

    面對這些問題,一些研究者選擇另辟蹊徑,將目光投向并行解碼的擴散語言模型。然而,現(xiàn)有 dLLM 均基于稠密架構(gòu),難以復(fù)刻 ARM 中 MoE 的“參數(shù)擴展、計算高效”優(yōu)勢。在這樣的行業(yè)背景下,螞蟻和人大聯(lián)合研究團隊,首次在MoE架構(gòu)上推出了原生的擴散語言模型LLaDA-MoE。

    藍振忠還表示,“我們將于近期向全球完全開源模型權(quán)重和自研推理框架,與社區(qū)共同推動 AGI 新一輪突破?!?/p>

    據(jù)了解,螞蟻與人大團隊攻關(guān) 3個月,在LLaDA-1.0基礎(chǔ)上重寫訓(xùn)練代碼,并且基于螞蟻自研分布式框架 ATorch提供EP 并行等一系列并行加速技術(shù),基于螞蟻Ling2.0基礎(chǔ)模型的訓(xùn)練數(shù)據(jù),在負載均衡、噪聲采樣漂移等核心難題上取得突破,最終采用 7B-A1B(總7B、激活1.4B)的MOE架構(gòu)完成約 20T 數(shù)據(jù)的高效訓(xùn)練。

    在螞蟻自研的統(tǒng)一評測框架下,LLaDA-MoE 在 HumanEval、MBPP、GSM8K、MATH、IFEval、BFCL 等 17項基準上平均提升 8.4%,領(lǐng)先 LLaDA-1.5達到13.2%,與 Qwen2.5-3B-Instruct 打平。實驗再次驗證“MoE 放大器”定律在 dLLM 領(lǐng)域同樣成立,為后續(xù) 10B–100B 稀疏模型提供可行路徑。

    據(jù)藍振忠介紹,除模型權(quán)重外,螞蟻還將同步開源針對 dLLM 并行特性深度優(yōu)化的推理引擎。相比 NVIDIA 官方 fast-dLLM,該引擎實現(xiàn)了顯著加速。相關(guān)代碼與技術(shù)報告將于近期在 GitHub 及 Hugging Face 社區(qū)同步發(fā)布。

    藍振忠還透露,螞蟻將持續(xù)投入包括基于dLLM的AGI領(lǐng)域,下一階段將聯(lián)合學(xué)界和全球AI社區(qū)共同推動AGI新的突破?!白曰貧w不是終點,擴散模型同樣可以成為通向 AGI 的主干道。”藍振忠如是說。