中國團(tuán)隊發(fā)布類腦脈沖大模型“瞬悉” 實現(xiàn)兩個首次和多項核心突破
北京9月8日電 (記者 孫自法)中國科學(xué)院自動化研究所9月8日宣布,該所研究團(tuán)隊最新成功研發(fā)并發(fā)布類腦脈沖大模型“瞬悉”1.0(SpikingBrain-1.0),實現(xiàn)兩個首次和多項核心性能突破,為新一代人工智能發(fā)展提供了新技術(shù)路線,并將啟迪更低功耗的下一代神經(jīng)形態(tài)計算理論和芯片設(shè)計。
兩個首次
這是中國首次提出大規(guī)模類腦線性基礎(chǔ)模型架構(gòu)、并首次在國產(chǎn)圖形處理器(GPU)算力集群上構(gòu)建類腦脈沖大模型的訓(xùn)練和推理框架。
最新研發(fā)發(fā)布的類腦脈沖大模型“瞬悉”1.0界面。中國科學(xué)院自動化研究所 供圖
“瞬悉”大模型由中國科學(xué)院自動化所李國齊和徐波研究員領(lǐng)導(dǎo)團(tuán)隊基于“內(nèi)生復(fù)雜性”理論構(gòu)建,已在國產(chǎn)GPU平臺上完成全流程訓(xùn)練與推理,實現(xiàn)大模型在超長序列推理上數(shù)量級的效率和速度提升,展示出構(gòu)建國產(chǎn)自主可控的新型大模型架構(gòu)生態(tài)的可行性。
“瞬悉”大模型解決了脈沖驅(qū)動限制下的大規(guī)模類腦模型性能退化問題,其超長序列處理能力在法律/醫(yī)學(xué)文檔分析、復(fù)雜多智能體模擬、高能粒子物理實驗、DNA序列分析、分子動力學(xué)軌跡等超長序列任務(wù)建模場景中,具有顯著的潛在效率優(yōu)勢。
目前,研究團(tuán)隊已開源“瞬悉”大模型并開放測試網(wǎng)址,還同步公開經(jīng)工業(yè)界大規(guī)模驗證的該類腦脈沖大模型中英文技術(shù)報告。
四項突破
研究團(tuán)隊指出,“瞬悉”大模型主要在高效訓(xùn)練、推理效率、類腦大模型生態(tài)構(gòu)建、多尺度稀疏機(jī)制等四項核心性能上實現(xiàn)突破:
極低數(shù)據(jù)量上的高效訓(xùn)練方面,訓(xùn)練階段具有線性或近線性復(fù)雜度,顯著提升長序列訓(xùn)練效率,并能依托高效轉(zhuǎn)換訓(xùn)練范式,以約為主流大模型2%的預(yù)訓(xùn)練數(shù)據(jù)量,實現(xiàn)與眾多開源Transformer(一種基于自注意力機(jī)制的深度學(xué)習(xí)架構(gòu))模型在多任務(wù)語言理解、中文多任務(wù)語言理解、常識推理能力任務(wù)上相媲美的性能。
推理效率的數(shù)量級提升方面,推理階段結(jié)合脈沖神經(jīng)元事件驅(qū)動特性,“瞬悉”大模型具有常數(shù)或部分層常數(shù)級別的復(fù)雜度和存儲開銷,在超長序列處理能力上展現(xiàn)出數(shù)量級的效率和速度提升。
國產(chǎn)自主可控類腦大模型生態(tài)的構(gòu)建方面,“瞬悉”大模型適配了面向國產(chǎn)GPU集群的高效訓(xùn)練和推理框架、有關(guān)算子庫、模型并行策略以及集群通信原語,表明構(gòu)建國產(chǎn)自主可控的新型非Transformer大模型架構(gòu)生態(tài)的可行性。
基于動態(tài)閾值脈沖化的多尺度稀疏機(jī)制方面,“瞬悉”大模型設(shè)計細(xì)粒度的兩階段動態(tài)閾值脈沖化策略,結(jié)合粗粒度的混合專家模型方案,實現(xiàn)超過69.15%的稀疏度,長序脈沖占比約1.85%,為低功耗的類腦大模型運行提供有力支撐。
新型路徑
研究團(tuán)隊介紹,當(dāng)前基于Transformer架構(gòu)的主流大模型,通過增加網(wǎng)絡(luò)規(guī)模、算力資源和數(shù)據(jù)量提升模型智能水平,其基本計算單元為簡單的點神經(jīng)元模型,此路徑被稱為“基于外生復(fù)雜性”的通用智能實現(xiàn)方法。
不過,Transformer架構(gòu)的固有缺點,是訓(xùn)練時開銷隨序列長度呈平方級增長以及推理時顯存占用也隨序列長度線性增加,構(gòu)成資源消耗的主要瓶頸,導(dǎo)致其處理超長序列的能力受限。
借鑒大腦神經(jīng)元內(nèi)部復(fù)雜工作機(jī)制,研究團(tuán)隊提出“基于內(nèi)生復(fù)雜性”的大模型構(gòu)架方式,成功研發(fā)出類腦脈沖大模型“瞬悉”,在理論上建立脈沖神經(jīng)元內(nèi)生動力學(xué)與線性注意力模型之間的聯(lián)系,揭示現(xiàn)有線性注意力機(jī)制是樹突計算的特殊簡化形式,從而清晰展示出一條不斷提升模型復(fù)雜度和性能的新型可行路徑。
根據(jù)新型路經(jīng),研究團(tuán)隊構(gòu)建并開源基于脈沖神經(jīng)元、具有線性及混合線性復(fù)雜度的新型類腦基礎(chǔ)模型“瞬悉”,它僅需約主流模型2%的數(shù)據(jù)量,就能在多項語言理解和推理任務(wù)中媲美眾多主流模型。(完)
【編輯:劉陽禾】