用國(guó)產(chǎn)GPU訓(xùn)練的國(guó)產(chǎn)大模型來(lái)了!能耗暴降97.7%
智東西作者 陳駿達(dá)編輯 心緣
智東西9月10日?qǐng)?bào)道,9月5日,中國(guó)科學(xué)院自動(dòng)化研究所發(fā)布了類腦脈沖大模型“瞬悉1.0”(SpikingBrain-1.0)的技術(shù)報(bào)告。SpikingBrain-7B開(kāi)源模型僅用主流大模型2%的預(yù)訓(xùn)練數(shù)據(jù),就實(shí)現(xiàn)了Qwen2.5-7B 90%的性能,并與Llama-3.1-8B等眾多開(kāi)源Transformer模型相媲美的性能。
中科院自動(dòng)化研究所稱,這是我國(guó)首次提出大規(guī)模類腦線性基礎(chǔ)模型架構(gòu),也是我國(guó)首次在國(guó)產(chǎn)GPU算力集群上構(gòu)建類腦脈沖大模型的訓(xùn)練和推理框架。
SpikingBrain訓(xùn)練和推理的全過(guò)程均在國(guó)產(chǎn)算力上完成,使用的是由沐曦股份曦云C550 GPU組成的集群。在訓(xùn)練過(guò)程中,集群連續(xù)運(yùn)行2周未中斷,這也證明了構(gòu)建國(guó)產(chǎn)自主可控的新型非Transformer大模型架構(gòu)生態(tài)的可行性。
除了極高的數(shù)據(jù)效率之外,SpikingBrain還在推理效率上實(shí)現(xiàn)數(shù)量級(jí)提升。在100萬(wàn)個(gè)token上下文場(chǎng)景下,SpikingBrain-7B生成首個(gè)token的耗時(shí),比Qwen2.5-7B降低了96.2%。
這一特性也使得SpikingBrain尤其適合超長(zhǎng)序列處理任務(wù),如在法律和醫(yī)學(xué)文檔分析、復(fù)雜多智能體模擬、高能粒子物理實(shí)驗(yàn)、DNA序列分析、分子動(dòng)力學(xué)軌跡等。
在能耗方面,該模型的平均乘加運(yùn)算能耗相比傳統(tǒng)FP16和INT8運(yùn)算,分別降低了97.7%和85.2%。
▲SpikingBrain-1.0技術(shù)報(bào)告
SpikingBrain-1.0共有7B參數(shù)量和76B參數(shù)量?jī)蓚€(gè)版本。9月3日,7B版本的模型已在GitHub、魔搭等平臺(tái)開(kāi)源。76B版本的模型暫未開(kāi)源,但提供了體驗(yàn)鏈接。
▲SpikingBrain-1.0體驗(yàn)界面
開(kāi)源地址:
https://github.com/BICLab/SpikingBrain-7B
技術(shù)報(bào)告:
https://github.com/BICLab/SpikingBrain-7B/blob/main/SpikingBrain_Report_Chi.pdf
體驗(yàn)鏈接:
https://controller-fold-injuries-thick.trycloudflare.com/
一、Transformer遇上效率瓶頸,從人類大腦找靈感
為什么需要新型非Transformer架構(gòu)的大模型?打造SpikingBrain的聯(lián)合團(tuán)隊(duì)認(rèn)為,Transformer架構(gòu)面臨一個(gè)固有缺點(diǎn):訓(xùn)練計(jì)算開(kāi)銷隨序列長(zhǎng)度呈平方級(jí)增長(zhǎng),推理時(shí)的顯存占用也隨序列長(zhǎng)度線性增加,帶來(lái)海量資源消耗。這限制了模型處理超長(zhǎng)序列(100萬(wàn)個(gè)token以上的序列)的能力。
Transformer架構(gòu)本質(zhì)上依賴“外生復(fù)雜性”,即通過(guò)堆疊更多神經(jīng)元和更大規(guī)模計(jì)算來(lái)提升智能水平。與此對(duì)比,人腦以極低的能耗(約為20W)實(shí)現(xiàn)了高度復(fù)雜的智能,其神經(jīng)元具有豐富的內(nèi)部動(dòng)力學(xué)與多樣性。
這意味著大模型或許存在另一條“內(nèi)生復(fù)雜性”的發(fā)展路徑,通過(guò)充分利用生物神經(jīng)網(wǎng)絡(luò)在神經(jīng)元和神經(jīng)環(huán)路上的結(jié)構(gòu)和功能特性,打造下一代模型架構(gòu)。
低功耗脈沖神經(jīng)網(wǎng)絡(luò)(SNN)方案,被學(xué)界認(rèn)為是通往更通用AI系統(tǒng)的新一代低功耗類腦神經(jīng)網(wǎng)絡(luò)方案之一。其工作方式與大腦類似,只在需要的時(shí)候發(fā)送信號(hào),因此功耗較低。
研究發(fā)現(xiàn),復(fù)雜的脈沖神經(jīng)元可以用幾個(gè)小神經(jīng)元組合來(lái)實(shí)現(xiàn)同樣的效果,這讓構(gòu)建高效的類腦網(wǎng)絡(luò)成為可能。
基于上述理論研究,SpikingBrain團(tuán)隊(duì)在模型架構(gòu)中集成了混合高效注意力、MoE模塊和脈沖編碼三大核心組件。
1、混合高效注意力
注意力機(jī)制是大語(yǔ)言模型的核心計(jì)算單元。SpikingBrain整合了不同注意力機(jī)制的優(yōu)勢(shì),7B版本模型采用層間混合的線性注意力與SWA,兼顧全局信息檢索和局部依賴。
而更大規(guī)模的SpikingBrain-76B則使用層內(nèi)并行混合,將線性、SWA與全量softmax注意力結(jié)合,同一層中并行運(yùn)行多種注意力機(jī)制,可高效處理全局信息、局部依賴和長(zhǎng)程依賴。
▲SpikingBrain整體模型架構(gòu)
2、混合專家模塊
SpikingBrain從Qwen2.5-7B-Base(稠密模型)擴(kuò)展而來(lái)。為了在現(xiàn)有稠密模型的基礎(chǔ)上高效擴(kuò)展,得到稀疏的混合專家模型,SpikingBrain團(tuán)隊(duì)使用了上采樣(Upcycling)技術(shù)。
這一方法的核心是通過(guò)參數(shù)復(fù)制和輸出縮放,使擴(kuò)展后的模型在初始狀態(tài)下與原模型保持一致,從而避免性能損失。
3、脈沖神經(jīng)元
脈沖神經(jīng)元是脈沖神經(jīng)網(wǎng)絡(luò)的基本單元。工程應(yīng)用中常見(jiàn)的LIF(Leaky Integrate-and-Fire)模型,能在一定程度上模擬生物神經(jīng)元的核心特性。但LIF存在神經(jīng)元過(guò)度沉默或過(guò)度激活問(wèn)題,從而影響模型精度與能效的平衡。
為解決這些問(wèn)題,SpikingBrain團(tuán)隊(duì)提出了自適應(yīng)閾值脈沖神經(jīng)元(Adaptive-threshold Spiking Neurons),可保持神經(jīng)元適度激活,避免過(guò)度興奮或靜息。
二、3個(gè)環(huán)節(jié)完成模型轉(zhuǎn)換,全面適配國(guó)產(chǎn)GPU集群
在訓(xùn)練過(guò)程中,SpikingBrain團(tuán)隊(duì)將Qwen2.5-7B-Base轉(zhuǎn)換為類腦脈沖大模型,主要包含3個(gè)環(huán)節(jié)。
持續(xù)預(yù)訓(xùn)練和長(zhǎng)序列擴(kuò)展中,模型使用了約150B tokens的數(shù)據(jù),將序列長(zhǎng)度從8K逐步擴(kuò)展至128K。其訓(xùn)練數(shù)據(jù)量?jī)H占從頭訓(xùn)練所需的2%,實(shí)現(xiàn)了高效模型轉(zhuǎn)換。
監(jiān)督微調(diào)環(huán)節(jié)中,通過(guò)使用不同領(lǐng)域的數(shù)據(jù)集以及由DeepSeek-R1蒸餾得到的高質(zhì)量推理數(shù)據(jù)集,模型在通用知識(shí)、對(duì)話和推理等方面的能力逐步提升。
之后,模型還需要經(jīng)過(guò)脈沖化編碼。受生物神經(jīng)系統(tǒng)啟發(fā),SpikingBrain團(tuán)隊(duì)提出將大模型的連續(xù)激活值轉(zhuǎn)換為整數(shù)脈沖序列的策略。
在推理階段,整數(shù)脈沖計(jì)數(shù)會(huì)被展開(kāi)成稀疏脈沖序列,以適配事件驅(qū)動(dòng)計(jì)算。
SpikingBrain提供三種編碼方式:二值脈沖簡(jiǎn)單低能耗;三值脈沖支持類似生物神經(jīng)系統(tǒng)的興奮-抑制調(diào)控,減少時(shí)間步和脈沖總數(shù);二進(jìn)制脈沖可在高計(jì)數(shù)場(chǎng)景下顯著降低計(jì)算量和能耗。
▲三種脈沖方案示意圖
上述脈沖化方案可在GPU上兼容運(yùn)行,但GPU無(wú)法完全利用脈沖信號(hào)“事件驅(qū)動(dòng)、稀疏異步”的核心優(yōu)勢(shì)。要完全釋放本方案的低能耗潛力,需要結(jié)合專用異步硬件(如類腦芯片、脈沖處理器)。
SpikingBrain仍然選擇了在國(guó)產(chǎn)沐曦GPU集群上進(jìn)行訓(xùn)練,沐曦軟件平臺(tái)通過(guò)MoE優(yōu)化、計(jì)算通信并行、顯存優(yōu)化、算子融合和自動(dòng)調(diào)優(yōu)等手段實(shí)現(xiàn)適配。
這一適配過(guò)程包括Triton適配、CUDA向MACA(沐曦兼容CUDA的軟件棧)框架遷移兩部分。這兩條路徑針對(duì)模型內(nèi)部不同算子進(jìn)行優(yōu)化,結(jié)合形成適用于沐曦GPU的硬件適配方案。
▲沐曦平臺(tái)上的CUDA和Triton算子適配
在適配過(guò)程中,下游用戶可以在保持原有編程習(xí)慣和接口調(diào)用方式的前提下使用,無(wú)需對(duì)模型代碼進(jìn)行大量修改。同時(shí),平臺(tái)提供調(diào)試和性能分析工具,便于開(kāi)發(fā)者觀察模型在硬件上的執(zhí)行情況,并進(jìn)行必要的微調(diào)和優(yōu)化。
訓(xùn)練大型語(yǔ)言模型通常超出單個(gè)GPU的顯存容量,因此,SpikingBrain團(tuán)隊(duì)結(jié)合數(shù)據(jù)并行、流水線并行、專家并行和序列并行等分布式訓(xùn)練技術(shù),將計(jì)算和存儲(chǔ)負(fù)載分散到多個(gè)GPU上。
三、恢復(fù)基座模型9成性能,集群連續(xù)運(yùn)行2周未中斷
在下游任務(wù)評(píng)測(cè)中,SpikingBrain-7B在多個(gè)基準(zhǔn)測(cè)試上恢復(fù)了基座模型Qwen2.5-7B約90%的性能,整體水平與Mistral-7B、Llama-3-8B等先進(jìn)Transformer模型相當(dāng),表明高效線性注意力在降低推理復(fù)雜度的同時(shí)仍能保持較強(qiáng)的建模能力。
SpikingBrain-76B混合線性MoE模型幾乎完全恢復(fù)了基座模型性能。
經(jīng)過(guò)三階段SFT對(duì)齊訓(xùn)練后,SpikingBrain-76B在通用知識(shí)、長(zhǎng)序列建模及指令跟隨能力上,與同量級(jí)開(kāi)源對(duì)話模型相當(dāng),同時(shí)保持預(yù)訓(xùn)練獲得的通用能力,未出現(xiàn)過(guò)擬合現(xiàn)象,顯示了架構(gòu)在對(duì)齊訓(xùn)練中的穩(wěn)定性和可擴(kuò)展性。
在長(zhǎng)序列推理場(chǎng)景中,SpikingBrain-7B模型在100萬(wàn)個(gè)token長(zhǎng)度下TTFT(生成第一個(gè)Token所需時(shí)間)相比Transformer架構(gòu)加速達(dá)到26.5倍,400萬(wàn)Token長(zhǎng)度下加速超過(guò)100倍。
訓(xùn)練性能方面,7B模型在128K序列長(zhǎng)度下的訓(xùn)練吞吐量為Qwen2.5-7B的5.36倍,這與推理性能提升基本一致。
同時(shí)在手機(jī)CPU端64K、128K、256K長(zhǎng)度下,SpikingBrain較Llama3.2的同規(guī)模模型推理速度分別提升4.04倍、7.52倍、15.39倍。
SpikingBrain-7B在訓(xùn)練過(guò)程中的每秒每GPU處理token量達(dá)到1558個(gè),模型FLOPs利用率達(dá)23.4%,顯示了較高計(jì)算效率和資源利用率。集群在連續(xù)兩周運(yùn)行期間未發(fā)生中斷,體現(xiàn)了國(guó)產(chǎn)硬件和軟件生態(tài)系統(tǒng)的可靠性和魯棒性。
脈沖統(tǒng)計(jì)顯示,7B版本模型實(shí)現(xiàn)了超過(guò)69.15%的稀疏度,長(zhǎng)序脈沖占比約1.85%,這為低功耗的類腦大模型運(yùn)行提供有力支撐。
結(jié)合異步事件驅(qū)動(dòng)硬件計(jì)算,平均乘加運(yùn)算能耗相比FP16和INT8,分別實(shí)現(xiàn)97.7%和85.2%的能耗降低。這表明,將脈沖驅(qū)動(dòng)計(jì)算與量化相結(jié)合,能夠有效大幅降低能耗開(kāi)銷,同時(shí)做到精度損失可控。
四、一手體驗(yàn)76B版本生成效果,在小球彈跳上翻車了
在官方試用網(wǎng)頁(yè)中,智東西對(duì)SpikingBrain-76B模型的能力進(jìn)行了一手體驗(yàn)。在這一網(wǎng)頁(yè)中,模型的最大生成長(zhǎng)度被限制為大約8000個(gè)token及以下,超過(guò)后會(huì)直接中止回答。
▲SpikingBrain-76B模型的高級(jí)參數(shù)設(shè)置頁(yè)面
我們首先讓SpikingBrain-76B介紹一下“何為類腦脈沖大模型”,這主要是為了考察SpikingBrain-76B的理解與表達(dá)能力和世界知識(shí)儲(chǔ)備。
由于使用了DeepSeek-R1蒸餾得到的高質(zhì)量推理數(shù)據(jù)集,SpikingBrain-76B的思維鏈風(fēng)格與DeepSeek-R1頗為接近,同樣擁有許多口語(yǔ)化表達(dá)。
SpikingBrain-76B給出的回答結(jié)構(gòu)清晰,內(nèi)容也基本正確。不過(guò),它稱Transformer能效比要優(yōu)于類腦脈沖大模型,這與學(xué)界的主流觀點(diǎn)是相悖的。
在小球彈跳這一考驗(yàn)?zāi)P途幊膛c物理規(guī)律理解力的題目上,SpikingBrain-76B有點(diǎn)“翻車了”。它打造的網(wǎng)頁(yè)十分原始,小球也未能在六邊形內(nèi)自然彈跳,而是卡在了畫面正中央。
我們還讓SpikingBrain-76B回答了9.8-9.11這樣的算術(shù)題。在2048個(gè)token的最大生成長(zhǎng)度設(shè)定下,模型直接提示思考長(zhǎng)度超過(guò)生成限制。
當(dāng)最大生成長(zhǎng)度被設(shè)置為約8000個(gè)token時(shí),SpikingBrain-76B通過(guò)列豎式給出了正確回答。
中國(guó)科學(xué)院自動(dòng)化研究所在網(wǎng)頁(yè)上提示道,模型在訪問(wèn)高峰時(shí)反應(yīng)較慢。在我們的實(shí)際體驗(yàn)過(guò)程中,一輪對(duì)話往往要20秒左右才能完成。
結(jié)語(yǔ):大模型全棧國(guó)產(chǎn)自主可控再添進(jìn)展
目前,國(guó)內(nèi)已有多家企業(yè)和高校探索了非Transformer的模型架構(gòu),除了中國(guó)科學(xué)院自動(dòng)化研究所本次發(fā)布的SpikingBrain之外,上海交通大學(xué)也曾打造一款腦啟發(fā)大語(yǔ)言模型,采用“信號(hào)全連接流動(dòng)”機(jī)制模擬人腦的語(yǔ)義編碼和信號(hào)傳播方式。
這類受大腦計(jì)算方式啟發(fā)的模型架構(gòu),在計(jì)算效率上與Transformer架構(gòu)相比有明顯優(yōu)勢(shì),在與國(guó)產(chǎn)算力硬件結(jié)合后,有望走出一條大模型國(guó)產(chǎn)自主可控的新路徑。