IT之家 9 月 8 日消息,據中國科學院自動化研究所官方微信公眾號消息,近日,中國科學院自動化研究所李國齊、徐波團隊在發(fā)表原創(chuàng)內生復雜性理論系列論文的工作基礎上,與沐曦 MetaX 合作,打造了類腦脈沖大模型“瞬悉 1.0”(SpikingBrain-1.0),在國產千卡 GPU 算力平臺上完成全流程訓練和推理,實現(xiàn)了大模型在超長序列推理上數量級的效率和速度提升,展示了構建國產自主可控的新型非 Transformer 大模型架構生態(tài)的可行性。研究團隊開源了 SpikingBrain-1.0-7B 模型并開放 SpikingBrain-1.0-76B 測試網址,同步公開了經工業(yè)界大規(guī)模驗證的類腦脈沖大模型 SpikingBrain-1.0 中英文技術報告。這是全球首款類腦脈沖大模型,實現(xiàn)了全流程國產化,標志著我國在類腦計算與大模型融合創(chuàng)新方面取得重要突破。
IT之家從官方介紹獲悉,研發(fā)團隊借鑒大腦神經元內部復雜工作機制提出“基于內生復雜性”的大模型構架方式,打造類腦脈沖大模型“瞬悉 1.0”( SpikingBrain-1.0),在理論上建立了脈沖神經元內生動力學與線性注意力模型之間的聯(lián)系,揭示了現(xiàn)有線性注意力機制是樹突計算的特殊簡化形式,從而清晰地展示了一條不斷提升模型復雜度和性能的新型可行路徑。研發(fā)團隊進而構建并開源了基于脈沖神經元、具有線性(SpikingBrain-1.0-7B)及混合線性復雜度(SpikingBrain-1.0-76B,激活參數量 12B)的新型類腦基礎模型,開發(fā)了面向國產 GPU(沐曦 MetaX 曦云 C550)集群高效訓練和推理框架、Triton 算子庫、模型并行策略以及集群通信原語。
李國齊表示,這項成果不僅是我國在類腦脈沖大模型架構和國產算力全流程建設上的重大突破,更為法律、醫(yī)療、科學模擬等超長序列應用場景提供了更高效的建模工具,也將啟迪下一代神經形態(tài)計算理論和芯片設計。