9 月 10 日,Arm 在 Arm Unlocked 2025 峰會上正式推出了全新 Arm Lumex 計算子系統(tǒng)(Compute Subsystem, CSS)平臺,這款專為旗艦級智能手機及下一代個人電腦打造的先進計算平臺,核心目標(biāo)是加速設(shè)備端人工智能(AI)體驗。
據(jù) Arm 官方介紹,Lumex CSS 平臺集成了搭載第二代可伸縮矩陣擴展(SME2)技術(shù)的高性能 Arm CPU、GPU 及系統(tǒng) IP,不僅能幫助生態(tài)伙伴縮短 AI 設(shè)備上市周期,還可支持桌面級移動游戲、實時翻譯、智能助手等多樣化場景,為消費電子設(shè)備注入“更智能、更高效、更個性化”的能力。
Lumex 平臺的核心組件包括:搭載第二代可伸縮矩陣擴展(SME2)技術(shù)的全新 Armv9.3 CPU 集群、配備新一代光線追蹤技術(shù)的 Arm Mali G1-Ultra GPU、高效的系統(tǒng) IP 以及針對 3 納米工藝節(jié)點優(yōu)化的物理實現(xiàn)方案。
這一高度集成的平臺化交付模式,為 Arm 的合作伙伴提供了前所未有的靈活性。他們既可以直接采用 Arm 交付的、經(jīng)過先進物理實現(xiàn)方案優(yōu)化的平臺,以縮短產(chǎn)品上市時間;也可以根據(jù)自身目標(biāo)市場的需求,對平臺的寄存器傳輸級(RTL)設(shè)計進行配置,并自行完成核心模塊的硬化工作。
Arm 在發(fā)布會上公布了引人注目的性能指標(biāo):依托全新的 SME2 技術(shù),CPU 的 AI 性能實現(xiàn)了高達五倍的提升;而全新的 GPU 則帶來了兩倍的光線追蹤性能飛躍。
這些數(shù)字背后,是 Arm 對于未來計算架構(gòu)的深刻思考,以及其在日益復(fù)雜的芯片設(shè)計挑戰(zhàn)下,為整個生態(tài)系統(tǒng)提供的戰(zhàn)略性解決方案。
而就在 9 月 10 日下午,Arm 還舉辦了針對 Arm Lumex 計算子系統(tǒng)專門的技術(shù)分享活動,IT之家也受邀參加,下面就讓我們看看 Arm Lumex 計算子系統(tǒng)具體有哪些細(xì)節(jié)上的技術(shù)創(chuàng)新。
重塑計算核心:SME2 技術(shù)驅(qū)動的 C1 CPU 集群
Arm Lumex CSS 平臺的心臟是其全新的 C1 CPU 集群。此次更新的最大亮點,并非僅僅是常規(guī)的單線程性能提升,而是通過戰(zhàn)略性地集成第二代可伸縮矩陣擴展(SME2)技術(shù),重新定義了 CPU 在異構(gòu) AI 計算環(huán)境中的角色。
SME2:為低延遲 AI 任務(wù)而生的新范式
C1 CPU 集群是首個基于 Armv9.3 架構(gòu)并原生集成 SME2 技術(shù)的 CPU 系列。這項技術(shù)為端側(cè) AI 帶來了革命性的突破,在同等條件下,相比上一代 CPU 集群,其 AI 性能提速高達五倍,同時能效優(yōu)化多達三倍。
在實際應(yīng)用中,這些宏觀的數(shù)字提升可以轉(zhuǎn)化為用戶可感知的體驗飛躍。例如,在處理語音工作負(fù)載時(基于 Whisper Base 模型),延遲降低了 4.7 倍;在運行 Google Gemma 3 模型進行聊天交互時,AI 性能可增長 4.7 倍;而在使用 Stability AI Stable Audio 模型生成音頻時,速度提升了 2.8 倍。
然而,SME2 的戰(zhàn)略意義遠(yuǎn)不止于此。在媒體問答環(huán)節(jié),Arm 高管透露,SME2 技術(shù)可為 CPU 提供額外的 2 到 6 TOPS 算力。這個數(shù)字與動輒宣稱上百 TOPS 的專用 NPU 相比似乎微不足道,但這恰恰揭示了 Arm 的深層戰(zhàn)略。許多現(xiàn)實世界中的 AI 工作負(fù)載,如語音喚醒、圖像預(yù)處理或?qū)崟r情境感知助手,其瓶頸在于內(nèi)存帶寬而非純粹的計算能力。一個擁有百 TOPS 算力的 NPU,如果因等待數(shù)據(jù)而閑置,其峰值性能便毫無意義。
CPU 憑借其對系統(tǒng)緩存和內(nèi)存的低延遲直接訪問能力,在處理這些規(guī)模小、觸發(fā)頻繁且對延遲極其敏感的任務(wù)時,效率遠(yuǎn)高于啟動一個高功耗的 NPU。因此,Arm 并非試圖用 CPU 取代 NPU,而是在構(gòu)建一個更精細(xì)化的三級異構(gòu)計算體系:
搭載 SME2 的 CPU:負(fù)責(zé)處理“持續(xù)在線、低延遲”的小模型任務(wù)。
GPU:負(fù)責(zé)處理與圖形渲染相結(jié)合的大規(guī)模并行 AI 任務(wù)。
NPU:負(fù)責(zé)處理高吞吐量、計算密集型的大模型推理任務(wù)。
這是一種基于工作負(fù)載特性進行精細(xì)化處理器優(yōu)化的成熟策略,而非單純追求峰值算力的“軍備競賽”。SME2 的引入,為系統(tǒng)增加了一個全新的、高效且靈活的 AI 計算層級。
C1 CPU 家族:精準(zhǔn)定位,全面覆蓋
為了滿足從旗艦到入門級市場的不同需求,Arm 推出了分工明確的 C1 CPU 系列,所有核心均可通過全新的 Arm C1-DSU(DynamIQ Shared Unit)進行多達 14 個核心的靈活組合。該 DSU 本身也經(jīng)過優(yōu)化,與上一代 DSU-120 相比,功耗節(jié)省高達 26%。
Arm C1-Ultra 作為旗艦核心,延續(xù)了 Arm 連續(xù)六年實現(xiàn)兩位數(shù) IPC(每時鐘周期指令數(shù))增長的勢頭,其單線程峰值性能相較于上一代的 Cortex-X925 提升高達 25%。這得益于其業(yè)界領(lǐng)先的前端設(shè)計、業(yè)內(nèi)最寬的微架構(gòu)以及出色的預(yù)取器優(yōu)化。
Arm C1-Premium 是 Arm 首次推出的次旗艦處理器。其核心創(chuàng)新在于卓越的面積效率,在 SPEC 等基準(zhǔn)測試中保持了與 C1-Ultra 相當(dāng)?shù)男阅芩?,但其核心面積(包含私有 L2 緩存)卻縮小了 35%,為次旗艦 SoC 設(shè)計提供了更優(yōu)的成本與性能平衡點。
Arm C1-Pro 則聚焦于持續(xù)能效表現(xiàn)。與 Cortex-A725 相比,它在相同主頻下的持續(xù)性能提升了 16%,而在視頻播放、社交媒體等日常應(yīng)用中,同等性能下的能效提高了 12%。
Arm C1-Nano 追求極致的能耗和面積效率,相比 Cortex-A520,其能效提升了 26%,同時核心面積還縮小了 2%,是可穿戴設(shè)備和緊湊型消費電子的理想選擇。
融合真實與智能:Mali G1-Ultra GPU 的深度解析
在 Arm Lumex CSS 平臺的圖形與 AI 推理環(huán)節(jié),全新 Arm Mali G1-Ultra GPU 扮演著核心角色。
作為 Arm 迄今為止性能最強的移動 GPU,Mali G1-Ultra 不僅延續(xù)了 Arm 在手游領(lǐng)域的優(yōu)勢(截至目前,搭載 Arm GPU 的芯片出貨量已逾 120 億顆),更通過新一代光線追蹤技術(shù)與 AI 加速設(shè)計,將移動設(shè)備的圖形體驗推向桌面級水準(zhǔn),同時強化了端側(cè) AI 推理能力。
從核心技術(shù)升級來看,Mali G1-Ultra 的突破集中在第二代光線追蹤單元(RTUv2)、AI 加速指令與架構(gòu)優(yōu)化三大方面。
其中,RTUv2 作為專為移動端實時性能設(shè)計的硬件單元,較上一代 Immortalis-G925 GPU 的 RTUv1 實現(xiàn)了兩倍光線追蹤性能提升,且采用單光線模型與獨立電源域設(shè)計 —— 獨立電源域可在設(shè)備空閑時為 RTUv2 斷電,進一步節(jié)省功耗;單光線模型則大幅增強了對非一致性光線的支持,使移動設(shè)備能呈現(xiàn)桌面級的光照、反射與陰影效果。
在實際游戲測試中,Mali G1-Ultra 的表現(xiàn)尤為突出:《暗區(qū)突圍》性能提升 25%,《崩壞:星穹鐵道》提升 19%,《原神》提升 17%,《堡壘之夜》提升 11%,而在 Arm 內(nèi)部游戲演示《Mori 林間鼯語》中,性能提升更是達到 26%。此外,在啟用硬件光線追蹤的游戲中,Mali G1-Ultra 的幀率較上一代提升 40%,徹底改變了移動設(shè)備“光追性能不足”的現(xiàn)狀。
在 AI 加速方面,Mali G1-Ultra 引入了新的矩陣乘法單元(MMUL)FP16 指令,專門針對語義分割、去噪、深度估計、物體檢測等端側(cè)關(guān)鍵 AI 工作負(fù)載優(yōu)化,較上一代 Immortalis-G925 GPU,AI 與機器學(xué)習(xí)網(wǎng)絡(luò)推理速度提升 20%,部分場景性能提升甚至高達 104%。
同時,通過擴大 L2 緩存與優(yōu)化互連設(shè)計,Mali G1-Ultra 實現(xiàn)了 AI 與圖形工作負(fù)載的并行處理,大幅減少內(nèi)存瓶頸,確保實時 AI 應(yīng)用(如計算攝影、AI 濾鏡)的流暢運行。
架構(gòu)層面,Mali G1-Ultra 作為 Arm 第五代 GPU 架構(gòu)的代表,引入了雙堆疊著色器核心與快速訪問統(tǒng)一寄存器設(shè)計:雙堆疊著色器核心使內(nèi)部帶寬加倍,減少了數(shù)據(jù)擁塞;快速訪問統(tǒng)一寄存器則在著色器執(zhí)行期間大幅減少內(nèi)存提取,顯著提升了實時光照、基于物理渲染等計算密集型工作負(fù)載的響應(yīng)速度。此外,新增的 Arm 圖像區(qū)域依賴(IRD)調(diào)度特性,可讓 GPU 同時處理屏幕不同部分,在復(fù)雜場景中減少空閑時間、提升性能。
為滿足不同設(shè)備層級的需求,Arm 同時推出了 Mali G1-Premium 與 Mali G1-Pro GPU,與 G1-Ultra 共同構(gòu)成 Mali G1 系列。該系列提供 1-24 個著色器核心選項,系統(tǒng)級芯片(SoC)設(shè)計商可根據(jù)目標(biāo)市場(從旗艦手機到中端設(shè)備)靈活配置,實現(xiàn)性能與成本的平衡。
在開發(fā)者工具層面,Mali G1 系列通過基于塊(tile)的硬件計數(shù)器提供更強的可觀測性,開發(fā)者可通過 Vulkan 擴展訪問這些計數(shù)器,未來安卓版本還將支持 RenderDoc,便于精準(zhǔn)識別性能熱點、平衡工作負(fù)載。
同時,Mali G1 系列支持 Arm 精銳超級分辨率技術(shù)(Arm ASR),該時域類超分技術(shù)已集成至虛幻引擎 5 與《堡壘之夜》手游,可在減少 GPU 工作負(fù)載的同時提升圖像質(zhì)量,幫助開發(fā)者在保持高幀率的前提下,實現(xiàn)更清晰的視覺細(xì)節(jié)。
不久前,ARM 還宣布了一項名為“Arm 神經(jīng)技術(shù)”(Arm Neural Technology),這項技術(shù)將專用神經(jīng)加速器引入 2026 年推出的 Arm GPU 上。在本次技術(shù)分享會上,Arm 也提到了這項未來技術(shù),它將是一個可編程的、基于 AI 的硬件模塊,專門用于處理超級采樣、降噪等任務(wù)。
這揭示了一條清晰的路線圖:首先通過軟件方案(ASR)構(gòu)建生態(tài)、驗證概念,未來再通過專用硬件實現(xiàn)性能和能效的巨大飛躍。這與桌面 GPU 領(lǐng)域從通用渲染到引入專用 Tensor Core 的演進路徑如出一轍,可見 Arm 正在為移動端的下一波 AI 原生圖形技術(shù)浪潮鋪平道路。
無形的引擎:軟件生態(tài)如何釋放 Lumex 的全部潛能
Lumex 平臺的硬件進步固然令人矚目,但其真正的潛力釋放,還離不開一個強大且經(jīng)過精心構(gòu)建的軟件生態(tài)系統(tǒng)。這個生態(tài)的核心是 Arm KleidiAI 軟件庫??梢哉f,軟件是 Arm 確保其硬件創(chuàng)新能夠被開發(fā)者即時、廣泛采納的戰(zhàn)略性工具。
KleidiAI 是一個免費的軟件庫,其核心價值在于,它能讓開發(fā)者在無需修改任何代碼的情況下,無縫利用 SME2 等硬件的加速能力。
它通過深度集成到所有主流 AI 框架中來實現(xiàn)這一點,包括 PyTorch ExecuTorch、Google LiteRT、阿里巴巴 MNN 以及微軟 ONNX Runtime。當(dāng)開發(fā)者使用這些框架構(gòu)建應(yīng)用時,其 AI 工作負(fù)載就能在兼容的硬件上自動獲得加速。
這一策略的成功,從數(shù)據(jù)上可見一斑。目前,KleidiAI 在搭載 Arm 架構(gòu)的設(shè)備上累計安裝量已超過 80 億次,并且仍在持續(xù)增長中,這證明了其在開發(fā)者社區(qū)中的高度認(rèn)可和廣泛采納。
此外 Arm 還為不同操作系統(tǒng)提供了清晰的 AI 加速路徑:
在安卓平臺,加速主要通過 Kleidi 集成到 Google 的 XNNPack 庫中實現(xiàn),而 XNNPack 是 LiteRT 的核心運行時。這意味著數(shù)以千計使用標(biāo)準(zhǔn) Google ML 工具的安卓應(yīng)用將自動獲得性能提升。
在 Windows on Arm 平臺,主要路徑則是通過 ONNX Runtime 框架,該框架為 Copilot、Office 365 等核心應(yīng)用的 AI 功能提供動力。
這種對開發(fā)者生態(tài)的深度支持,解決了新硬件推廣時常遇到的“雞生蛋,蛋生雞”的難題。KleidiAI 提供了一個從 Armv8 的 Neon 指令集到 Armv9 的 SME2 的向上兼容性,創(chuàng)建了一個穩(wěn)定、統(tǒng)一的軟件抽象層。
開發(fā)者只需面向高層框架開發(fā)一次,KleidiAI 便會自動在不同設(shè)備上選擇最優(yōu)的執(zhí)行路徑。這極大地降低了開發(fā)門檻,并確保當(dāng)消費者購買一臺搭載 Lumex 平臺的手機時,已有海量應(yīng)用能夠立即發(fā)揮其強大性能。
結(jié)語
總體來說,Arm Lumex CSS 平臺的發(fā)布,遠(yuǎn)不止是一次硬件的迭代更新。它是 Arm 從 IP 授權(quán)商向平臺提供商戰(zhàn)略演進的集中體現(xiàn),也是其為應(yīng)對當(dāng)前半導(dǎo)體行業(yè)關(guān)于端側(cè) AI 的指數(shù)級增長和前沿工藝制造的巨大復(fù)雜性這兩大核心挑戰(zhàn)所給出的明確答案。
通過 C1 CPU 集群和 SME2 技術(shù),Arm 重新劃分了異構(gòu)計算中各處理單元的職責(zé),為低延遲 AI 任務(wù)開辟了高效的新路徑。通過 Mali G1-Ultra 和 RTUv2,它將移動游戲的視覺體驗提升至新的高度,并為 AI 與圖形的深度融合奠定了基礎(chǔ)。而通過 KleidiAI 軟件生態(tài),它確保了這些強大的硬件能力能夠被開發(fā)者輕松、快速地轉(zhuǎn)化為豐富的用戶體驗。
將所有這些創(chuàng)新整合在一個經(jīng)過 3 納米工藝優(yōu)化的、預(yù)驗證的“計算子系統(tǒng)”中進行交付,這本身就是一項關(guān)鍵創(chuàng)新。
它直接解決了芯片設(shè)計合作伙伴在轉(zhuǎn)向先進工藝節(jié)點時所面臨的巨大成本、風(fēng)險和時間壓力。通過同時解決“為 AI 構(gòu)建什么”(架構(gòu)挑戰(zhàn))和“如何在 3 納米上構(gòu)建”(實現(xiàn)挑戰(zhàn))兩大難題,Arm 正在成為未來十年移動和消費電子領(lǐng)域不可或缺的核心伙伴,而 Lumex CSS 平臺,正是下一代智能設(shè)備賴以構(gòu)建的堅固基石。
關(guān)于我們|版權(quán)聲明| 違法和不良信息舉報電話:010-84151598 | 網(wǎng)絡(luò)敲詐和有償刪帖舉報電話:010-84151598
Copyright ? 2008-2024 by {當(dāng)前域名}. all rights reserved