Arm Lumex 計算子系統(tǒng)平臺解讀：端側(cè)AI時代“異構(gòu)協(xié)同”新基石

來源：福壽康寧網(wǎng)-工人日報

2025-09-20 23:17:53

9 月 10 日，Arm 在 Arm Unlocked 2025 峰會上正式推出了全新 Arm Lumex 計算子系統(tǒng)（Compute Subsystem, CSS）平臺，這款專為旗艦級智能手機及下一代個人電腦打造的先進計算平臺，核心目標(biāo)是加速設(shè)備端人工智能（AI）體驗。

據(jù) Arm 官方介紹，Lumex CSS 平臺集成了搭載第二代可伸縮矩陣擴展（SME2）技術(shù)的高性能 Arm CPU、GPU 及系統(tǒng) IP，不僅能幫助生態(tài)伙伴縮短 AI 設(shè)備上市周期，還可支持桌面級移動游戲、實時翻譯、智能助手等多樣化場景，為消費電子設(shè)備注入“更智能、更高效、更個性化”的能力。

Lumex 平臺的核心組件包括：搭載第二代可伸縮矩陣擴展（SME2）技術(shù)的全新 Armv9.3 CPU 集群、配備新一代光線追蹤技術(shù)的 Arm Mali G1-Ultra GPU、高效的系統(tǒng) IP 以及針對 3 納米工藝節(jié)點優(yōu)化的物理實現(xiàn)方案。

這一高度集成的平臺化交付模式，為 Arm 的合作伙伴提供了前所未有的靈活性。他們既可以直接采用 Arm 交付的、經(jīng)過先進物理實現(xiàn)方案優(yōu)化的平臺，以縮短產(chǎn)品上市時間；也可以根據(jù)自身目標(biāo)市場的需求，對平臺的寄存器傳輸級（RTL）設(shè)計進行配置，并自行完成核心模塊的硬化工作。

Arm 在發(fā)布會上公布了引人注目的性能指標(biāo)：依托全新的 SME2 技術(shù)，CPU 的 AI 性能實現(xiàn)了高達五倍的提升；而全新的 GPU 則帶來了兩倍的光線追蹤性能飛躍。

這些數(shù)字背后，是 Arm 對于未來計算架構(gòu)的深刻思考，以及其在日益復(fù)雜的芯片設(shè)計挑戰(zhàn)下，為整個生態(tài)系統(tǒng)提供的戰(zhàn)略性解決方案。

而就在 9 月 10 日下午，Arm 還舉辦了針對 Arm Lumex 計算子系統(tǒng)專門的技術(shù)分享活動，IT之家也受邀參加，下面就讓我們看看 Arm Lumex 計算子系統(tǒng)具體有哪些細(xì)節(jié)上的技術(shù)創(chuàng)新。

重塑計算核心：SME2 技術(shù)驅(qū)動的 C1 CPU 集群

Arm Lumex CSS 平臺的心臟是其全新的 C1 CPU 集群。此次更新的最大亮點，并非僅僅是常規(guī)的單線程性能提升，而是通過戰(zhàn)略性地集成第二代可伸縮矩陣擴展（SME2）技術(shù)，重新定義了 CPU 在異構(gòu) AI 計算環(huán)境中的角色。

SME2：為低延遲 AI 任務(wù)而生的新范式

C1 CPU 集群是首個基于 Armv9.3 架構(gòu)并原生集成 SME2 技術(shù)的 CPU 系列。這項技術(shù)為端側(cè) AI 帶來了革命性的突破，在同等條件下，相比上一代 CPU 集群，其 AI 性能提速高達五倍，同時能效優(yōu)化多達三倍。

在實際應(yīng)用中，這些宏觀的數(shù)字提升可以轉(zhuǎn)化為用戶可感知的體驗飛躍。例如，在處理語音工作負(fù)載時（基于 Whisper Base 模型），延遲降低了 4.7 倍；在運行 Google Gemma 3 模型進行聊天交互時，AI 性能可增長 4.7 倍；而在使用 Stability AI Stable Audio 模型生成音頻時，速度提升了 2.8 倍。

然而，SME2 的戰(zhàn)略意義遠(yuǎn)不止于此。在媒體問答環(huán)節(jié)，Arm 高管透露，SME2 技術(shù)可為 CPU 提供額外的 2 到 6 TOPS 算力。這個數(shù)字與動輒宣稱上百 TOPS 的專用 NPU 相比似乎微不足道，但這恰恰揭示了 Arm 的深層戰(zhàn)略。許多現(xiàn)實世界中的 AI 工作負(fù)載，如語音喚醒、圖像預(yù)處理或?qū)崟r情境感知助手，其瓶頸在于內(nèi)存帶寬而非純粹的計算能力。一個擁有百 TOPS 算力的 NPU，如果因等待數(shù)據(jù)而閑置，其峰值性能便毫無意義。

CPU 憑借其對系統(tǒng)緩存和內(nèi)存的低延遲直接訪問能力，在處理這些規(guī)模小、觸發(fā)頻繁且對延遲極其敏感的任務(wù)時，效率遠(yuǎn)高于啟動一個高功耗的 NPU。因此，Arm 并非試圖用 CPU 取代 NPU，而是在構(gòu)建一個更精細(xì)化的三級異構(gòu)計算體系：

搭載 SME2 的 CPU：負(fù)責(zé)處理“持續(xù)在線、低延遲”的小模型任務(wù)。

GPU：負(fù)責(zé)處理與圖形渲染相結(jié)合的大規(guī)模并行 AI 任務(wù)。

NPU：負(fù)責(zé)處理高吞吐量、計算密集型的大模型推理任務(wù)。

這是一種基于工作負(fù)載特性進行精細(xì)化處理器優(yōu)化的成熟策略，而非單純追求峰值算力的“軍備競賽”。SME2 的引入，為系統(tǒng)增加了一個全新的、高效且靈活的 AI 計算層級。

C1 CPU 家族：精準(zhǔn)定位，全面覆蓋

為了滿足從旗艦到入門級市場的不同需求，Arm 推出了分工明確的 C1 CPU 系列，所有核心均可通過全新的 Arm C1-DSU（DynamIQ Shared Unit）進行多達 14 個核心的靈活組合。該 DSU 本身也經(jīng)過優(yōu)化，與上一代 DSU-120 相比，功耗節(jié)省高達 26%。

Arm C1-Ultra 作為旗艦核心，延續(xù)了 Arm 連續(xù)六年實現(xiàn)兩位數(shù) IPC（每時鐘周期指令數(shù)）增長的勢頭，其單線程峰值性能相較于上一代的 Cortex-X925 提升高達 25%。這得益于其業(yè)界領(lǐng)先的前端設(shè)計、業(yè)內(nèi)最寬的微架構(gòu)以及出色的預(yù)取器優(yōu)化。

Arm C1-Premium 是 Arm 首次推出的次旗艦處理器。其核心創(chuàng)新在于卓越的面積效率，在 SPEC 等基準(zhǔn)測試中保持了與 C1-Ultra 相當(dāng)?shù)男阅芩?，但其核心面積（包含私有 L2 緩存）卻縮小了 35%，為次旗艦 SoC 設(shè)計提供了更優(yōu)的成本與性能平衡點。

Arm C1-Pro 則聚焦于持續(xù)能效表現(xiàn)。與 Cortex-A725 相比，它在相同主頻下的持續(xù)性能提升了 16%，而在視頻播放、社交媒體等日常應(yīng)用中，同等性能下的能效提高了 12%。

Arm C1-Nano 追求極致的能耗和面積效率，相比 Cortex-A520，其能效提升了 26%，同時核心面積還縮小了 2%，是可穿戴設(shè)備和緊湊型消費電子的理想選擇。

融合真實與智能：Mali G1-Ultra GPU 的深度解析

在 Arm Lumex CSS 平臺的圖形與 AI 推理環(huán)節(jié)，全新 Arm Mali G1-Ultra GPU 扮演著核心角色。

作為 Arm 迄今為止性能最強的移動 GPU，Mali G1-Ultra 不僅延續(xù)了 Arm 在手游領(lǐng)域的優(yōu)勢（截至目前，搭載 Arm GPU 的芯片出貨量已逾 120 億顆），更通過新一代光線追蹤技術(shù)與 AI 加速設(shè)計，將移動設(shè)備的圖形體驗推向桌面級水準(zhǔn)，同時強化了端側(cè) AI 推理能力。

從核心技術(shù)升級來看，Mali G1-Ultra 的突破集中在第二代光線追蹤單元（RTUv2）、AI 加速指令與架構(gòu)優(yōu)化三大方面。

其中，RTUv2 作為專為移動端實時性能設(shè)計的硬件單元，較上一代 Immortalis-G925 GPU 的 RTUv1 實現(xiàn)了兩倍光線追蹤性能提升，且采用單光線模型與獨立電源域設(shè)計 —— 獨立電源域可在設(shè)備空閑時為 RTUv2 斷電，進一步節(jié)省功耗；單光線模型則大幅增強了對非一致性光線的支持，使移動設(shè)備能呈現(xiàn)桌面級的光照、反射與陰影效果。

在實際游戲測試中，Mali G1-Ultra 的表現(xiàn)尤為突出：《暗區(qū)突圍》性能提升 25%，《崩壞：星穹鐵道》提升 19%，《原神》提升 17%，《堡壘之夜》提升 11%，而在 Arm 內(nèi)部游戲演示《Mori 林間鼯語》中，性能提升更是達到 26%。此外，在啟用硬件光線追蹤的游戲中，Mali G1-Ultra 的幀率較上一代提升 40%，徹底改變了移動設(shè)備“光追性能不足”的現(xiàn)狀。

在 AI 加速方面，Mali G1-Ultra 引入了新的矩陣乘法單元（MMUL）FP16 指令，專門針對語義分割、去噪、深度估計、物體檢測等端側(cè)關(guān)鍵 AI 工作負(fù)載優(yōu)化，較上一代 Immortalis-G925 GPU，AI 與機器學(xué)習(xí)網(wǎng)絡(luò)推理速度提升 20%，部分場景性能提升甚至高達 104%。

同時，通過擴大 L2 緩存與優(yōu)化互連設(shè)計，Mali G1-Ultra 實現(xiàn)了 AI 與圖形工作負(fù)載的并行處理，大幅減少內(nèi)存瓶頸，確保實時 AI 應(yīng)用（如計算攝影、AI 濾鏡）的流暢運行。

架構(gòu)層面，Mali G1-Ultra 作為 Arm 第五代 GPU 架構(gòu)的代表，引入了雙堆疊著色器核心與快速訪問統(tǒng)一寄存器設(shè)計：雙堆疊著色器核心使內(nèi)部帶寬加倍，減少了數(shù)據(jù)擁塞；快速訪問統(tǒng)一寄存器則在著色器執(zhí)行期間大幅減少內(nèi)存提取，顯著提升了實時光照、基于物理渲染等計算密集型工作負(fù)載的響應(yīng)速度。此外，新增的 Arm 圖像區(qū)域依賴（IRD）調(diào)度特性，可讓 GPU 同時處理屏幕不同部分，在復(fù)雜場景中減少空閑時間、提升性能。

為滿足不同設(shè)備層級的需求，Arm 同時推出了 Mali G1-Premium 與 Mali G1-Pro GPU，與 G1-Ultra 共同構(gòu)成 Mali G1 系列。該系列提供 1-24 個著色器核心選項，系統(tǒng)級芯片（SoC）設(shè)計商可根據(jù)目標(biāo)市場（從旗艦手機到中端設(shè)備）靈活配置，實現(xiàn)性能與成本的平衡。

在開發(fā)者工具層面，Mali G1 系列通過基于塊（tile）的硬件計數(shù)器提供更強的可觀測性，開發(fā)者可通過 Vulkan 擴展訪問這些計數(shù)器，未來安卓版本還將支持 RenderDoc，便于精準(zhǔn)識別性能熱點、平衡工作負(fù)載。

同時，Mali G1 系列支持 Arm 精銳超級分辨率技術(shù)（Arm ASR），該時域類超分技術(shù)已集成至虛幻引擎 5 與《堡壘之夜》手游，可在減少 GPU 工作負(fù)載的同時提升圖像質(zhì)量，幫助開發(fā)者在保持高幀率的前提下，實現(xiàn)更清晰的視覺細(xì)節(jié)。

不久前，ARM 還宣布了一項名為“Arm 神經(jīng)技術(shù)”（Arm Neural Technology），這項技術(shù)將專用神經(jīng)加速器引入 2026 年推出的 Arm GPU 上。在本次技術(shù)分享會上，Arm 也提到了這項未來技術(shù)，它將是一個可編程的、基于 AI 的硬件模塊，專門用于處理超級采樣、降噪等任務(wù)。

這揭示了一條清晰的路線圖：首先通過軟件方案（ASR）構(gòu)建生態(tài)、驗證概念，未來再通過專用硬件實現(xiàn)性能和能效的巨大飛躍。這與桌面 GPU 領(lǐng)域從通用渲染到引入專用 Tensor Core 的演進路徑如出一轍，可見 Arm 正在為移動端的下一波 AI 原生圖形技術(shù)浪潮鋪平道路。

無形的引擎：軟件生態(tài)如何釋放 Lumex 的全部潛能

Lumex 平臺的硬件進步固然令人矚目，但其真正的潛力釋放，還離不開一個強大且經(jīng)過精心構(gòu)建的軟件生態(tài)系統(tǒng)。這個生態(tài)的核心是 Arm KleidiAI 軟件庫?？梢哉f，軟件是 Arm 確保其硬件創(chuàng)新能夠被開發(fā)者即時、廣泛采納的戰(zhàn)略性工具。

KleidiAI 是一個免費的軟件庫，其核心價值在于，它能讓開發(fā)者在無需修改任何代碼的情況下，無縫利用 SME2 等硬件的加速能力。

它通過深度集成到所有主流 AI 框架中來實現(xiàn)這一點，包括 PyTorch ExecuTorch、Google LiteRT、阿里巴巴 MNN 以及微軟 ONNX Runtime。當(dāng)開發(fā)者使用這些框架構(gòu)建應(yīng)用時，其 AI 工作負(fù)載就能在兼容的硬件上自動獲得加速。

這一策略的成功，從數(shù)據(jù)上可見一斑。目前，KleidiAI 在搭載 Arm 架構(gòu)的設(shè)備上累計安裝量已超過 80 億次，并且仍在持續(xù)增長中，這證明了其在開發(fā)者社區(qū)中的高度認(rèn)可和廣泛采納。

此外 Arm 還為不同操作系統(tǒng)提供了清晰的 AI 加速路徑：

在安卓平臺，加速主要通過 Kleidi 集成到 Google 的 XNNPack 庫中實現(xiàn)，而 XNNPack 是 LiteRT 的核心運行時。這意味著數(shù)以千計使用標(biāo)準(zhǔn) Google ML 工具的安卓應(yīng)用將自動獲得性能提升。

在 Windows on Arm 平臺，主要路徑則是通過 ONNX Runtime 框架，該框架為 Copilot、Office 365 等核心應(yīng)用的 AI 功能提供動力。

這種對開發(fā)者生態(tài)的深度支持，解決了新硬件推廣時常遇到的“雞生蛋，蛋生雞”的難題。KleidiAI 提供了一個從 Armv8 的 Neon 指令集到 Armv9 的 SME2 的向上兼容性，創(chuàng)建了一個穩(wěn)定、統(tǒng)一的軟件抽象層。

開發(fā)者只需面向高層框架開發(fā)一次，KleidiAI 便會自動在不同設(shè)備上選擇最優(yōu)的執(zhí)行路徑。這極大地降低了開發(fā)門檻，并確保當(dāng)消費者購買一臺搭載 Lumex 平臺的手機時，已有海量應(yīng)用能夠立即發(fā)揮其強大性能。

結(jié)語

總體來說，Arm Lumex CSS 平臺的發(fā)布，遠(yuǎn)不止是一次硬件的迭代更新。它是 Arm 從 IP 授權(quán)商向平臺提供商戰(zhàn)略演進的集中體現(xiàn)，也是其為應(yīng)對當(dāng)前半導(dǎo)體行業(yè)關(guān)于端側(cè) AI 的指數(shù)級增長和前沿工藝制造的巨大復(fù)雜性這兩大核心挑戰(zhàn)所給出的明確答案。

通過 C1 CPU 集群和 SME2 技術(shù)，Arm 重新劃分了異構(gòu)計算中各處理單元的職責(zé)，為低延遲 AI 任務(wù)開辟了高效的新路徑。通過 Mali G1-Ultra 和 RTUv2，它將移動游戲的視覺體驗提升至新的高度，并為 AI 與圖形的深度融合奠定了基礎(chǔ)。而通過 KleidiAI 軟件生態(tài)，它確保了這些強大的硬件能力能夠被開發(fā)者輕松、快速地轉(zhuǎn)化為豐富的用戶體驗。

將所有這些創(chuàng)新整合在一個經(jīng)過 3 納米工藝優(yōu)化的、預(yù)驗證的“計算子系統(tǒng)”中進行交付，這本身就是一項關(guān)鍵創(chuàng)新。

它直接解決了芯片設(shè)計合作伙伴在轉(zhuǎn)向先進工藝節(jié)點時所面臨的巨大成本、風(fēng)險和時間壓力。通過同時解決“為 AI 構(gòu)建什么”（架構(gòu)挑戰(zhàn)）和“如何在 3 納米上構(gòu)建”（實現(xiàn)挑戰(zhàn)）兩大難題，Arm 正在成為未來十年移動和消費電子領(lǐng)域不可或缺的核心伙伴，而 Lumex CSS 平臺，正是下一代智能設(shè)備賴以構(gòu)建的堅固基石。

責(zé)任編輯：福壽康寧網(wǎng)