海南2025-09-20 17:15:426956

英偉達下一代GPU,Rubin CPX一次推理數(shù)百萬Token,網(wǎng)友：這是頭野獸

機器之心報道

機器之心編輯部

在周二的 AI 基礎(chǔ)設(shè)施峰會上，英偉達宣布推出一款名為Rubin CPX（Rubin Context GPUs）的新 GPU，專為超過 100 萬 token 的長上下文推理而設(shè)計。

對用戶而言，這意味著他們在軟件開發(fā)、視頻生成等長上下文任務(wù)中能夠獲得更好的性能。

例如，在軟件開發(fā)中，AI 系統(tǒng)必須能夠?qū)φ麄€代碼庫進行推理、理解倉庫級代碼結(jié)構(gòu)，才能更好的幫助開發(fā)者。同樣地，長視頻和研究類應(yīng)用也要求在數(shù)百萬 token 范圍內(nèi)保持持續(xù)的連貫性和記憶。

現(xiàn)在，隨著 Rubin CPX 發(fā)布，這些問題都能迎刃而解。

這款新型 GPU（Rubin CPX）將與 NVIDIA Vera CPU 和 Rubin GPU 搭配使用，共同組成全新的 NVIDIA Vera Rubin NVL144 CPX 平臺。這一集成式 NVIDIA MGX 系統(tǒng)在單機架內(nèi)可提供 8 exaflops AI 算力，其 AI 性能是 NVIDIA GB300 NVL72 系統(tǒng)的 7.5 倍，并配備 100TB 高速內(nèi)存和 1.7 PB/s（petabytes）內(nèi)存帶寬。

同時，NVIDIA 還將為已有 Vera Rubin NVL144 系統(tǒng)的客戶提供 Rubin CPX 專用計算托盤，以便在現(xiàn)有平臺基礎(chǔ)上進行復(fù)用。

NVIDIA Vera Rubin NVL144 CPX 機架與計算托盤，配備 Rubin CPX、Rubin GPU 和 Vera CPU

NVIDIA 創(chuàng)始人兼首席執(zhí)行官黃仁勛表示：Vera Rubin 平臺將標志著 AI 計算前沿的又一次飛躍，它不僅引入了下一代 Rubin GPU，還帶來了一類全新的處理器 CPX。正如 RTX 曾經(jīng)徹底改變圖形處理和物理 AI 一樣，Rubin CPX 是首款專為大規(guī)模上下文打造的 CUDA GPU，使模型能夠一次性在數(shù)百萬 token 的知識范圍內(nèi)進行推理。

對于這款新的 GPU，很多人認為這將會改變創(chuàng)作者的游戲規(guī)則。

Rubin CPX 技術(shù)突破

眾所周知，大模型正逐步演變?yōu)榫邆涠嗖酵评?、持久記憶和長上下文能力的智能體系統(tǒng)，使其能夠勝任軟件開發(fā)、視頻生成與深度研究等復(fù)雜任務(wù)。

但這些工作負載對基礎(chǔ)設(shè)施提出了前所未有的要求，在計算、存儲和網(wǎng)絡(luò)方面帶來了全新挑戰(zhàn)，迫切需要從根本上重新思考推理的規(guī)?；c優(yōu)化方式。

為此，英偉達 SMART 框架提供了一條可行方案。該框架強調(diào)采用全棧解耦式基礎(chǔ)設(shè)施，實現(xiàn)計算與內(nèi)存資源的高效調(diào)配。通過 Blackwell 架構(gòu) GB200 NVL72 平臺與 NVFP4 低精度推理技術(shù)的結(jié)合，輔以 TensorRT-LLM、Dynamo 等開源軟件，使得整個 AI 領(lǐng)域的推理性能大大提升。

另一方面，推理過程包含兩個截然不同的階段：上下文處理與內(nèi)容生成，每個階段對基礎(chǔ)設(shè)施的需求存在本質(zhì)差異。

上下文階段屬于計算密集型，需要高吞吐量處理能力來攝入和分析海量輸入數(shù)據(jù)，以產(chǎn)生首個輸出 token。

相比之下，生成階段則受限于內(nèi)存帶寬，依賴 NVLink 等高速互連技術(shù)實現(xiàn)快速內(nèi)存?zhèn)鬏?，以維持逐 token 輸出的性能表現(xiàn)。

解耦式推理架構(gòu)使這兩個階段能夠獨立處理，實現(xiàn)對計算與內(nèi)存資源的精準優(yōu)化。這種架構(gòu)變革顯著提升了系統(tǒng)吞吐量，降低了延遲，并全面提高資源利用率。

然而，解耦式架構(gòu)也帶來了新的復(fù)雜性，需要在低延遲 KV 緩存?zhèn)鬏敗LM 感知路由以及高效內(nèi)存管理之間實現(xiàn)精確協(xié)調(diào)。

NVIDIA Dynamo（一個開源、低延遲的模塊化推理框架）作為這些組件的編排層，在最新的 MLPerf Inference 結(jié)果中發(fā)揮了關(guān)鍵作用。借助 Dynamo 在 GB200 NVL72 上的解耦推理，創(chuàng)造了新的性能紀錄。

為了充分發(fā)揮解耦推理的優(yōu)勢，尤其是在算力密集的上下文階段。

正是在這樣的背景下，NVIDIA 推出了 Rubin CPX GPU：專為高價值長上下文推理工作負載設(shè)計的解決方案，能夠提供高吞吐性能，并與解耦式基礎(chǔ)設(shè)施實現(xiàn)無縫集成。

在技術(shù)上，基于 NVIDIA Rubin 架構(gòu)，Rubin CPX GPU 采用了具備高性價比的單片設(shè)計，內(nèi)置強大的 NVFP4 計算資源，并針對 AI 推理任務(wù)進行了優(yōu)化，以實現(xiàn)極高的性能與能效表現(xiàn)。

具體而言，Rubin CPX 采用NVFP4精度，可提供高達30 petaflops算力，在性能與精度上均達到業(yè)界領(lǐng)先水平，并配備 128GB 高性價比GDDR7 內(nèi)存，能夠加速最苛刻的上下文計算任務(wù)。此外，與 NVIDIA GB300 NVL72 系統(tǒng)相比，Rubin CPX 的注意力處理能力提升了 3 倍，顯著增強了 AI 模型在長上下文序列處理中的速度與穩(wěn)定性。

隨著 Rubin CPX 的官宣，業(yè)界也是好評連連。Cursor 首席執(zhí)行官 Michael Truell 表示：借助 NVIDIA Rubin CPX，Cursor 將能夠?qū)崿F(xiàn)極速代碼生成和深度開發(fā)者洞察，從而重塑軟件創(chuàng)作方式。這將釋放前所未有的生產(chǎn)力水平，賦能用戶將曾經(jīng)遙不可及的創(chuàng)意快速實現(xiàn)。

Runway 首席執(zhí)行官 Cristóbal Valenzuela 表示：視頻生成正快速邁向更長上下文和更靈活的智能體驅(qū)動創(chuàng)作流程。我們認為 Rubin CPX 在性能上的飛躍，將為這些高強度任務(wù)提供有力支持，從而構(gòu)建更通用、更智能的創(chuàng)意工具。這意味著，從獨立藝術(shù)家到大型工作室，創(chuàng)作者都能在工作中獲得前所未有的速度、真實感和掌控力。

最后，NVIDIA Rubin CPX 預(yù)計將于2026 年底上市，大家再等等。

https://nvidianews.nvidia.com/news/nvidia-unveils-rubin-cpx-a-new-class-of-gpu-designed-for-massive-context-inference

https://developer.nvidia.com/blog/nvidia-rubin-cpx-accelerates-inference-performance-and-efficiency-for-1m-token-context-workloads/

海南