英偉達下一代GPU,Rubin CPX一次推理數(shù)百萬Token,網(wǎng)友:這是頭野獸
機器之心報道
機器之心編輯部
在周二的 AI 基礎(chǔ)設(shè)施峰會上,英偉達宣布推出一款名為Rubin CPX(Rubin Context GPUs)的新 GPU,專為超過 100 萬 token 的長上下文推理而設(shè)計。
對用戶而言,這意味著他們在軟件開發(fā)、視頻生成等長上下文任務(wù)中能夠獲得更好的性能。
例如,在軟件開發(fā)中,AI 系統(tǒng)必須能夠?qū)φ麄€代碼庫進行推理、理解倉庫級代碼結(jié)構(gòu),才能更好的幫助開發(fā)者。同樣地,長視頻和研究類應(yīng)用也要求在數(shù)百萬 token 范圍內(nèi)保持持續(xù)的連貫性和記憶。
現(xiàn)在,隨著 Rubin CPX 發(fā)布,這些問題都能迎刃而解。
這款新型 GPU(Rubin CPX) 將與 NVIDIA Vera CPU 和 Rubin GPU 搭配使用,共同組成全新的 NVIDIA Vera Rubin NVL144 CPX 平臺。這一集成式 NVIDIA MGX 系統(tǒng)在單機架內(nèi)可提供 8 exaflops AI 算力,其 AI 性能是 NVIDIA GB300 NVL72 系統(tǒng)的 7.5 倍,并配備 100TB 高速內(nèi)存和 1.7 PB/s(petabytes)內(nèi)存帶寬。
同時,NVIDIA 還將為已有 Vera Rubin NVL144 系統(tǒng)的客戶提供 Rubin CPX 專用計算托盤,以便在現(xiàn)有平臺基礎(chǔ)上進行復(fù)用。
NVIDIA Vera Rubin NVL144 CPX 機架與計算托盤,配備 Rubin CPX、Rubin GPU 和 Vera CPU
NVIDIA 創(chuàng)始人兼首席執(zhí)行官黃仁勛表示:Vera Rubin 平臺將標志著 AI 計算前沿的又一次飛躍,它不僅引入了下一代 Rubin GPU,還帶來了一類全新的處理器 CPX。正如 RTX 曾經(jīng)徹底改變圖形處理和物理 AI 一樣,Rubin CPX 是首款專為大規(guī)模上下文打造的 CUDA GPU,使模型能夠一次性在數(shù)百萬 token 的知識范圍內(nèi)進行推理。
對于這款新的 GPU,很多人認為這將會改變創(chuàng)作者的游戲規(guī)則。
Rubin CPX 技術(shù)突破
眾所周知,大模型正逐步演變?yōu)榫邆涠嗖酵评?、持久記憶和長上下文能力的智能體系統(tǒng),使其能夠勝任軟件開發(fā)、視頻生成與深度研究等復(fù)雜任務(wù)。
但這些工作負載對基礎(chǔ)設(shè)施提出了前所未有的要求,在計算、存儲和網(wǎng)絡(luò)方面帶來了全新挑戰(zhàn),迫切需要從根本上重新思考推理的規(guī)?;c優(yōu)化方式。
為此,英偉達 SMART 框架提供了一條可行方案。該框架強調(diào)采用全棧解耦式基礎(chǔ)設(shè)施,實現(xiàn)計算與內(nèi)存資源的高效調(diào)配。通過 Blackwell 架構(gòu) GB200 NVL72 平臺與 NVFP4 低精度推理技術(shù)的結(jié)合,輔以 TensorRT-LLM、Dynamo 等開源軟件,使得整個 AI 領(lǐng)域的推理性能大大提升。
另一方面,推理過程包含兩個截然不同的階段:上下文處理與內(nèi)容生成,每個階段對基礎(chǔ)設(shè)施的需求存在本質(zhì)差異。
上下文階段屬于計算密集型,需要高吞吐量處理能力來攝入和分析海量輸入數(shù)據(jù),以產(chǎn)生首個輸出 token。
相比之下,生成階段則受限于內(nèi)存帶寬,依賴 NVLink 等高速互連技術(shù)實現(xiàn)快速內(nèi)存?zhèn)鬏?,以維持逐 token 輸出的性能表現(xiàn)。
解耦式推理架構(gòu)使這兩個階段能夠獨立處理,實現(xiàn)對計算與內(nèi)存資源的精準優(yōu)化。這種架構(gòu)變革顯著提升了系統(tǒng)吞吐量,降低了延遲,并全面提高資源利用率。
然而,解耦式架構(gòu)也帶來了新的復(fù)雜性,需要在低延遲 KV 緩存?zhèn)鬏敗LM 感知路由以及高效內(nèi)存管理之間實現(xiàn)精確協(xié)調(diào)。
NVIDIA Dynamo(一個開源、低延遲的模塊化推理框架) 作為這些組件的編排層,在最新的 MLPerf Inference 結(jié)果中發(fā)揮了關(guān)鍵作用。借助 Dynamo 在 GB200 NVL72 上的解耦推理,創(chuàng)造了新的性能紀錄。
為了充分發(fā)揮解耦推理的優(yōu)勢,尤其是在算力密集的上下文階段。
正是在這樣的背景下,NVIDIA 推出了 Rubin CPX GPU:專為高價值長上下文推理工作負載設(shè)計的解決方案,能夠提供高吞吐性能,并與解耦式基礎(chǔ)設(shè)施實現(xiàn)無縫集成。
在技術(shù)上,基于 NVIDIA Rubin 架構(gòu),Rubin CPX GPU 采用了具備高性價比的單片設(shè)計,內(nèi)置強大的 NVFP4 計算資源,并針對 AI 推理任務(wù)進行了優(yōu)化,以實現(xiàn)極高的性能與能效表現(xiàn)。
具體而言,Rubin CPX 采用NVFP4精度,可提供高達30 petaflops算力,在性能與精度上均達到業(yè)界領(lǐng)先水平,并配備 128GB 高性價比GDDR7 內(nèi)存,能夠加速最苛刻的上下文計算任務(wù)。此外,與 NVIDIA GB300 NVL72 系統(tǒng)相比,Rubin CPX 的注意力處理能力提升了 3 倍,顯著增強了 AI 模型在長上下文序列處理中的速度與穩(wěn)定性。
隨著 Rubin CPX 的官宣,業(yè)界也是好評連連。Cursor 首席執(zhí)行官 Michael Truell 表示:借助 NVIDIA Rubin CPX,Cursor 將能夠?qū)崿F(xiàn)極速代碼生成和深度開發(fā)者洞察,從而重塑軟件創(chuàng)作方式。這將釋放前所未有的生產(chǎn)力水平,賦能用戶將曾經(jīng)遙不可及的創(chuàng)意快速實現(xiàn)。
Runway 首席執(zhí)行官 Cristóbal Valenzuela 表示:視頻生成正快速邁向更長上下文和更靈活的智能體驅(qū)動創(chuàng)作流程。我們認為 Rubin CPX 在性能上的飛躍,將為這些高強度任務(wù)提供有力支持,從而構(gòu)建更通用、更智能的創(chuàng)意工具。這意味著,從獨立藝術(shù)家到大型工作室,創(chuàng)作者都能在工作中獲得前所未有的速度、真實感和掌控力。
最后,NVIDIA Rubin CPX 預(yù)計將于2026 年底上市,大家再等等。
https://nvidianews.nvidia.com/news/nvidia-unveils-rubin-cpx-a-new-class-of-gpu-designed-for-massive-context-inference
https://developer.nvidia.com/blog/nvidia-rubin-cpx-accelerates-inference-performance-and-efficiency-for-1m-token-context-workloads/