剛剛,英偉達(dá)祭出下一代GPU!狂飆百萬token巨獸,投1億爆賺50億
新智元報(bào)道
編輯:元宇
【新智元導(dǎo)讀】昨天,英偉達(dá)重磅發(fā)布了專為海量上下文AI打造的CUDA GPU——Rubin CPX,將大模型一次性推理帶入「百萬Token時(shí)代」。NVIDIA創(chuàng)始人兼CEO黃仁勛表示,Vera Rubin平臺(tái)將再次推動(dòng)AI計(jì)算的前沿,不僅帶來下一代Rubin GPU,也將開創(chuàng)一個(gè)CPX的全新處理器類別。
「百萬Token怪獸」出世!
昨天,NVIDIA突放大招,推出了Rubin CPX,這是一款專為大規(guī)模上下文推理而設(shè)計(jì)的全新GPU。
它的性能,是Vera Rubin NVL144平臺(tái)的2倍多,是基于Blackwell Ultra的GB300 NVL72機(jī)架式系統(tǒng)的7.5倍!
它具有單機(jī)架8 EFLOPS的NVFP4計(jì)算力、100TB高速內(nèi)存與1.7 PB/s的內(nèi)存帶寬、128GB的高性價(jià)比GDDR7顯存。
相比較NVIDIA GB300 NVL72系統(tǒng),Rubin CPX帶來了3倍的注意力機(jī)制處理能力。
性能巨獸,在變現(xiàn)能力上更是不容小覷。
每投入1億美元,最高可以帶來50億美元的Token收入!
Rubin CPX
開創(chuàng)CPX全新處理器類別
Rubin CPX基于Rubin架構(gòu)構(gòu)建,是首款專為海量上下文AI打造的CUDA GPU,能夠在同一時(shí)間推理跨越數(shù)百萬個(gè)知識(shí)標(biāo)記的模型。
可以說,Rubin CPX是專為破解AI「長上下文」瓶頸而生的「特種兵」。
它的出現(xiàn),為AI帶來了百萬Token級(jí)推理場景下的性能和效率的新突破。
依托于全新的NVIDIA Vera Rubin NVL144 CPX平臺(tái),Rubin CPX與NVIDIA Vera CPU和Rubin GPU緊密協(xié)同,可以支持多步推理、持久化記憶與長時(shí)程上下文,這讓它在面對(duì)軟件開發(fā)、視頻生成、深度研究等領(lǐng)域的復(fù)雜任務(wù)時(shí),更加游刃有余。
這也意味著在Rubin CPX的最新加持下,AI編碼將從簡單的代碼生成工具,升級(jí)為能夠理解并優(yōu)化大規(guī)模軟件項(xiàng)目的復(fù)雜系統(tǒng)。
同樣,它還可以滿足長視頻與研究類應(yīng)用領(lǐng)域,在數(shù)百萬Token級(jí)別上保持持續(xù)一致性與記憶的需求。
這些需求,都在逼近當(dāng)前基礎(chǔ)設(shè)施的極限。
NVIDIA創(chuàng)始人兼CEO黃仁勛表示,Vera Rubin平臺(tái)將再次推動(dòng)AI計(jì)算的前沿,也將開創(chuàng)一個(gè)CPX的全新處理器類別。
「正如RTX顛覆了圖形與物理AI一樣,Rubin CPX是首個(gè)專為海量上下文AI打造的CUDA GPU,模型能夠一次性跨越數(shù)百萬個(gè)Token的知識(shí)進(jìn)行推理?!?/p>
目前,Cursor、Runway和Magic等AI先鋒企業(yè),正在積極探索Rubin CPX在應(yīng)用加速上的新可能。
30-50倍ROI
重寫推理經(jīng)濟(jì)
Rubin CPX通過解耦式推理創(chuàng)新,可以企業(yè)帶來30-50倍ROI,重寫推理經(jīng)濟(jì)。
大模型的推理,主要分為上下文和生成兩個(gè)階段。
它們對(duì)于基礎(chǔ)設(shè)施的要求,也存在著本質(zhì)性的差異。
上下文階段,以計(jì)算受限為主,需要高吞吐處理來攝取并分析海量輸入數(shù)據(jù),以產(chǎn)出第一個(gè)Token的輸出結(jié)果。
而生成階段,則以內(nèi)存帶寬受限為主,依賴快速的內(nèi)存?zhèn)鬏斉c高速互聯(lián)(如NVLink)來維持逐Token的輸出性能。
解耦式推理,可以讓這兩個(gè)階段獨(dú)立處理,從而更加針對(duì)性地優(yōu)化算力與內(nèi)存資源,提升吞吐,降低時(shí)延,增強(qiáng)整體資源的利用率。
但解耦式推理,也帶來了新的復(fù)雜性層次,需要在低時(shí)延KV緩存?zhèn)鬏?、面向大模型感知的路由,以及高效?nèi)存管理之間進(jìn)行精確協(xié)調(diào)。
這離不開NVIDIA Dynamo,它作為以上組件的編排層,發(fā)揮著關(guān)鍵作用。
Rubin CPX是專為大語言模型(尤其是百萬Token上下文)推理設(shè)計(jì)的「專用加速器」。
Rubin CPX與NVIDIA Vera CPU ,以及用于生成階段處理的Rubin GPU協(xié)同工作,共同形成了面對(duì)長上下文場景的完整的高性能解耦式服務(wù)方案。
CPX的推出,標(biāo)志著解耦式推理基礎(chǔ)設(shè)施的最新進(jìn)化,也樹立了推理經(jīng)濟(jì)的新標(biāo)桿。
在規(guī)?;瘓鼍跋拢琋VIDIA Vera Rubin NVL144 CPX平臺(tái),可帶來30–50x的投資回報(bào)(ROI)。
這意味著1億美元的資本性支出(CAPEX),最高可轉(zhuǎn)化為50億美元的收入。
百萬Token怪獸
重新定義下一代AI應(yīng)用
Vera Rubin NVL144 CPX平臺(tái),重新定義了企業(yè)構(gòu)建下一代生成式AI應(yīng)用的可能性。
NVIDIA Vera Rubin NVL144 CPX機(jī)架與托盤,配備Rubin上下文GPU(Rubin CPX)、Rubin GPU與 Vera CPU
Rubin CPX與NVIDIA Vera CPU、Rubin GPU,共同集成在全新的NVIDIA Vera Rubin NVL144 CPX平臺(tái)內(nèi)。
NVIDIA Vera Rubin NVL144 CPX平臺(tái),采用最新GPU架構(gòu),具備極高算力與能效比,可以基于MGX架構(gòu)實(shí)現(xiàn)機(jī)架級(jí)部署。
1.算力躍升
NVIDIA MGX機(jī)架式系統(tǒng),單機(jī)架集成了144塊Rubin CPX GPU、144 塊Rubin GPU與36顆Vera CPU,可以提供8 EFLOPS的NVFP4計(jì)算力,并在單機(jī)架內(nèi)配備100TB高速內(nèi)存與1.7 PB/s的內(nèi)存帶寬。
2.長序列的高效處理優(yōu)化
Rubin CPX針對(duì)長序列的高效處理進(jìn)行了優(yōu)化,是軟件應(yīng)用開發(fā)與高清(HD)視頻生成等高價(jià)值推理用例的關(guān)鍵。
3.顯存升級(jí)
單個(gè)Rubin CPX GPU可以提供高達(dá)30 petaflops的NVFP4計(jì)算能力,它配備128GB的高性價(jià)比GDDR7顯存,以加速最苛刻的上下文類工作負(fù)載。
4.注意力機(jī)制加速
相比NVIDIA GB300 NVL72系統(tǒng),Rubin CPX帶來了3倍的注意力機(jī)制處理能力,顯著提高模型處理更長上下文序列的能力且不降速。
5.多種形態(tài)配置
Rubin CPX提供多種形態(tài)配置,包括 Vera Rubin NVL144 CPX,并可與NVIDIA Quantum-X800 InfiniBand橫向擴(kuò)展計(jì)算網(wǎng)絡(luò)。
也可以搭配采用NVIDIA Spectrum-XGS以太網(wǎng)技術(shù)與NVIDIA ConnectX?-9 SuperNICs?的NVIDIA Spectrum-X?以太網(wǎng)網(wǎng)絡(luò)平臺(tái)結(jié)合使用,以實(shí)現(xiàn)大規(guī)模部署。
Rubin CPX
擁抱NVIDIA全棧AI生態(tài)
在生態(tài)上,Rubin CPX將得到完整的NVIDIA AI堆棧支持,包括:
軟件平臺(tái):NVIDIA AI Enterprise,包含NVIDIA NIM?微服務(wù)以及可在NVIDIA加速的云、數(shù)據(jù)中心和工作站上部署的AI框架、庫與工具。
編排與模型:NVIDIA Dynamo平臺(tái)負(fù)責(zé)高效擴(kuò)展AI推理,同時(shí)處理器將能夠運(yùn)行NVIDIA Nemotron?多模態(tài)模型家族中的最新模型。
開發(fā)者生態(tài):基于數(shù)十年的創(chuàng)新,Rubin平臺(tái)擴(kuò)展了NVIDIA龐大的開發(fā)者生態(tài),包括NVIDIA CUDA-X?庫、超過600萬開發(fā)者的社區(qū)以及近6,000個(gè)CUDA應(yīng)用。
NVIDIA Rubin CPX預(yù)計(jì)將于2026年底可用。
它的推出將為全球開發(fā)者與創(chuàng)作者解鎖更強(qiáng)大的能力,重新定義企業(yè)構(gòu)建下一代生成式AI應(yīng)用的可能性。
參考資料:
https://developer.nvidia.com/blog/nvidia-rubin-cpx-accelerates-inference-performance-and-efficiency-for-1m-token-context-workloads/%20
https://nvidianews.nvidia.com/news/nvidia-unveils-rubin-cpx-a-new-class-of-gpu-designed-for-massive-context-inference?ncid=so-twit-653111