快科技9月7日消息,據(jù)報(bào)道,NVIDIA的RTX 5090和RTX PRO 6000顯卡最近被發(fā)現(xiàn)存在一個(gè)可復(fù)現(xiàn)的虛擬化重置漏洞,該漏洞會(huì)導(dǎo)致顯卡完全無(wú)響應(yīng),直到主機(jī)系統(tǒng)物理重啟才能恢復(fù)。
CloudRift是一家GPU云服務(wù)提供商,他們?cè)谏a(chǎn)環(huán)境中多個(gè)配備Blackwell芯片的系統(tǒng)上遇到了這個(gè)問(wèn)題后,詳細(xì)公布了問(wèn)題的分析報(bào)告,并懸賞1000美元,公開征集能夠找到解決方案或根本原因的人。
根據(jù)CloudRift的日志,這個(gè)漏洞發(fā)生在GPU通過(guò)KVM和VFIO傳遞給虛擬機(jī)后。在虛擬機(jī)關(guān)閉或GPU重新分配時(shí),主機(jī)系統(tǒng)會(huì)發(fā)出一個(gè)PCIe功能級(jí)重置(FLR)。
但與正常情況不同的是,GPU并沒(méi)有恢復(fù)到良好狀態(tài),而是停止響應(yīng),內(nèi)核報(bào)告稱:"FLR后65535毫秒仍未就緒;放棄。"
此時(shí),顯卡也變得無(wú)法被lspci讀取,lspci會(huì)拋出"未知頭部類型7f"的錯(cuò)誤,CloudRift指出,唯一恢復(fù)正常操作的方法是對(duì)整個(gè)機(jī)器進(jìn)行斷電重啟。
AI初創(chuàng)公司Tiny Corp也復(fù)現(xiàn)了CloudRift的發(fā)現(xiàn),并直接提出了一個(gè)問(wèn)題:"RTX 5090和RTX PRO 6000是否有硬件缺陷?我們已經(jīng)調(diào)查過(guò),但找不到解決方案。"
社區(qū)的討論中,許多家庭用戶和其他RTX 5090的早期采用者也報(bào)告了類似的問(wèn)題,一位用戶表示在關(guān)閉Windows虛擬機(jī)后,整個(gè)主機(jī)系統(tǒng)掛起,即使操作系統(tǒng)級(jí)別的重啟后,GPU也無(wú)法重新初始化。
用戶證實(shí),切換PCIe ASPM或ACS設(shè)置并不能緩解故障,目前還沒(méi)有報(bào)告稱舊型號(hào)顯卡(如RTX 4090)存在類似問(wèn)題,這表明該漏洞可能僅限于NVIDIA的Blackwell系列。