港中大Dispider:視頻AI實(shí)現(xiàn)邊看邊聊

這項(xiàng)由香港中文大學(xué)聯(lián)合上海AI實(shí)驗(yàn)室的研究團(tuán)隊(duì)開(kāi)發(fā)的創(chuàng)新成果,發(fā)表于2025年1月,完整論文可通過(guò)GitHub倉(cāng)庫(kù)https://github.com/Mark12Ding/Dispider獲取。研究團(tuán)隊(duì)由錢銳、丁雙睿等多位學(xué)者組成,他們共同攻克了一個(gè)困擾AI視頻理解領(lǐng)域已久的核心難題。
當(dāng)你和朋友一起看電影時(shí),會(huì)發(fā)生什么?你們會(huì)一邊觀影一邊交流想法,不時(shí)發(fā)出感嘆或提問(wèn),這種實(shí)時(shí)互動(dòng)讓觀影體驗(yàn)變得更加豐富。然而,現(xiàn)有的AI視頻理解系統(tǒng)卻做不到這一點(diǎn)——它們就像一個(gè)必須把整部電影看完才能開(kāi)口說(shuō)話的"書呆子",無(wú)法在觀看過(guò)程中進(jìn)行實(shí)時(shí)交流。
這個(gè)問(wèn)題聽(tīng)起來(lái)似乎不大,但實(shí)際影響卻相當(dāng)深遠(yuǎn)。設(shè)想你正在觀看一場(chǎng)體育比賽直播,當(dāng)精彩進(jìn)球出現(xiàn)時(shí),你希望AI助手能立即告訴你這個(gè)進(jìn)球的意義,而不是等到比賽結(jié)束后才給出分析?;蛘弋?dāng)你在觀看烹飪教學(xué)視頻時(shí),你希望AI能在關(guān)鍵步驟出現(xiàn)時(shí)主動(dòng)提醒你注意,而不是在視頻播放完畢后才總結(jié)要點(diǎn)。
現(xiàn)有技術(shù)的根本缺陷在于它們采用了"先看完再說(shuō)話"的工作模式。這就好比你請(qǐng)了一位翻譯,但這位翻譯堅(jiān)持要聽(tīng)完整場(chǎng)演講后才開(kāi)始翻譯,而不能進(jìn)行同聲傳譯。對(duì)于處理長(zhǎng)時(shí)間視頻內(nèi)容來(lái)說(shuō),這種方式不僅效率低下,更重要的是完全不符合人類的交流習(xí)慣。
研究團(tuán)隊(duì)深入分析后發(fā)現(xiàn),問(wèn)題的核心在于現(xiàn)有系統(tǒng)試圖用一個(gè)"大腦"同時(shí)處理三件截然不同的事情:持續(xù)觀察視頻內(nèi)容(感知),決定何時(shí)應(yīng)該開(kāi)口說(shuō)話(判斷),以及生成具體的回應(yīng)內(nèi)容(反應(yīng))。這三個(gè)任務(wù)之間存在著天然的沖突——觀察需要持續(xù)進(jìn)行,判斷需要快速?zèng)Q策,而生成回應(yīng)則需要深度思考。將它們強(qiáng)行塞進(jìn)一個(gè)系統(tǒng)里,就像讓一個(gè)人同時(shí)開(kāi)車、導(dǎo)航和打電話一樣,結(jié)果只能是顧此失彼。
為了解決這個(gè)根本性矛盾,研究團(tuán)隊(duì)提出了一個(gè)革命性的解決方案:Dispider系統(tǒng)。這個(gè)名字本身就蘊(yùn)含著設(shè)計(jì)理念——像蜘蛛一樣能夠同時(shí)處理多條"絲線"的復(fù)雜任務(wù)。Dispider的核心創(chuàng)新在于將原本糾纏在一起的三個(gè)功能徹底分離,讓每個(gè)部分都能專注于自己最擅長(zhǎng)的工作。
具體來(lái)說(shuō),Dispider系統(tǒng)包含三個(gè)相對(duì)獨(dú)立但協(xié)調(diào)工作的模塊。第一個(gè)是感知模塊,它就像一個(gè)專職的"觀察員",始終保持對(duì)視頻內(nèi)容的持續(xù)監(jiān)控,實(shí)時(shí)捕捉畫面中的變化和重要信息。第二個(gè)是決策模塊,它扮演著"判官"的角色,基于觀察員提供的信息以及歷史交互記錄,快速判斷當(dāng)前是否需要作出回應(yīng)。第三個(gè)是反應(yīng)模塊,它是系統(tǒng)的"發(fā)言人",負(fù)責(zé)在接到指令后生成詳細(xì)、準(zhǔn)確的回應(yīng)內(nèi)容。
這種分工協(xié)作的設(shè)計(jì)帶來(lái)了顯著的優(yōu)勢(shì)。最重要的是,觀察和回應(yīng)可以同時(shí)進(jìn)行,互不干擾。當(dāng)反應(yīng)模塊忙于生成回應(yīng)時(shí),感知模塊依然可以繼續(xù)監(jiān)控視頻內(nèi)容,決策模塊也能持續(xù)評(píng)估是否需要新的交互。這就像一個(gè)高效的新聞編輯部:記者持續(xù)收集新聞,編輯快速判斷新聞價(jià)值,寫手專心撰寫報(bào)道,三者并行不悖。
在技術(shù)實(shí)現(xiàn)層面,研究團(tuán)隊(duì)采用了多項(xiàng)創(chuàng)新策略。在感知模塊中,他們沒(méi)有采用傳統(tǒng)的均勻切片方法處理視頻,而是基于場(chǎng)景邊界進(jìn)行智能分段。這就好比閱讀一本小說(shuō)時(shí),不是機(jī)械地每頁(yè)停頓一次,而是在章節(jié)轉(zhuǎn)換或情節(jié)轉(zhuǎn)折處自然停頓。這種方法能夠更好地保持視頻內(nèi)容的結(jié)構(gòu)完整性,確保重要信息不會(huì)被人為割裂。
決策模塊的設(shè)計(jì)更是巧妙。它采用了一種特殊的序列處理方式,將視頻特征、歷史記錄和決策標(biāo)記交織在一起,形成一個(gè)連貫的信息流。系統(tǒng)使用特殊的標(biāo)記符號(hào)來(lái)管理這個(gè)過(guò)程:當(dāng)需要作出決策時(shí)插入"TODO"標(biāo)記,當(dāng)決定回應(yīng)時(shí)插入"ANS"標(biāo)記。這種設(shè)計(jì)確保了決策過(guò)程的連續(xù)性和一致性,避免了傳統(tǒng)系統(tǒng)中常見(jiàn)的"決策斷層"問(wèn)題。
反應(yīng)模塊則采用了異步處理機(jī)制,這是整個(gè)系統(tǒng)的關(guān)鍵創(chuàng)新之一。當(dāng)決策模塊判斷需要回應(yīng)時(shí),反應(yīng)模塊會(huì)啟動(dòng)一個(gè)獨(dú)立的處理線程來(lái)生成具體內(nèi)容,同時(shí)感知和決策模塊繼續(xù)監(jiān)控視頻流。這種設(shè)計(jì)確保了系統(tǒng)的響應(yīng)性和連續(xù)性,避免了傳統(tǒng)系統(tǒng)中"說(shuō)話時(shí)就看不見(jiàn)"的問(wèn)題。
為了驗(yàn)證Dispider系統(tǒng)的有效性,研究團(tuán)隊(duì)設(shè)計(jì)了全面的實(shí)驗(yàn)評(píng)估。他們構(gòu)建了專門的流式視頻問(wèn)答數(shù)據(jù)集,模擬真實(shí)的實(shí)時(shí)交互場(chǎng)景。這個(gè)數(shù)據(jù)集不僅包含需要回應(yīng)的情況,還包含應(yīng)該保持沉默的情況,這對(duì)訓(xùn)練系統(tǒng)的判斷能力至關(guān)重要。
實(shí)驗(yàn)結(jié)果令人印象深刻。在流式視頻理解基準(zhǔn)測(cè)試中,Dispider在多個(gè)關(guān)鍵指標(biāo)上都顯著超越了現(xiàn)有最先進(jìn)的系統(tǒng)。特別是在"主動(dòng)輸出"任務(wù)中,這個(gè)任務(wù)要求系統(tǒng)能夠在特定事件發(fā)生時(shí)主動(dòng)提供信息(比如在進(jìn)球時(shí)說(shuō)出"GOAL"),Dispider獲得了25.3的得分,而其他流式處理系統(tǒng)幾乎完全失敗。
更重要的是,研究團(tuán)隊(duì)通過(guò)對(duì)比實(shí)驗(yàn)清晰地展示了Dispider的核心優(yōu)勢(shì)。在處理需要多步推理的復(fù)雜問(wèn)題時(shí),Dispider能夠隨著視頻播放逐步識(shí)別相關(guān)線索,一步步構(gòu)建完整的答案。例如,當(dāng)面對(duì)"口渴的人應(yīng)該怎么辦"這樣的問(wèn)題時(shí),Dispider能夠在視頻中出現(xiàn)飲料時(shí)立即建立關(guān)聯(lián),然后基于上下文推斷出具體的行動(dòng)建議。相比之下,傳統(tǒng)的流式處理系統(tǒng)只能提供簡(jiǎn)單的場(chǎng)景描述,無(wú)法進(jìn)行深入的推理分析。
在傳統(tǒng)的離線視頻理解任務(wù)上,Dispider同樣表現(xiàn)出色。在EgoSchema、VideoMME、MLVU等多個(gè)權(quán)威基準(zhǔn)測(cè)試中,該系統(tǒng)都獲得了有競(jìng)爭(zhēng)力的結(jié)果。特別值得注意的是,在需要長(zhǎng)時(shí)間推理的EgoSchema測(cè)試中,Dispider獲得了55.6的準(zhǔn)確率,展現(xiàn)了其強(qiáng)大的時(shí)序理解能力。
研究團(tuán)隊(duì)還進(jìn)行了詳細(xì)的消融實(shí)驗(yàn),驗(yàn)證了系統(tǒng)各個(gè)組成部分的重要性。實(shí)驗(yàn)發(fā)現(xiàn),場(chǎng)景邊界分割策略相比傳統(tǒng)的均勻分割方法能夠帶來(lái)顯著改善。特殊標(biāo)記符號(hào)的設(shè)計(jì)也被證明是必要的:缺少"ANS"標(biāo)記會(huì)導(dǎo)致系統(tǒng)無(wú)法準(zhǔn)確追蹤歷史回應(yīng),缺少"TODO"標(biāo)記會(huì)降低決策準(zhǔn)確性,缺少"SILENT"標(biāo)記則會(huì)影響系統(tǒng)對(duì)錯(cuò)誤觸發(fā)的處理能力。
從技術(shù)架構(gòu)的角度來(lái)看,Dispider代表了視頻AI理解領(lǐng)域的一個(gè)重要轉(zhuǎn)折點(diǎn)。它不再試圖用單一模型解決所有問(wèn)題,而是采用了專業(yè)化分工的策略。這種設(shè)計(jì)哲學(xué)不僅解決了當(dāng)前的技術(shù)瓶頸,也為未來(lái)的發(fā)展奠定了基礎(chǔ)。
一、革命性的三分式架構(gòu)設(shè)計(jì)
傳統(tǒng)的視頻AI系統(tǒng)就像一個(gè)需要獨(dú)自完成所有工作的個(gè)體戶:既要看視頻,又要思考,還要說(shuō)話,結(jié)果往往是樣樣都做不好。Dispider的創(chuàng)新在于建立了一個(gè)專業(yè)分工的"公司",讓不同的"部門"各司其職。
感知模塊扮演著"監(jiān)控中心"的角色,它的任務(wù)就是持續(xù)不斷地觀察視頻內(nèi)容,捕捉畫面中的每一個(gè)變化。這個(gè)模塊采用了智能場(chǎng)景分割技術(shù),不像傳統(tǒng)方法那樣機(jī)械地按時(shí)間切片,而是根據(jù)內(nèi)容的自然邊界進(jìn)行分段。就好比一個(gè)有經(jīng)驗(yàn)的電影編輯,知道在哪里切換鏡頭最合適,既不會(huì)破壞故事的連貫性,也不會(huì)遺漏重要細(xì)節(jié)。
決策模塊則是整個(gè)系統(tǒng)的"大腦",它需要綜合考慮當(dāng)前的視頻內(nèi)容、歷史交互記錄以及用戶的問(wèn)題,快速判斷是否需要作出回應(yīng)。這個(gè)過(guò)程使用了一種巧妙的序列編碼方式,將各種信息交織成一個(gè)連貫的數(shù)據(jù)流。系統(tǒng)通過(guò)特殊的標(biāo)記符號(hào)來(lái)管理這個(gè)過(guò)程:當(dāng)遇到需要決策的時(shí)刻時(shí)插入"TODO"標(biāo)記,當(dāng)決定回應(yīng)時(shí)插入"ANS"標(biāo)記。這種設(shè)計(jì)確保了決策過(guò)程的準(zhǔn)確性和連續(xù)性。
反應(yīng)模塊是系統(tǒng)的"發(fā)言人",它的任務(wù)是在接到指令后生成詳細(xì)、準(zhǔn)確的回應(yīng)。關(guān)鍵的創(chuàng)新在于這個(gè)模塊采用了異步處理機(jī)制,也就是說(shuō),它可以在后臺(tái)獨(dú)立工作,不會(huì)阻塞其他模塊的正常運(yùn)行。當(dāng)反應(yīng)模塊忙于生成回應(yīng)時(shí),感知模塊依然在持續(xù)監(jiān)控視頻,決策模塊也在評(píng)估新的交互機(jī)會(huì)。
這種分工協(xié)作帶來(lái)的最直接好處就是效率的大幅提升。在處理長(zhǎng)時(shí)間視頻時(shí),傳統(tǒng)系統(tǒng)經(jīng)常出現(xiàn)"卡頓"現(xiàn)象,因?yàn)樗鼈儫o(wú)法同時(shí)進(jìn)行觀察和思考。而Dispider系統(tǒng)就像一個(gè)訓(xùn)練有素的團(tuán)隊(duì),各個(gè)部分并行工作,互不干擾,確保了流暢的實(shí)時(shí)交互體驗(yàn)。
二、場(chǎng)景邊界智能分割技術(shù)
Dispider在視頻處理方面的另一個(gè)重要?jiǎng)?chuàng)新是場(chǎng)景邊界智能分割技術(shù)。傳統(tǒng)的視頻處理方法就像用尺子測(cè)量,每隔固定的時(shí)間就"咔嚓"切一刀,完全不考慮內(nèi)容的連貫性。這種方法經(jīng)常會(huì)把一個(gè)完整的動(dòng)作或情節(jié)切斷,造成信息的破碎和丟失。
Dispider采用了一種更加智能的方法。它首先使用預(yù)訓(xùn)練的視覺(jué)模型提取每個(gè)視頻幀的特征向量,然后通過(guò)計(jì)算相鄰幀之間的相似度來(lái)識(shí)別場(chǎng)景邊界。當(dāng)相似度發(fā)生顯著變化時(shí),系統(tǒng)就知道這里可能是一個(gè)自然的分割點(diǎn)。這就好比一個(gè)有經(jīng)驗(yàn)的圖書管理員,知道應(yīng)該在章節(jié)結(jié)束的地方插入書簽,而不是隨意地在某一頁(yè)中間做標(biāo)記。
為了避免產(chǎn)生過(guò)于短小的片段,系統(tǒng)還引入了排除窗口機(jī)制。也就是說(shuō),在確定了一個(gè)分割點(diǎn)之后,系統(tǒng)會(huì)在其周圍設(shè)置一個(gè)緩沖區(qū),確保相鄰的分割點(diǎn)之間有足夠的距離。這種設(shè)計(jì)既保證了內(nèi)容的完整性,也維持了處理的效率。
每個(gè)分割后的視頻片段都會(huì)被轉(zhuǎn)換成緊湊的特征表示,同時(shí)生成一個(gè)特殊的片段標(biāo)識(shí)符。這些標(biāo)識(shí)符在后續(xù)的決策過(guò)程中發(fā)揮著重要作用,幫助系統(tǒng)快速定位和檢索相關(guān)的視頻內(nèi)容。
三、實(shí)時(shí)決策機(jī)制的創(chuàng)新設(shè)計(jì)
Dispider的決策機(jī)制是整個(gè)系統(tǒng)的核心創(chuàng)新之一。這個(gè)機(jī)制需要在每個(gè)時(shí)刻快速判斷:基于目前觀察到的視頻內(nèi)容和歷史交互記錄,系統(tǒng)是否應(yīng)該作出回應(yīng),還是應(yīng)該繼續(xù)等待更多信息。
決策過(guò)程采用了一種巧妙的交錯(cuò)序列設(shè)計(jì)。系統(tǒng)首先將用戶的問(wèn)題時(shí)間點(diǎn)之前的所有視頻片段特征進(jìn)行全局匯總,形成歷史記憶。然后構(gòu)建一個(gè)包含歷史記憶、問(wèn)題文本、當(dāng)前視頻片段特征以及決策標(biāo)記的交錯(cuò)序列。
這個(gè)序列的構(gòu)建過(guò)程頗有講究。對(duì)于單次交互,序列的格式是:歷史記憶 + 問(wèn)題 + 當(dāng)前視頻特征 +"TODO"標(biāo)記。當(dāng)系統(tǒng)決定回應(yīng)時(shí),會(huì)在相應(yīng)位置插入"ANS"標(biāo)記。對(duì)于多輪交互,序列會(huì)變得更加復(fù)雜,需要包含多個(gè)歷史回應(yīng)的時(shí)間點(diǎn)和內(nèi)容標(biāo)記。
特別重要的是,在這個(gè)過(guò)程中,系統(tǒng)完全不使用反應(yīng)模塊生成的具體回應(yīng)文本。這種設(shè)計(jì)確保了決策過(guò)程的獨(dú)立性和連續(xù)性。即使反應(yīng)模塊正在生成一個(gè)復(fù)雜的回應(yīng),決策模塊也能繼續(xù)監(jiān)控視頻內(nèi)容,評(píng)估新的交互機(jī)會(huì)。
決策模塊使用一個(gè)緊湊的大語(yǔ)言模型來(lái)處理這個(gè)交錯(cuò)序列,并在"TODO"標(biāo)記位置應(yīng)用二分類頭來(lái)預(yù)測(cè)是否應(yīng)該回應(yīng)。這種設(shè)計(jì)既保證了決策的準(zhǔn)確性,也確保了足夠快的響應(yīng)速度。
四、異步交互生成系統(tǒng)
當(dāng)決策模塊判斷需要作出回應(yīng)時(shí),異步交互系統(tǒng)就開(kāi)始發(fā)揮作用。這個(gè)系統(tǒng)的設(shè)計(jì)理念是讓回應(yīng)生成和視頻監(jiān)控能夠并行進(jìn)行,避免傳統(tǒng)系統(tǒng)中常見(jiàn)的"說(shuō)話時(shí)就看不見(jiàn)"的問(wèn)題。
交互生成過(guò)程始終基于觸發(fā)時(shí)刻的視頻狀態(tài)。系統(tǒng)會(huì)收集當(dāng)前的問(wèn)題、之前生成的回應(yīng)(如果有的話)以及觸發(fā)時(shí)刻對(duì)應(yīng)的視頻片段特征。為了支持復(fù)雜的多跳推理,系統(tǒng)還會(huì)通過(guò)計(jì)算"TODO"標(biāo)記與歷史片段標(biāo)識(shí)符的相似度來(lái)檢索相關(guān)的歷史內(nèi)容。
這種檢索機(jī)制特別重要,因?yàn)榛卮鹨粋€(gè)問(wèn)題所需的信息可能分布在視頻的不同時(shí)間段。通過(guò)相似度計(jì)算,系統(tǒng)能夠找到所有相關(guān)的歷史片段,就像一個(gè)經(jīng)驗(yàn)豐富的偵探能夠?qū)⒎稚⒌木€索串聯(lián)起來(lái)形成完整的推論。
為了提高檢索的準(zhǔn)確性,系統(tǒng)使用了監(jiān)督學(xué)習(xí)方法來(lái)訓(xùn)練相似度計(jì)算模塊。具體來(lái)說(shuō),系統(tǒng)會(huì)計(jì)算預(yù)測(cè)的相關(guān)性分布和真實(shí)相關(guān)性分布之間的KL散度損失,通過(guò)這種方式來(lái)優(yōu)化檢索效果。
交互生成系統(tǒng)還具備處理錯(cuò)誤觸發(fā)的能力。有時(shí)候決策模塊可能會(huì)誤判,在不需要回應(yīng)的時(shí)候觸發(fā)交互生成。為了處理這種情況,系統(tǒng)引入了"SILENT"標(biāo)記,允許交互生成模塊在二次確認(rèn)后選擇保持沉默。這種設(shè)計(jì)提高了系統(tǒng)的魯棒性和用戶體驗(yàn)。
五、訓(xùn)練策略與數(shù)據(jù)處理
Dispider采用了兩階段的訓(xùn)練策略,這種設(shè)計(jì)充分考慮了不同模塊的特點(diǎn)和需求。第一階段專注于訓(xùn)練流式視頻處理器和決策模塊,第二階段則專門優(yōu)化交互生成模塊。
第一階段的訓(xùn)練數(shù)據(jù)來(lái)源豐富多樣,包括GroundVQA和ET-Instruct等現(xiàn)有數(shù)據(jù)集,并且增加了豐富的時(shí)間標(biāo)注信息來(lái)支持流式處理訓(xùn)練。研究團(tuán)隊(duì)還專門構(gòu)建了5萬(wàn)個(gè)隱含時(shí)間推理的問(wèn)答對(duì),用于增強(qiáng)系統(tǒng)的基礎(chǔ)推理能力。這些數(shù)據(jù)的時(shí)間標(biāo)注對(duì)于訓(xùn)練決策模塊至關(guān)重要,它們教會(huì)系統(tǒng)什么時(shí)候應(yīng)該說(shuō)話,什么時(shí)候應(yīng)該保持沉默。
第二階段的訓(xùn)練專門針對(duì)交互生成模塊。在這個(gè)階段,研究團(tuán)隊(duì)凍結(jié)了視頻編碼器和緊湊語(yǔ)言模型的參數(shù),只訓(xùn)練最終的交互生成模塊。訓(xùn)練數(shù)據(jù)包含了12.2萬(wàn)個(gè)流式視頻問(wèn)答對(duì),這些數(shù)據(jù)從ET-Instruct數(shù)據(jù)集的時(shí)間戳標(biāo)注中生成,并且用VideoChatGPT和LLaVA-Next-Video的數(shù)據(jù)進(jìn)行了擴(kuò)充。
訓(xùn)練過(guò)程中一個(gè)重要的設(shè)計(jì)是指令插入的隨機(jī)化。系統(tǒng)會(huì)在不同的時(shí)間戳位置插入指令,這種做法提高了模型對(duì)任意時(shí)間點(diǎn)查詢的適應(yīng)能力。在傳統(tǒng)基準(zhǔn)測(cè)試中,問(wèn)題被放置在視頻末尾以確保公平比較,而在流式評(píng)估中,問(wèn)題被放置在視頻開(kāi)始處以支持主動(dòng)響應(yīng)。
六、實(shí)驗(yàn)驗(yàn)證與性能表現(xiàn)
研究團(tuán)隊(duì)設(shè)計(jì)了全面的實(shí)驗(yàn)來(lái)驗(yàn)證Dispider系統(tǒng)的有效性。實(shí)驗(yàn)涵蓋了流式視頻理解和傳統(tǒng)視頻問(wèn)答兩個(gè)方面,確保系統(tǒng)在不同場(chǎng)景下都能表現(xiàn)出色。
在流式視頻理解方面,研究團(tuán)隊(duì)使用了StreamingBench基準(zhǔn)測(cè)試,這是專門為評(píng)估流式視頻理解能力設(shè)計(jì)的綜合性測(cè)試平臺(tái)。測(cè)試包括實(shí)時(shí)視覺(jué)理解、全源理解和上下文理解三個(gè)主要方面,涵蓋了物體感知、因果推理、剪輯總結(jié)、屬性感知、事件理解等多個(gè)具體任務(wù)。
實(shí)驗(yàn)結(jié)果顯示,Dispider在多個(gè)關(guān)鍵指標(biāo)上都顯著超越了現(xiàn)有的流式處理系統(tǒng)。特別值得注意的是在"主動(dòng)輸出"任務(wù)上的表現(xiàn),這個(gè)任務(wù)要求系統(tǒng)能夠在特定事件發(fā)生時(shí)主動(dòng)提供信息。傳統(tǒng)的流式處理系統(tǒng)在這個(gè)任務(wù)上幾乎完全失敗,而Dispider獲得了25.3的競(jìng)爭(zhēng)性得分,展現(xiàn)了其出色的主動(dòng)響應(yīng)能力。
在ET-Bench子集的流式設(shè)置測(cè)試中,Dispider在所有測(cè)試指標(biāo)上都明顯優(yōu)于VideoLLM-online系統(tǒng)。特別是在時(shí)間定位任務(wù)上,Dispider展現(xiàn)了更強(qiáng)的時(shí)間感知能力,能夠更準(zhǔn)確地將回應(yīng)與特定的時(shí)間點(diǎn)關(guān)聯(lián)起來(lái)。有趣的是,在某些任務(wù)如密集視頻描述和步驟定位上,Dispider在流式模式下的表現(xiàn)甚至超過(guò)了傳統(tǒng)離線模式,這表明分解式架構(gòu)能夠更有效地監(jiān)控視頻流并主動(dòng)生成信息豐富的回應(yīng)。
研究團(tuán)隊(duì)還進(jìn)行了定性比較實(shí)驗(yàn),清晰地展示了Dispider相比傳統(tǒng)系統(tǒng)的優(yōu)勢(shì)。在處理需要多步推理的復(fù)雜問(wèn)題時(shí),Dispider能夠逐步識(shí)別視頻流中的必要線索,一步步生成信息豐富的答案。例如,面對(duì)"我很渴,應(yīng)該怎么辦?"這樣的問(wèn)題,Dispider能夠從問(wèn)題中的"渴"聯(lián)想到視頻中出現(xiàn)的飲品,然后基于上下文推斷出具體的行動(dòng)建議。相比之下,VideoLLM-online只能提供簡(jiǎn)單的場(chǎng)景描述或正在進(jìn)行的動(dòng)作說(shuō)明。
在傳統(tǒng)視頻理解任務(wù)上,Dispider同樣表現(xiàn)出色。在EgoSchema、MLVU、VideoMME等權(quán)威基準(zhǔn)測(cè)試中,該系統(tǒng)都獲得了有競(jìng)爭(zhēng)力的結(jié)果。特別是在EgoSchema測(cè)試中,Dispider獲得了55.6的準(zhǔn)確率,這個(gè)測(cè)試專門考察長(zhǎng)時(shí)間推理能力,Dispider的優(yōu)秀表現(xiàn)證明了其強(qiáng)大的時(shí)序感知和推理能力。
七、消融實(shí)驗(yàn)與細(xì)節(jié)驗(yàn)證
為了深入理解系統(tǒng)各個(gè)組成部分的作用,研究團(tuán)隊(duì)進(jìn)行了詳細(xì)的消融實(shí)驗(yàn)。這些實(shí)驗(yàn)系統(tǒng)地驗(yàn)證了設(shè)計(jì)選擇的合理性和必要性。
關(guān)于視頻分割策略的實(shí)驗(yàn)顯示,基于場(chǎng)景邊界的非均勻分割相比傳統(tǒng)的均勻分割方法帶來(lái)了顯著改善。在MLVU和VideoMME的傳統(tǒng)問(wèn)答任務(wù)中,場(chǎng)景分割方法分別獲得了61.7和57.2的準(zhǔn)確率,而均勻分割方法只獲得了59.8和55.4。在流式任務(wù)中,這種改善更加明顯,特別是在時(shí)間視頻定位和密集視頻描述任務(wù)上。
特殊標(biāo)記設(shè)計(jì)的消融實(shí)驗(yàn)揭示了每個(gè)標(biāo)記的具體作用。實(shí)驗(yàn)發(fā)現(xiàn)缺少"ANS"標(biāo)記會(huì)導(dǎo)致系統(tǒng)無(wú)法準(zhǔn)確追蹤歷史回應(yīng)的時(shí)間戳,結(jié)果是在相關(guān)線索出現(xiàn)時(shí)系統(tǒng)傾向于產(chǎn)生回應(yīng),導(dǎo)致高召回率但低精確度的現(xiàn)象。缺少"TODO"標(biāo)記會(huì)讓流式處理器無(wú)法明確何時(shí)需要做決策,導(dǎo)致性能輕微下降。而"SILENT"標(biāo)記在最終語(yǔ)言模型中充當(dāng)二級(jí)過(guò)濾器的角色,當(dāng)前面的流式處理器錯(cuò)誤地識(shí)別某個(gè)時(shí)間戳需要回應(yīng)時(shí),這個(gè)標(biāo)記讓語(yǔ)言模型能夠重新考慮是否真的需要答案。
實(shí)驗(yàn)數(shù)據(jù)清楚地顯示了各個(gè)組件的重要性。在最完整的配置下,系統(tǒng)在時(shí)間視頻定位任務(wù)上獲得了36.1的F1分?jǐn)?shù),在密集視頻描述任務(wù)上獲得了33.8的F1分?jǐn)?shù)和18.9的相似度分?jǐn)?shù)。任何組件的缺失都會(huì)導(dǎo)致性能的下降,證明了整體設(shè)計(jì)的協(xié)調(diào)性和必要性。
八、技術(shù)實(shí)現(xiàn)細(xì)節(jié)與架構(gòu)優(yōu)化
Dispider的技術(shù)實(shí)現(xiàn)展現(xiàn)了研究團(tuán)隊(duì)在系統(tǒng)工程方面的深厚功力。整個(gè)系統(tǒng)采用了混合架構(gòu)設(shè)計(jì),使用一個(gè)緊湊的語(yǔ)言模型作為主動(dòng)流式視頻處理器來(lái)做響應(yīng)決策,使用一個(gè)更大的語(yǔ)言模型作為精確交互模塊來(lái)生成具體回應(yīng)。
在視頻處理pipeline中,輸入視頻幀被調(diào)整為224×224分辨率,使用CLIP-L/14模型提取逐幀特征。借鑒VideoStream中的令牌壓縮技術(shù),系統(tǒng)將相鄰令牌進(jìn)行連接,然后使用緊湊的語(yǔ)言模型(Qwen2-1.5B的實(shí)例化)生成時(shí)間感知的壓縮片段特征以及片段標(biāo)識(shí)符。
決策處理使用同一個(gè)緊湊模型來(lái)處理由全局記憶、問(wèn)題文本和片段特征組成的序列。最終的語(yǔ)言模型使用Qwen2-7B實(shí)例化,在必要的時(shí)間戳接收定位片段和全局記憶來(lái)生成回應(yīng)。
這種分層設(shè)計(jì)的好處在于計(jì)算資源的優(yōu)化配置。緊湊模型負(fù)責(zé)需要高頻率執(zhí)行的感知和決策任務(wù),確保系統(tǒng)的實(shí)時(shí)響應(yīng)能力。而大型模型只在需要生成具體回應(yīng)時(shí)才被調(diào)用,避免了不必要的計(jì)算開(kāi)銷。
訓(xùn)練過(guò)程采用兩階段策略,第一階段訓(xùn)練流式視頻處理器和響應(yīng)決策模塊,使用GroundVQA和ET-Instruct的組合數(shù)據(jù),并增加了豐富的時(shí)間標(biāo)注來(lái)監(jiān)督流式響應(yīng)和提供時(shí)間定位標(biāo)簽。第二階段凍結(jié)視頻編碼器和緊湊語(yǔ)言模型,只訓(xùn)練最終的交互模塊。
九、實(shí)際應(yīng)用前景與影響分析
Dispider系統(tǒng)的成功不僅僅是一個(gè)技術(shù)突破,更重要的是它開(kāi)啟了視頻AI交互的全新可能性。這項(xiàng)技術(shù)的應(yīng)用前景極其廣闊,幾乎涉及到視頻內(nèi)容處理的各個(gè)領(lǐng)域。
在教育領(lǐng)域,Dispider可以革命性地改變?cè)诰€學(xué)習(xí)體驗(yàn)。設(shè)想一個(gè)學(xué)生正在觀看數(shù)學(xué)課程視頻,當(dāng)老師講到復(fù)雜概念時(shí),AI助手能夠?qū)崟r(shí)檢測(cè)到學(xué)生可能的困惑點(diǎn),主動(dòng)提供補(bǔ)充解釋或相關(guān)例題。這種即時(shí)、個(gè)性化的學(xué)習(xí)輔導(dǎo)將大大提高學(xué)習(xí)效率和質(zhì)量。
在體育轉(zhuǎn)播和娛樂(lè)內(nèi)容領(lǐng)域,Dispider能夠?yàn)橛^眾提供沉浸式的互動(dòng)體驗(yàn)。在觀看足球比賽時(shí),系統(tǒng)可以在關(guān)鍵時(shí)刻自動(dòng)提供球員統(tǒng)計(jì)數(shù)據(jù)、戰(zhàn)術(shù)分析或歷史對(duì)比信息。在觀看電影時(shí),系統(tǒng)能夠根據(jù)情節(jié)發(fā)展提供背景信息、演員介紹或相關(guān)花絮,而不會(huì)打斷觀影體驗(yàn)的連續(xù)性。
醫(yī)療診斷和監(jiān)控領(lǐng)域也將從這項(xiàng)技術(shù)中獲益匪淺。醫(yī)生在查看長(zhǎng)時(shí)間的手術(shù)錄像或監(jiān)控視頻時(shí),AI系統(tǒng)能夠?qū)崟r(shí)標(biāo)識(shí)異常情況,提醒醫(yī)生注意特定的生理指標(biāo)變化或潛在風(fēng)險(xiǎn)點(diǎn),大大提高診斷效率和準(zhǔn)確性。
安全監(jiān)控系統(tǒng)將變得更加智能和主動(dòng)。傳統(tǒng)的監(jiān)控系統(tǒng)需要人工定期檢查錄像,而配備Dispider技術(shù)的系統(tǒng)能夠在可疑事件發(fā)生時(shí)立即發(fā)出警報(bào),并提供詳細(xì)的情況分析,幫助安全人員快速做出響應(yīng)決策。
內(nèi)容創(chuàng)作和媒體制作領(lǐng)域也將迎來(lái)重大變革。視頻編輯師在處理大量素材時(shí),AI助手能夠?qū)崟r(shí)識(shí)別精彩片段、提取關(guān)鍵信息,甚至自動(dòng)生成內(nèi)容摘要和標(biāo)簽,大大提高后期制作的效率。
更重要的是,Dispider代表了人機(jī)交互范式的一個(gè)重要轉(zhuǎn)變。它將AI從被動(dòng)的"問(wèn)答機(jī)器"轉(zhuǎn)變?yōu)橹鲃?dòng)的"交流伙伴",能夠根據(jù)情境主動(dòng)提供有價(jià)值的信息和見(jiàn)解。這種轉(zhuǎn)變將深刻影響我們與AI系統(tǒng)的交互方式,使人工智能真正成為我們?nèi)粘I詈凸ぷ髦械闹悄苤帧?/p>
當(dāng)然,這項(xiàng)技術(shù)的普及還面臨一些挑戰(zhàn)。計(jì)算資源的需求、實(shí)時(shí)處理的延遲優(yōu)化、不同應(yīng)用場(chǎng)景的適配等問(wèn)題都需要進(jìn)一步解決。但是,Dispider已經(jīng)為解決這些問(wèn)題指明了方向,為未來(lái)的智能視頻交互系統(tǒng)奠定了堅(jiān)實(shí)的技術(shù)基礎(chǔ)。
說(shuō)到底,Dispider的意義不僅在于它解決了一個(gè)特定的技術(shù)難題,更在于它開(kāi)啟了一種全新的可能性——讓AI真正理解我們的視覺(jué)世界,并能夠以人類的方式與我們進(jìn)行自然、實(shí)時(shí)的交流。這種技術(shù)進(jìn)步將讓我們的數(shù)字生活變得更加智能、便捷和有趣。對(duì)于那些希望深入了解這項(xiàng)技術(shù)細(xì)節(jié)的讀者,建議查閱研究團(tuán)隊(duì)在GitHub上發(fā)布的完整論文和開(kāi)源代碼,網(wǎng)址是https://github.com/Mark12Ding/Dispider。
Q&A
Q1:Dispider和傳統(tǒng)視頻AI系統(tǒng)有什么區(qū)別?
A:Dispider最大的創(chuàng)新是實(shí)現(xiàn)了"邊看邊聊"的能力,而傳統(tǒng)系統(tǒng)必須看完整個(gè)視頻才能回答問(wèn)題。Dispider將感知、決策和反應(yīng)三個(gè)功能分離成獨(dú)立模塊,讓AI能夠一邊持續(xù)觀看視頻一邊進(jìn)行實(shí)時(shí)交流,就像人類觀影時(shí)的自然互動(dòng)一樣。
Q2:Dispider在哪些場(chǎng)景下最有用?
A:Dispider特別適合需要實(shí)時(shí)交互的長(zhǎng)視頻場(chǎng)景,比如在線教育課程(可以在學(xué)生困惑時(shí)主動(dòng)解釋)、體育直播(在精彩時(shí)刻自動(dòng)提供分析)、安全監(jiān)控(發(fā)現(xiàn)異常時(shí)即時(shí)報(bào)警)、醫(yī)療診斷(識(shí)別關(guān)鍵指標(biāo)變化時(shí)提醒醫(yī)生)等。任何需要AI在觀看過(guò)程中主動(dòng)提供信息的應(yīng)用都能受益。
Q3:Dispider的核心技術(shù)創(chuàng)新是什么?
A:核心創(chuàng)新是三分式架構(gòu)設(shè)計(jì):感知模塊持續(xù)監(jiān)控視頻內(nèi)容,決策模塊快速判斷何時(shí)需要回應(yīng),反應(yīng)模塊異步生成具體回應(yīng)內(nèi)容。這種設(shè)計(jì)讓三個(gè)功能可以并行工作,解決了傳統(tǒng)系統(tǒng)無(wú)法同時(shí)觀看和思考的根本矛盾,實(shí)現(xiàn)了真正的實(shí)時(shí)視頻交互。