這項由香港中文大學聯合上海AI實驗室的研究團隊開發(fā)的創(chuàng)新成果,發(fā)表于2025年1月,完整論文可通過GitHub倉庫https://github.com/Mark12Ding/Dispider獲取。研究團隊由錢銳、丁雙睿等多位學者組成,他們共同攻克了一個困擾AI視頻理解領域已久的核心難題。
當你和朋友一起看電影時,會發(fā)生什么?你們會一邊觀影一邊交流想法,不時發(fā)出感嘆或提問,這種實時互動讓觀影體驗變得更加豐富。然而,現有的AI視頻理解系統(tǒng)卻做不到這一點——它們就像一個必須把整部電影看完才能開口說話的"書呆子",無法在觀看過程中進行實時交流。
這個問題聽起來似乎不大,但實際影響卻相當深遠。設想你正在觀看一場體育比賽直播,當精彩進球出現時,你希望AI助手能立即告訴你這個進球的意義,而不是等到比賽結束后才給出分析。或者當你在觀看烹飪教學視頻時,你希望AI能在關鍵步驟出現時主動提醒你注意,而不是在視頻播放完畢后才總結要點。
現有技術的根本缺陷在于它們采用了"先看完再說話"的工作模式。這就好比你請了一位翻譯,但這位翻譯堅持要聽完整場演講后才開始翻譯,而不能進行同聲傳譯。對于處理長時間視頻內容來說,這種方式不僅效率低下,更重要的是完全不符合人類的交流習慣。
研究團隊深入分析后發(fā)現,問題的核心在于現有系統(tǒng)試圖用一個"大腦"同時處理三件截然不同的事情:持續(xù)觀察視頻內容(感知),決定何時應該開口說話(判斷),以及生成具體的回應內容(反應)。這三個任務之間存在著天然的沖突——觀察需要持續(xù)進行,判斷需要快速決策,而生成回應則需要深度思考。將它們強行塞進一個系統(tǒng)里,就像讓一個人同時開車、導航和打電話一樣,結果只能是顧此失彼。
為了解決這個根本性矛盾,研究團隊提出了一個革命性的解決方案:Dispider系統(tǒng)。這個名字本身就蘊含著設計理念——像蜘蛛一樣能夠同時處理多條"絲線"的復雜任務。Dispider的核心創(chuàng)新在于將原本糾纏在一起的三個功能徹底分離,讓每個部分都能專注于自己最擅長的工作。
具體來說,Dispider系統(tǒng)包含三個相對獨立但協調工作的模塊。第一個是感知模塊,它就像一個專職的"觀察員",始終保持對視頻內容的持續(xù)監(jiān)控,實時捕捉畫面中的變化和重要信息。第二個是決策模塊,它扮演著"判官"的角色,基于觀察員提供的信息以及歷史交互記錄,快速判斷當前是否需要作出回應。第三個是反應模塊,它是系統(tǒng)的"發(fā)言人",負責在接到指令后生成詳細、準確的回應內容。
這種分工協作的設計帶來了顯著的優(yōu)勢。最重要的是,觀察和回應可以同時進行,互不干擾。當反應模塊忙于生成回應時,感知模塊依然可以繼續(xù)監(jiān)控視頻內容,決策模塊也能持續(xù)評估是否需要新的交互。這就像一個高效的新聞編輯部:記者持續(xù)收集新聞,編輯快速判斷新聞價值,寫手專心撰寫報道,三者并行不悖。
在技術實現層面,研究團隊采用了多項創(chuàng)新策略。在感知模塊中,他們沒有采用傳統(tǒng)的均勻切片方法處理視頻,而是基于場景邊界進行智能分段。這就好比閱讀一本小說時,不是機械地每頁停頓一次,而是在章節(jié)轉換或情節(jié)轉折處自然停頓。這種方法能夠更好地保持視頻內容的結構完整性,確保重要信息不會被人為割裂。
決策模塊的設計更是巧妙。它采用了一種特殊的序列處理方式,將視頻特征、歷史記錄和決策標記交織在一起,形成一個連貫的信息流。系統(tǒng)使用特殊的標記符號來管理這個過程:當需要作出決策時插入"TODO"標記,當決定回應時插入"ANS"標記。這種設計確保了決策過程的連續(xù)性和一致性,避免了傳統(tǒng)系統(tǒng)中常見的"決策斷層"問題。
反應模塊則采用了異步處理機制,這是整個系統(tǒng)的關鍵創(chuàng)新之一。當決策模塊判斷需要回應時,反應模塊會啟動一個獨立的處理線程來生成具體內容,同時感知和決策模塊繼續(xù)監(jiān)控視頻流。這種設計確保了系統(tǒng)的響應性和連續(xù)性,避免了傳統(tǒng)系統(tǒng)中"說話時就看不見"的問題。
為了驗證Dispider系統(tǒng)的有效性,研究團隊設計了全面的實驗評估。他們構建了專門的流式視頻問答數據集,模擬真實的實時交互場景。這個數據集不僅包含需要回應的情況,還包含應該保持沉默的情況,這對訓練系統(tǒng)的判斷能力至關重要。
實驗結果令人印象深刻。在流式視頻理解基準測試中,Dispider在多個關鍵指標上都顯著超越了現有最先進的系統(tǒng)。特別是在"主動輸出"任務中,這個任務要求系統(tǒng)能夠在特定事件發(fā)生時主動提供信息(比如在進球時說出"GOAL"),Dispider獲得了25.3的得分,而其他流式處理系統(tǒng)幾乎完全失敗。
更重要的是,研究團隊通過對比實驗清晰地展示了Dispider的核心優(yōu)勢。在處理需要多步推理的復雜問題時,Dispider能夠隨著視頻播放逐步識別相關線索,一步步構建完整的答案。例如,當面對"口渴的人應該怎么辦"這樣的問題時,Dispider能夠在視頻中出現飲料時立即建立關聯,然后基于上下文推斷出具體的行動建議。相比之下,傳統(tǒng)的流式處理系統(tǒng)只能提供簡單的場景描述,無法進行深入的推理分析。
在傳統(tǒng)的離線視頻理解任務上,Dispider同樣表現出色。在EgoSchema、VideoMME、MLVU等多個權威基準測試中,該系統(tǒng)都獲得了有競爭力的結果。特別值得注意的是,在需要長時間推理的EgoSchema測試中,Dispider獲得了55.6的準確率,展現了其強大的時序理解能力。
研究團隊還進行了詳細的消融實驗,驗證了系統(tǒng)各個組成部分的重要性。實驗發(fā)現,場景邊界分割策略相比傳統(tǒng)的均勻分割方法能夠帶來顯著改善。特殊標記符號的設計也被證明是必要的:缺少"ANS"標記會導致系統(tǒng)無法準確追蹤歷史回應,缺少"TODO"標記會降低決策準確性,缺少"SILENT"標記則會影響系統(tǒng)對錯誤觸發(fā)的處理能力。
從技術架構的角度來看,Dispider代表了視頻AI理解領域的一個重要轉折點。它不再試圖用單一模型解決所有問題,而是采用了專業(yè)化分工的策略。這種設計哲學不僅解決了當前的技術瓶頸,也為未來的發(fā)展奠定了基礎。
一、革命性的三分式架構設計
傳統(tǒng)的視頻AI系統(tǒng)就像一個需要獨自完成所有工作的個體戶:既要看視頻,又要思考,還要說話,結果往往是樣樣都做不好。Dispider的創(chuàng)新在于建立了一個專業(yè)分工的"公司",讓不同的"部門"各司其職。
感知模塊扮演著"監(jiān)控中心"的角色,它的任務就是持續(xù)不斷地觀察視頻內容,捕捉畫面中的每一個變化。這個模塊采用了智能場景分割技術,不像傳統(tǒng)方法那樣機械地按時間切片,而是根據內容的自然邊界進行分段。就好比一個有經驗的電影編輯,知道在哪里切換鏡頭最合適,既不會破壞故事的連貫性,也不會遺漏重要細節(jié)。
決策模塊則是整個系統(tǒng)的"大腦",它需要綜合考慮當前的視頻內容、歷史交互記錄以及用戶的問題,快速判斷是否需要作出回應。這個過程使用了一種巧妙的序列編碼方式,將各種信息交織成一個連貫的數據流。系統(tǒng)通過特殊的標記符號來管理這個過程:當遇到需要決策的時刻時插入"TODO"標記,當決定回應時插入"ANS"標記。這種設計確保了決策過程的準確性和連續(xù)性。
反應模塊是系統(tǒng)的"發(fā)言人",它的任務是在接到指令后生成詳細、準確的回應。關鍵的創(chuàng)新在于這個模塊采用了異步處理機制,也就是說,它可以在后臺獨立工作,不會阻塞其他模塊的正常運行。當反應模塊忙于生成回應時,感知模塊依然在持續(xù)監(jiān)控視頻,決策模塊也在評估新的交互機會。
這種分工協作帶來的最直接好處就是效率的大幅提升。在處理長時間視頻時,傳統(tǒng)系統(tǒng)經常出現"卡頓"現象,因為它們無法同時進行觀察和思考。而Dispider系統(tǒng)就像一個訓練有素的團隊,各個部分并行工作,互不干擾,確保了流暢的實時交互體驗。
二、場景邊界智能分割技術
Dispider在視頻處理方面的另一個重要創(chuàng)新是場景邊界智能分割技術。傳統(tǒng)的視頻處理方法就像用尺子測量,每隔固定的時間就"咔嚓"切一刀,完全不考慮內容的連貫性。這種方法經常會把一個完整的動作或情節(jié)切斷,造成信息的破碎和丟失。
Dispider采用了一種更加智能的方法。它首先使用預訓練的視覺模型提取每個視頻幀的特征向量,然后通過計算相鄰幀之間的相似度來識別場景邊界。當相似度發(fā)生顯著變化時,系統(tǒng)就知道這里可能是一個自然的分割點。這就好比一個有經驗的圖書管理員,知道應該在章節(jié)結束的地方插入書簽,而不是隨意地在某一頁中間做標記。
為了避免產生過于短小的片段,系統(tǒng)還引入了排除窗口機制。也就是說,在確定了一個分割點之后,系統(tǒng)會在其周圍設置一個緩沖區(qū),確保相鄰的分割點之間有足夠的距離。這種設計既保證了內容的完整性,也維持了處理的效率。
每個分割后的視頻片段都會被轉換成緊湊的特征表示,同時生成一個特殊的片段標識符。這些標識符在后續(xù)的決策過程中發(fā)揮著重要作用,幫助系統(tǒng)快速定位和檢索相關的視頻內容。
三、實時決策機制的創(chuàng)新設計
Dispider的決策機制是整個系統(tǒng)的核心創(chuàng)新之一。這個機制需要在每個時刻快速判斷:基于目前觀察到的視頻內容和歷史交互記錄,系統(tǒng)是否應該作出回應,還是應該繼續(xù)等待更多信息。
決策過程采用了一種巧妙的交錯序列設計。系統(tǒng)首先將用戶的問題時間點之前的所有視頻片段特征進行全局匯總,形成歷史記憶。然后構建一個包含歷史記憶、問題文本、當前視頻片段特征以及決策標記的交錯序列。
這個序列的構建過程頗有講究。對于單次交互,序列的格式是:歷史記憶 + 問題 + 當前視頻特征 +"TODO"標記。當系統(tǒng)決定回應時,會在相應位置插入"ANS"標記。對于多輪交互,序列會變得更加復雜,需要包含多個歷史回應的時間點和內容標記。
特別重要的是,在這個過程中,系統(tǒng)完全不使用反應模塊生成的具體回應文本。這種設計確保了決策過程的獨立性和連續(xù)性。即使反應模塊正在生成一個復雜的回應,決策模塊也能繼續(xù)監(jiān)控視頻內容,評估新的交互機會。
決策模塊使用一個緊湊的大語言模型來處理這個交錯序列,并在"TODO"標記位置應用二分類頭來預測是否應該回應。這種設計既保證了決策的準確性,也確保了足夠快的響應速度。
四、異步交互生成系統(tǒng)
當決策模塊判斷需要作出回應時,異步交互系統(tǒng)就開始發(fā)揮作用。這個系統(tǒng)的設計理念是讓回應生成和視頻監(jiān)控能夠并行進行,避免傳統(tǒng)系統(tǒng)中常見的"說話時就看不見"的問題。
交互生成過程始終基于觸發(fā)時刻的視頻狀態(tài)。系統(tǒng)會收集當前的問題、之前生成的回應(如果有的話)以及觸發(fā)時刻對應的視頻片段特征。為了支持復雜的多跳推理,系統(tǒng)還會通過計算"TODO"標記與歷史片段標識符的相似度來檢索相關的歷史內容。
這種檢索機制特別重要,因為回答一個問題所需的信息可能分布在視頻的不同時間段。通過相似度計算,系統(tǒng)能夠找到所有相關的歷史片段,就像一個經驗豐富的偵探能夠將分散的線索串聯起來形成完整的推論。
為了提高檢索的準確性,系統(tǒng)使用了監(jiān)督學習方法來訓練相似度計算模塊。具體來說,系統(tǒng)會計算預測的相關性分布和真實相關性分布之間的KL散度損失,通過這種方式來優(yōu)化檢索效果。
交互生成系統(tǒng)還具備處理錯誤觸發(fā)的能力。有時候決策模塊可能會誤判,在不需要回應的時候觸發(fā)交互生成。為了處理這種情況,系統(tǒng)引入了"SILENT"標記,允許交互生成模塊在二次確認后選擇保持沉默。這種設計提高了系統(tǒng)的魯棒性和用戶體驗。
五、訓練策略與數據處理
Dispider采用了兩階段的訓練策略,這種設計充分考慮了不同模塊的特點和需求。第一階段專注于訓練流式視頻處理器和決策模塊,第二階段則專門優(yōu)化交互生成模塊。
第一階段的訓練數據來源豐富多樣,包括GroundVQA和ET-Instruct等現有數據集,并且增加了豐富的時間標注信息來支持流式處理訓練。研究團隊還專門構建了5萬個隱含時間推理的問答對,用于增強系統(tǒng)的基礎推理能力。這些數據的時間標注對于訓練決策模塊至關重要,它們教會系統(tǒng)什么時候應該說話,什么時候應該保持沉默。
第二階段的訓練專門針對交互生成模塊。在這個階段,研究團隊凍結了視頻編碼器和緊湊語言模型的參數,只訓練最終的交互生成模塊。訓練數據包含了12.2萬個流式視頻問答對,這些數據從ET-Instruct數據集的時間戳標注中生成,并且用VideoChatGPT和LLaVA-Next-Video的數據進行了擴充。
訓練過程中一個重要的設計是指令插入的隨機化。系統(tǒng)會在不同的時間戳位置插入指令,這種做法提高了模型對任意時間點查詢的適應能力。在傳統(tǒng)基準測試中,問題被放置在視頻末尾以確保公平比較,而在流式評估中,問題被放置在視頻開始處以支持主動響應。
六、實驗驗證與性能表現
研究團隊設計了全面的實驗來驗證Dispider系統(tǒng)的有效性。實驗涵蓋了流式視頻理解和傳統(tǒng)視頻問答兩個方面,確保系統(tǒng)在不同場景下都能表現出色。
在流式視頻理解方面,研究團隊使用了StreamingBench基準測試,這是專門為評估流式視頻理解能力設計的綜合性測試平臺。測試包括實時視覺理解、全源理解和上下文理解三個主要方面,涵蓋了物體感知、因果推理、剪輯總結、屬性感知、事件理解等多個具體任務。
實驗結果顯示,Dispider在多個關鍵指標上都顯著超越了現有的流式處理系統(tǒng)。特別值得注意的是在"主動輸出"任務上的表現,這個任務要求系統(tǒng)能夠在特定事件發(fā)生時主動提供信息。傳統(tǒng)的流式處理系統(tǒng)在這個任務上幾乎完全失敗,而Dispider獲得了25.3的競爭性得分,展現了其出色的主動響應能力。
在ET-Bench子集的流式設置測試中,Dispider在所有測試指標上都明顯優(yōu)于VideoLLM-online系統(tǒng)。特別是在時間定位任務上,Dispider展現了更強的時間感知能力,能夠更準確地將回應與特定的時間點關聯起來。有趣的是,在某些任務如密集視頻描述和步驟定位上,Dispider在流式模式下的表現甚至超過了傳統(tǒng)離線模式,這表明分解式架構能夠更有效地監(jiān)控視頻流并主動生成信息豐富的回應。
研究團隊還進行了定性比較實驗,清晰地展示了Dispider相比傳統(tǒng)系統(tǒng)的優(yōu)勢。在處理需要多步推理的復雜問題時,Dispider能夠逐步識別視頻流中的必要線索,一步步生成信息豐富的答案。例如,面對"我很渴,應該怎么辦?"這樣的問題,Dispider能夠從問題中的"渴"聯想到視頻中出現的飲品,然后基于上下文推斷出具體的行動建議。相比之下,VideoLLM-online只能提供簡單的場景描述或正在進行的動作說明。
在傳統(tǒng)視頻理解任務上,Dispider同樣表現出色。在EgoSchema、MLVU、VideoMME等權威基準測試中,該系統(tǒng)都獲得了有競爭力的結果。特別是在EgoSchema測試中,Dispider獲得了55.6的準確率,這個測試專門考察長時間推理能力,Dispider的優(yōu)秀表現證明了其強大的時序感知和推理能力。
七、消融實驗與細節(jié)驗證
為了深入理解系統(tǒng)各個組成部分的作用,研究團隊進行了詳細的消融實驗。這些實驗系統(tǒng)地驗證了設計選擇的合理性和必要性。
關于視頻分割策略的實驗顯示,基于場景邊界的非均勻分割相比傳統(tǒng)的均勻分割方法帶來了顯著改善。在MLVU和VideoMME的傳統(tǒng)問答任務中,場景分割方法分別獲得了61.7和57.2的準確率,而均勻分割方法只獲得了59.8和55.4。在流式任務中,這種改善更加明顯,特別是在時間視頻定位和密集視頻描述任務上。
特殊標記設計的消融實驗揭示了每個標記的具體作用。實驗發(fā)現缺少"ANS"標記會導致系統(tǒng)無法準確追蹤歷史回應的時間戳,結果是在相關線索出現時系統(tǒng)傾向于產生回應,導致高召回率但低精確度的現象。缺少"TODO"標記會讓流式處理器無法明確何時需要做決策,導致性能輕微下降。而"SILENT"標記在最終語言模型中充當二級過濾器的角色,當前面的流式處理器錯誤地識別某個時間戳需要回應時,這個標記讓語言模型能夠重新考慮是否真的需要答案。
實驗數據清楚地顯示了各個組件的重要性。在最完整的配置下,系統(tǒng)在時間視頻定位任務上獲得了36.1的F1分數,在密集視頻描述任務上獲得了33.8的F1分數和18.9的相似度分數。任何組件的缺失都會導致性能的下降,證明了整體設計的協調性和必要性。
八、技術實現細節(jié)與架構優(yōu)化
Dispider的技術實現展現了研究團隊在系統(tǒng)工程方面的深厚功力。整個系統(tǒng)采用了混合架構設計,使用一個緊湊的語言模型作為主動流式視頻處理器來做響應決策,使用一個更大的語言模型作為精確交互模塊來生成具體回應。
在視頻處理pipeline中,輸入視頻幀被調整為224×224分辨率,使用CLIP-L/14模型提取逐幀特征。借鑒VideoStream中的令牌壓縮技術,系統(tǒng)將相鄰令牌進行連接,然后使用緊湊的語言模型(Qwen2-1.5B的實例化)生成時間感知的壓縮片段特征以及片段標識符。
決策處理使用同一個緊湊模型來處理由全局記憶、問題文本和片段特征組成的序列。最終的語言模型使用Qwen2-7B實例化,在必要的時間戳接收定位片段和全局記憶來生成回應。
這種分層設計的好處在于計算資源的優(yōu)化配置。緊湊模型負責需要高頻率執(zhí)行的感知和決策任務,確保系統(tǒng)的實時響應能力。而大型模型只在需要生成具體回應時才被調用,避免了不必要的計算開銷。
訓練過程采用兩階段策略,第一階段訓練流式視頻處理器和響應決策模塊,使用GroundVQA和ET-Instruct的組合數據,并增加了豐富的時間標注來監(jiān)督流式響應和提供時間定位標簽。第二階段凍結視頻編碼器和緊湊語言模型,只訓練最終的交互模塊。
九、實際應用前景與影響分析
Dispider系統(tǒng)的成功不僅僅是一個技術突破,更重要的是它開啟了視頻AI交互的全新可能性。這項技術的應用前景極其廣闊,幾乎涉及到視頻內容處理的各個領域。
在教育領域,Dispider可以革命性地改變在線學習體驗。設想一個學生正在觀看數學課程視頻,當老師講到復雜概念時,AI助手能夠實時檢測到學生可能的困惑點,主動提供補充解釋或相關例題。這種即時、個性化的學習輔導將大大提高學習效率和質量。
在體育轉播和娛樂內容領域,Dispider能夠為觀眾提供沉浸式的互動體驗。在觀看足球比賽時,系統(tǒng)可以在關鍵時刻自動提供球員統(tǒng)計數據、戰(zhàn)術分析或歷史對比信息。在觀看電影時,系統(tǒng)能夠根據情節(jié)發(fā)展提供背景信息、演員介紹或相關花絮,而不會打斷觀影體驗的連續(xù)性。
醫(yī)療診斷和監(jiān)控領域也將從這項技術中獲益匪淺。醫(yī)生在查看長時間的手術錄像或監(jiān)控視頻時,AI系統(tǒng)能夠實時標識異常情況,提醒醫(yī)生注意特定的生理指標變化或潛在風險點,大大提高診斷效率和準確性。
安全監(jiān)控系統(tǒng)將變得更加智能和主動。傳統(tǒng)的監(jiān)控系統(tǒng)需要人工定期檢查錄像,而配備Dispider技術的系統(tǒng)能夠在可疑事件發(fā)生時立即發(fā)出警報,并提供詳細的情況分析,幫助安全人員快速做出響應決策。
內容創(chuàng)作和媒體制作領域也將迎來重大變革。視頻編輯師在處理大量素材時,AI助手能夠實時識別精彩片段、提取關鍵信息,甚至自動生成內容摘要和標簽,大大提高后期制作的效率。
更重要的是,Dispider代表了人機交互范式的一個重要轉變。它將AI從被動的"問答機器"轉變?yōu)橹鲃拥?交流伙伴",能夠根據情境主動提供有價值的信息和見解。這種轉變將深刻影響我們與AI系統(tǒng)的交互方式,使人工智能真正成為我們日常生活和工作中的智能助手。
當然,這項技術的普及還面臨一些挑戰(zhàn)。計算資源的需求、實時處理的延遲優(yōu)化、不同應用場景的適配等問題都需要進一步解決。但是,Dispider已經為解決這些問題指明了方向,為未來的智能視頻交互系統(tǒng)奠定了堅實的技術基礎。
說到底,Dispider的意義不僅在于它解決了一個特定的技術難題,更在于它開啟了一種全新的可能性——讓AI真正理解我們的視覺世界,并能夠以人類的方式與我們進行自然、實時的交流。這種技術進步將讓我們的數字生活變得更加智能、便捷和有趣。對于那些希望深入了解這項技術細節(jié)的讀者,建議查閱研究團隊在GitHub上發(fā)布的完整論文和開源代碼,網址是https://github.com/Mark12Ding/Dispider。
Q&A
Q1:Dispider和傳統(tǒng)視頻AI系統(tǒng)有什么區(qū)別?
A:Dispider最大的創(chuàng)新是實現了"邊看邊聊"的能力,而傳統(tǒng)系統(tǒng)必須看完整個視頻才能回答問題。Dispider將感知、決策和反應三個功能分離成獨立模塊,讓AI能夠一邊持續(xù)觀看視頻一邊進行實時交流,就像人類觀影時的自然互動一樣。
Q2:Dispider在哪些場景下最有用?
A:Dispider特別適合需要實時交互的長視頻場景,比如在線教育課程(可以在學生困惑時主動解釋)、體育直播(在精彩時刻自動提供分析)、安全監(jiān)控(發(fā)現異常時即時報警)、醫(yī)療診斷(識別關鍵指標變化時提醒醫(yī)生)等。任何需要AI在觀看過程中主動提供信息的應用都能受益。
Q3:Dispider的核心技術創(chuàng)新是什么?
A:核心創(chuàng)新是三分式架構設計:感知模塊持續(xù)監(jiān)控視頻內容,決策模塊快速判斷何時需要回應,反應模塊異步生成具體回應內容。這種設計讓三個功能可以并行工作,解決了傳統(tǒng)系統(tǒng)無法同時觀看和思考的根本矛盾,實現了真正的實時視頻交互。