發(fā)布時(shí)間:2025-09-19 來源:付之丙丁網(wǎng)作者:猛踹瘸子丨好腿
在人工智能快速發(fā)展的今天,讓計(jì)算機(jī)通過文字描述找到特定人物這件事,聽起來簡單,做起來卻極其困難。這項(xiàng)由東北大學(xué)鄭天陸、張逸凡等研究員與華南理工大學(xué)、深瞳科技聯(lián)合完成的研究,發(fā)表于2025年9月的arXiv預(yù)印本平臺(tái),為這一挑戰(zhàn)性問題提供了全新解決方案。有興趣深入了解的讀者可以通過論文鏈接https://github.com/Multimodal-Representation-Learning-MRL/GA-DMS和數(shù)據(jù)集鏈接https://huggingface.co/datasets/Kaichengalex/WebPerson-5M訪問完整資源。
當(dāng)我們在茫茫人海中尋找某個(gè)人時(shí),通常會(huì)依靠一些描述性特征:穿著藍(lán)色外套的女性、戴眼鏡的男士、背著紅色書包的學(xué)生。對人類來說,這種基于文字描述的人物識(shí)別是一件相當(dāng)自然的事情,但對計(jì)算機(jī)而言,理解"穿著條紋襯衫的高個(gè)子男性"這樣的描述并在成千上萬張圖片中找到對應(yīng)人物,卻是一個(gè)極其復(fù)雜的技術(shù)難題。這種技術(shù)被稱為"文本描述人物檢索",在安防監(jiān)控、失蹤人員搜尋、智能零售等領(lǐng)域有著廣泛應(yīng)用前景。
現(xiàn)有的人工智能模型在處理這類任務(wù)時(shí)面臨著兩大核心困擾。第一個(gè)困擾可以比作"營養(yǎng)不良"——缺乏高質(zhì)量的訓(xùn)練數(shù)據(jù)。目前可用的人物描述數(shù)據(jù)集規(guī)模相對較小,就像一個(gè)廚師只有幾種有限的食材,很難烹飪出豐富多樣的菜品。研究團(tuán)隊(duì)發(fā)現(xiàn),現(xiàn)有數(shù)據(jù)集通常只包含幾萬到幾十萬張圖片,而且描述文字往往存在不準(zhǔn)確或描述不夠詳細(xì)的問題。第二個(gè)困擾則像是"消化不良"——現(xiàn)有模型在學(xué)習(xí)過程中容易被噪聲信息干擾,無法有效區(qū)分描述中哪些詞匯真正重要,哪些可能是干擾項(xiàng)。這就像一個(gè)人在嘈雜的環(huán)境中試圖專心聽對話,很容易被背景噪音分散注意力。
為了解決這兩大難題,研究團(tuán)隊(duì)開發(fā)了一套名為GA-DMS的創(chuàng)新框架,這個(gè)名字代表"梯度注意力引導(dǎo)的雙重掩蔽協(xié)同框架"。同時(shí),他們還構(gòu)建了一個(gè)名為WebPerson的大規(guī)模數(shù)據(jù)集,包含500萬張高質(zhì)量的人物圖像和相應(yīng)的文字描述。
一、數(shù)據(jù)集構(gòu)建:從網(wǎng)絡(luò)海洋中"釣"出優(yōu)質(zhì)人物圖片
構(gòu)建高質(zhì)量的數(shù)據(jù)集就像在浩瀚的網(wǎng)絡(luò)海洋中進(jìn)行精準(zhǔn)捕撈。研究團(tuán)隊(duì)首先從包含7.47億張圖片的COYO700M數(shù)據(jù)集開始,這相當(dāng)于在一個(gè)巨大的數(shù)字圖書館中尋找合適的人物照片。他們設(shè)計(jì)了一套嚴(yán)格的篩選流程,就像設(shè)置了多重過濾網(wǎng),確保只有最優(yōu)質(zhì)的"魚"能夠通過。
篩選過程可以想象成一個(gè)經(jīng)驗(yàn)豐富的攝影師在挑選作品。首先,系統(tǒng)會(huì)使用YOLOv11人體檢測模型,就像一雙經(jīng)過訓(xùn)練的眼睛,能夠準(zhǔn)確識(shí)別圖片中是否有人物出現(xiàn),并且確保人物在畫面中占據(jù)足夠重要的位置。具體來說,圖片的短邊必須超過90像素,寬高比要在1:2到1:4之間,人體檢測的置信度要達(dá)到85%以上。這樣的標(biāo)準(zhǔn)確保了圖片具有足夠的清晰度和合理的構(gòu)圖比例。
接下來,系統(tǒng)還會(huì)進(jìn)行更精細(xì)的姿態(tài)檢測,就像一個(gè)專業(yè)的人體素描師,需要確認(rèn)人物的關(guān)鍵身體部位都清晰可見。通過YOLOv11-Pose模型,系統(tǒng)會(huì)檢查是否能夠識(shí)別出至少8個(gè)關(guān)鍵身體節(jié)點(diǎn),包括至少一個(gè)髖部關(guān)鍵點(diǎn)和兩個(gè)頭部關(guān)鍵點(diǎn)。只有通過這些嚴(yán)格檢測的圖片才能進(jìn)入最終的數(shù)據(jù)集。經(jīng)過這樣層層篩選,研究團(tuán)隊(duì)從海量網(wǎng)絡(luò)圖片中精選出了500萬張高質(zhì)量的人物圖像。
有了圖片還不夠,每張圖片都需要配上準(zhǔn)確詳細(xì)的文字描述。傳統(tǒng)的做法是雇傭大量人工標(biāo)注員,但這種方法不僅成本高昂,而且效率低下。研究團(tuán)隊(duì)采用了一種更加智能的方法,利用大型多模態(tài)語言模型來自動(dòng)生成描述文字。這就像雇傭了一批"AI寫手",它們不知疲倦地為每張圖片撰寫詳細(xì)而準(zhǔn)確的說明文字。
為了確保描述的多樣性和準(zhǔn)確性,研究團(tuán)隊(duì)首先從現(xiàn)有的人物描述數(shù)據(jù)集中提取了各種描述模板,然后使用先進(jìn)的AI模型對這些模板進(jìn)行優(yōu)化和擴(kuò)展。這個(gè)過程就像創(chuàng)作一本寫作指南,為AI寫手提供各種不同風(fēng)格和角度的寫作樣本。他們利用k-means聚類算法將相似的描述模板歸類整理,最終構(gòu)建了包含一千個(gè)高質(zhì)量模板的資源庫。
在生成具體描述時(shí),系統(tǒng)會(huì)為每張圖片隨機(jī)選擇一個(gè)合適的模板,然后使用千問2.5視覺語言模型根據(jù)圖片內(nèi)容填寫具體細(xì)節(jié)。這個(gè)過程就像按照食譜烹飪,但每次都會(huì)根據(jù)具體食材調(diào)整做法,確保最終的"菜品"既符合基本要求,又具有獨(dú)特特色。通過這種方法,每張圖片都能獲得平均兩個(gè)不同角度的詳細(xì)描述,總共產(chǎn)生了超過1000萬條高質(zhì)量的圖文配對數(shù)據(jù)。
二、核心算法:教會(huì)機(jī)器識(shí)別描述中的關(guān)鍵信息
擁有了豐富的數(shù)據(jù)集后,如何讓機(jī)器真正理解和運(yùn)用這些信息成為了關(guān)鍵挑戰(zhàn)。研究團(tuán)隊(duì)開發(fā)的GA-DMS框架就像為機(jī)器裝上了一副"智能眼鏡",能夠幫助它更好地理解文字描述中的重要信息,同時(shí)過濾掉干擾性的噪聲。
這套系統(tǒng)的核心創(chuàng)新在于引入了梯度注意力相似性評分機(jī)制。為了理解這個(gè)概念,我們可以把機(jī)器學(xué)習(xí)過程想象成一個(gè)學(xué)生在做閱讀理解題。當(dāng)學(xué)生讀到"穿著藍(lán)色條紋襯衫的高個(gè)子男性"這樣的描述時(shí),他需要判斷哪些詞匯最重要,哪些可能是干擾信息。傳統(tǒng)的方法就像讓學(xué)生盲目地記住所有詞匯,而GA-DMS框架則像給學(xué)生提供了一套科學(xué)的分析方法。
具體來說,系統(tǒng)會(huì)計(jì)算每個(gè)文字token對整體圖像-文本匹配的貢獻(xiàn)程度。這就像給每個(gè)詞匯打分,"藍(lán)色"、"條紋"、"襯衫"、"高個(gè)子"這些具體的描述性詞匯會(huì)得到較高的分?jǐn)?shù),而一些連接詞或者可能存在錯(cuò)誤的詞匯則會(huì)得到較低的分?jǐn)?shù)。這個(gè)打分過程綜合考慮了梯度信息和注意力機(jī)制,就像同時(shí)從多個(gè)角度評估每個(gè)詞匯的重要性。
系統(tǒng)還引入了多尺度池化層,這就像給機(jī)器配備了不同倍率的放大鏡,能夠同時(shí)關(guān)注圖片的整體特征和局部細(xì)節(jié)。當(dāng)描述中提到"戴眼鏡"時(shí),系統(tǒng)不僅要理解整體的人物形象,還要能夠聚焦到面部的眼鏡這個(gè)細(xì)節(jié)特征。通過平均池化鄰近token的方式,系統(tǒng)能夠獲得更豐富的多尺度語義信息。
基于這些評分結(jié)果,GA-DMS框架實(shí)施了一種巧妙的雙重掩蔽策略。第一種掩蔽針對噪聲詞匯,就像用橡皮擦除錯(cuò)誤答案一樣,系統(tǒng)會(huì)根據(jù)評分結(jié)果適當(dāng)"遮擋"那些得分較低、可能包含錯(cuò)誤信息的詞匯,減少它們對最終結(jié)果的干擾影響。掩蔽概率的計(jì)算采用了一個(gè)精心設(shè)計(jì)的公式,能夠確保真正的噪聲詞匯被有效過濾,而重要信息得到保留。
第二種掩蔽則針對重要的描述性詞匯,這看起來可能有些反直覺,就像故意遮住試卷中的關(guān)鍵信息。但這種做法的目的是訓(xùn)練模型更好地理解上下文語義。當(dāng)系統(tǒng)在訓(xùn)練過程中遇到被遮擋的重要詞匯時(shí),它必須學(xué)會(huì)通過其他可見的詞匯來推斷和預(yù)測這些關(guān)鍵信息,從而加深對整體語義的理解。這就像讓學(xué)生通過上下文推斷被遮住的關(guān)鍵詞,能夠顯著提高理解能力和泛化性能。
整個(gè)訓(xùn)練過程采用了相似性分布匹配損失函數(shù),這就像為機(jī)器設(shè)定了一個(gè)明確的學(xué)習(xí)目標(biāo)。系統(tǒng)不僅要能夠正確匹配圖片和描述,還要學(xué)會(huì)區(qū)分相似但不同的人物特征。例如,當(dāng)面對"穿藍(lán)色襯衫的男性"和"穿紅色襯衫的男性"兩個(gè)描述時(shí),系統(tǒng)必須能夠準(zhǔn)確識(shí)別顏色差異并找到對應(yīng)的圖片。
三、實(shí)驗(yàn)驗(yàn)證:全面超越現(xiàn)有技術(shù)水平
為了驗(yàn)證GA-DMS框架的有效性,研究團(tuán)隊(duì)在三個(gè)標(biāo)準(zhǔn)的人物檢索數(shù)據(jù)集上進(jìn)行了詳盡的實(shí)驗(yàn)驗(yàn)證。這些數(shù)據(jù)集包括CUHK-PEDES、ICFG-PEDES和RSTPReid,它們就像這個(gè)領(lǐng)域的"標(biāo)準(zhǔn)化考試",被廣泛用于評估不同技術(shù)方案的性能表現(xiàn)。
實(shí)驗(yàn)結(jié)果令人鼓舞。在CUHK-PEDES數(shù)據(jù)集上,GA-DMS框架在Rank-1準(zhǔn)確率指標(biāo)上達(dá)到了77.6%,相比之前的最佳方法提升了0.78個(gè)百分點(diǎn)。雖然這個(gè)提升幅度看起來不大,但在這個(gè)競爭激烈的領(lǐng)域中,每一個(gè)百分點(diǎn)的提升都代表著技術(shù)的顯著進(jìn)步。更重要的是,在另外兩個(gè)數(shù)據(jù)集上的表現(xiàn)更加突出:在ICFG-PEDES上達(dá)到69.51%的準(zhǔn)確率,在RSTPReid上更是達(dá)到了71.25%,相比基線方法分別提升了2.46%和3.05%。
這些數(shù)字背后反映的是系統(tǒng)在實(shí)際應(yīng)用中的表現(xiàn)。以RSTPReid數(shù)據(jù)集為例,3.05%的提升意味著在1000次搜索中,GA-DMS框架能夠比之前的最佳方法多找對30個(gè)目標(biāo)人物,這在實(shí)際的安防監(jiān)控或人員搜尋應(yīng)用中具有重要意義。
研究團(tuán)隊(duì)還進(jìn)行了詳細(xì)的消融實(shí)驗(yàn),就像醫(yī)生進(jìn)行各項(xiàng)單獨(dú)檢查來確定每種治療方法的具體效果。實(shí)驗(yàn)結(jié)果顯示,梯度注意力相似性評分機(jī)制貢獻(xiàn)了大部分性能提升,而雙重掩蔽策略和相似性分布匹配損失函數(shù)也都起到了重要作用。特別值得注意的是,當(dāng)研究團(tuán)隊(duì)將傳統(tǒng)的余弦相似性評分替換為他們提出的梯度注意力相似性評分時(shí),在所有數(shù)據(jù)集上都觀察到了明顯的性能提升,證明了這一創(chuàng)新方法的有效性。
數(shù)據(jù)規(guī)模的影響也得到了充分驗(yàn)證。當(dāng)WebPerson數(shù)據(jù)集從10萬張圖片擴(kuò)展到500萬張時(shí),系統(tǒng)性能出現(xiàn)了顯著的階梯式提升。在CUHK-PEDES數(shù)據(jù)集上,Rank-1準(zhǔn)確率從58.95%逐步提升到68.34%,這清楚地表明了大規(guī)模高質(zhì)量訓(xùn)練數(shù)據(jù)對提升模型性能的重要作用。這種規(guī)模效應(yīng)就像學(xué)生通過大量練習(xí)題提高考試成績一樣,更多的優(yōu)質(zhì)訓(xùn)練樣本能夠幫助模型學(xué)習(xí)到更豐富和準(zhǔn)確的特征表示。
研究團(tuán)隊(duì)還測試了不同掩蔽概率參數(shù)的影響。他們發(fā)現(xiàn),對于噪聲詞匯的掩蔽概率設(shè)置為0.2,對于重要詞匯的掩蔽概率設(shè)置為0.3時(shí),系統(tǒng)能夠達(dá)到最佳性能平衡。這個(gè)發(fā)現(xiàn)為未來的研究提供了重要的參數(shù)設(shè)置參考。
四、技術(shù)創(chuàng)新:多項(xiàng)關(guān)鍵突破的協(xié)同效應(yīng)
GA-DMS框架的成功并非依賴單一技術(shù)創(chuàng)新,而是多項(xiàng)關(guān)鍵突破協(xié)同作用的結(jié)果。首先,梯度注意力相似性評分機(jī)制的引入徹底改變了傳統(tǒng)的詞匯重要性評估方法。傳統(tǒng)方法通常只能從注意力權(quán)重的角度評估詞匯重要性,而這種新方法結(jié)合了梯度信息,能夠更準(zhǔn)確地反映每個(gè)詞匯對最終任務(wù)目標(biāo)的實(shí)際貢獻(xiàn)。
這種評分機(jī)制的工作原理可以比作一個(gè)經(jīng)驗(yàn)豐富的偵探在分析案件線索。偵探不僅要關(guān)注每條線索本身的重要性(注意力權(quán)重),還要考慮這條線索對破案的實(shí)際幫助程度(梯度信息)。有些線索看起來很重要,但實(shí)際上對解決問題幫助不大;而有些看似普通的線索,卻可能是破案的關(guān)鍵。GA-DMS框架正是通過這種綜合評估方法,更準(zhǔn)確地識(shí)別出文本描述中的關(guān)鍵信息。
多尺度特征融合是另一項(xiàng)重要?jiǎng)?chuàng)新。人物識(shí)別任務(wù)既需要理解整體特征(如身材高矮、整體著裝風(fēng)格),也需要捕捉局部細(xì)節(jié)(如眼鏡、手表、發(fā)型等)。傳統(tǒng)方法往往側(cè)重于某一個(gè)尺度的特征,而GA-DMS框架通過多尺度池化層,能夠同時(shí)捕獲不同粒度的語義信息。這就像一個(gè)優(yōu)秀的肖像畫家,既要把握人物的整體氣質(zhì),也要精確描繪每一個(gè)細(xì)節(jié)特征。
雙重掩蔽策略的設(shè)計(jì)體現(xiàn)了深刻的機(jī)器學(xué)習(xí)洞察。通過適當(dāng)掩蔽噪聲詞匯,系統(tǒng)能夠減少錯(cuò)誤信息的干擾;通過掩蔽重要詞匯并要求系統(tǒng)預(yù)測這些詞匯,又能夠增強(qiáng)模型的語義理解能力和泛化性能。這種看似矛盾的做法,實(shí)際上體現(xiàn)了"欲擒故縱"的訓(xùn)練策略,讓模型在挑戰(zhàn)中成長。
在數(shù)據(jù)構(gòu)建方面,研究團(tuán)隊(duì)也實(shí)現(xiàn)了重要突破。他們設(shè)計(jì)的自動(dòng)化標(biāo)注流程不僅大大降低了數(shù)據(jù)構(gòu)建成本,還確保了描述的一致性和質(zhì)量。通過使用結(jié)構(gòu)化模板引導(dǎo)AI模型生成描述,避免了完全自由生成可能出現(xiàn)的不一致或不準(zhǔn)確問題。這就像為AI寫手提供了詳細(xì)的寫作指南和質(zhì)量控制標(biāo)準(zhǔn),確保產(chǎn)出的內(nèi)容既豐富多樣又符合要求。
WebPerson數(shù)據(jù)集的構(gòu)建也體現(xiàn)了對數(shù)據(jù)質(zhì)量的嚴(yán)格把控。從網(wǎng)絡(luò)圖片的篩選到姿態(tài)完整性檢查,每一個(gè)環(huán)節(jié)都有嚴(yán)格的質(zhì)量標(biāo)準(zhǔn)。這種多層次的質(zhì)量控制體系確保了最終數(shù)據(jù)集的高質(zhì)量,為模型訓(xùn)練提供了堅(jiān)實(shí)基礎(chǔ)。
五、實(shí)際應(yīng)用:廣闊的應(yīng)用前景
GA-DMS框架的技術(shù)突破為多個(gè)實(shí)際應(yīng)用領(lǐng)域帶來了新的可能性。在安防監(jiān)控領(lǐng)域,這項(xiàng)技術(shù)能夠大大提高基于文字描述的人員搜尋效率。當(dāng)安保人員接到"尋找穿紅色外套、戴黑色帽子的女性"這樣的指令時(shí),系統(tǒng)能夠在海量監(jiān)控錄像中快速定位目標(biāo)人物,大大縮短搜尋時(shí)間。這對于維護(hù)公共安全、尋找失蹤人員等場景具有重要價(jià)值。
在智能零售領(lǐng)域,這項(xiàng)技術(shù)能夠幫助商家更好地理解和服務(wù)顧客。例如,當(dāng)顧客描述"昨天幫我挑選衣服的那位穿藍(lán)色工作服的銷售員"時(shí),系統(tǒng)能夠快速識(shí)別對應(yīng)員工,為建立更個(gè)性化的服務(wù)體驗(yàn)提供技術(shù)支撐。
在社交媒體和內(nèi)容管理領(lǐng)域,這項(xiàng)技術(shù)也有廣泛應(yīng)用前景。用戶可以通過簡單的文字描述快速找到特定的人物照片,大大提高內(nèi)容檢索的效率和準(zhǔn)確性。這對于照片管理、社交平臺(tái)的人物標(biāo)注等應(yīng)用都有重要意義。
更有趣的是,這項(xiàng)技術(shù)還可能在影視制作、游戲開發(fā)等創(chuàng)意產(chǎn)業(yè)中發(fā)揮作用。導(dǎo)演或游戲策劃可以通過文字描述快速篩選合適的演員形象或角色設(shè)計(jì),大大提高創(chuàng)作效率。
值得注意的是,研究團(tuán)隊(duì)在開發(fā)過程中也充分考慮了倫理和隱私問題。他們在數(shù)據(jù)收集過程中嚴(yán)格遵循相關(guān)法律法規(guī),并在論文中明確提出了負(fù)責(zé)任使用技術(shù)的建議,體現(xiàn)了科研工作者的社會(huì)責(zé)任感。
六、未來展望:持續(xù)改進(jìn)的空間
盡管GA-DMS框架已經(jīng)取得了顯著的性能提升,但研究團(tuán)隊(duì)也坦誠地指出了當(dāng)前工作的局限性和未來的改進(jìn)方向。首先,受限于計(jì)算資源,目前構(gòu)建的WebPerson數(shù)據(jù)集規(guī)模為500萬張圖片,雖然已經(jīng)是同類數(shù)據(jù)集中的佼佼者,但仍有進(jìn)一步擴(kuò)大規(guī)模的空間。更大規(guī)模的數(shù)據(jù)集可能會(huì)帶來更顯著的性能提升。
在技術(shù)方法方面,梯度注意力相似性評分機(jī)制仍有優(yōu)化潛力。研究團(tuán)隊(duì)發(fā)現(xiàn),不同層次的梯度信息對評分結(jié)果有不同影響,如何更好地平衡和融合這些信息是未來研究的重要方向。他們的實(shí)驗(yàn)表明,使用文本編碼器的最后8層梯度信息能夠獲得最佳性能,但這個(gè)結(jié)論是否在更大規(guī)模數(shù)據(jù)和不同模型架構(gòu)下仍然成立,還需要進(jìn)一步驗(yàn)證。
跨域泛化能力是另一個(gè)值得關(guān)注的研究方向。雖然GA-DMS在標(biāo)準(zhǔn)數(shù)據(jù)集上表現(xiàn)優(yōu)異,但在面對完全不同場景或人群時(shí)的泛化能力還需要更深入的研究。例如,在不同文化背景、不同年齡群體或不同服裝風(fēng)格的數(shù)據(jù)上,系統(tǒng)的表現(xiàn)可能會(huì)有所差異。
多語言支持也是未來發(fā)展的重要方向。目前的研究主要基于英文描述,但在實(shí)際應(yīng)用中,支持中文、法文、西班牙文等多種語言的描述將大大擴(kuò)展技術(shù)的應(yīng)用范圍。這需要在數(shù)據(jù)收集、模型訓(xùn)練和評估方法等多個(gè)環(huán)節(jié)進(jìn)行相應(yīng)調(diào)整。
實(shí)時(shí)性能優(yōu)化是另一個(gè)實(shí)際應(yīng)用中的關(guān)鍵考慮因素。雖然GA-DMS在準(zhǔn)確性方面表現(xiàn)出色,但在大規(guī)模圖片庫中進(jìn)行實(shí)時(shí)搜索時(shí)的響應(yīng)速度還有優(yōu)化空間。如何在保持高準(zhǔn)確率的同時(shí)提高搜索效率,是技術(shù)落地的重要挑戰(zhàn)。
說到底,這項(xiàng)由東北大學(xué)團(tuán)隊(duì)主導(dǎo)的研究為文本描述人物檢索領(lǐng)域帶來了實(shí)質(zhì)性突破。通過創(chuàng)新的梯度注意力機(jī)制和精心構(gòu)建的大規(guī)模數(shù)據(jù)集,GA-DMS框架在準(zhǔn)確性方面達(dá)到了新的高度。更重要的是,這項(xiàng)研究提供的技術(shù)框架和數(shù)據(jù)資源為整個(gè)科研社區(qū)提供了寶貴的基礎(chǔ)設(shè)施,有助于推動(dòng)相關(guān)領(lǐng)域的持續(xù)發(fā)展。
歸根結(jié)底,這項(xiàng)技術(shù)的價(jià)值不僅在于其優(yōu)異的性能表現(xiàn),更在于它為人工智能在理解和處理人類語言描述方面提供了新的思路和方法。隨著技術(shù)的不斷完善和應(yīng)用場景的不斷拓展,我們有理由相信,基于文字描述的智能人物檢索將在未來的數(shù)字化生活中發(fā)揮越來越重要的作用。對于普通用戶而言,這意味著我們與人工智能系統(tǒng)的交互將變得更加自然和高效,僅憑簡單的文字描述就能讓機(jī)器準(zhǔn)確理解我們的意圖并提供精準(zhǔn)的服務(wù)。有興趣進(jìn)一步了解這項(xiàng)研究的讀者,可以通過研究團(tuán)隊(duì)提供的開源代碼和數(shù)據(jù)集資源進(jìn)行深入探索,為這一重要技術(shù)領(lǐng)域貢獻(xiàn)自己的力量。
Q&A
Q1:什么是GA-DMS框架?它的主要功能是什么?
A:GA-DMS是"梯度注意力引導(dǎo)的雙重掩蔽協(xié)同框架"的簡稱,由東北大學(xué)等機(jī)構(gòu)聯(lián)合開發(fā)。它的主要功能是讓計(jì)算機(jī)能夠根據(jù)文字描述(比如"穿藍(lán)色襯衫的高個(gè)男性")在大量圖片中準(zhǔn)確找到對應(yīng)的人物。這項(xiàng)技術(shù)在安防監(jiān)控、失蹤人員搜尋、智能零售等領(lǐng)域有廣泛應(yīng)用價(jià)值。
Q2:WebPerson數(shù)據(jù)集有什么特別之處?規(guī)模有多大?
A:WebPerson是目前最大的自動(dòng)生成文本描述人物數(shù)據(jù)集,包含500萬張高質(zhì)量人物圖像和超過1000萬條詳細(xì)文字描述。與傳統(tǒng)需要大量人工標(biāo)注的數(shù)據(jù)集不同,WebPerson采用AI自動(dòng)篩選和標(biāo)注技術(shù),不僅規(guī)模更大,質(zhì)量也更穩(wěn)定一致,為人工智能訓(xùn)練提供了豐富的學(xué)習(xí)素材。
Q3:這項(xiàng)技術(shù)的準(zhǔn)確率有多高?比現(xiàn)有技術(shù)強(qiáng)在哪里?
A:GA-DMS框架在標(biāo)準(zhǔn)測試中表現(xiàn)優(yōu)異,在CUHK-PEDES數(shù)據(jù)集上達(dá)到77.6%的準(zhǔn)確率,在RSTPReid上更是達(dá)到71.25%。它的優(yōu)勢主要體現(xiàn)在能夠智能識(shí)別文字描述中的關(guān)鍵信息,過濾掉干擾詞匯,同時(shí)通過大規(guī)模訓(xùn)練數(shù)據(jù)學(xué)習(xí)到更準(zhǔn)確的人物特征表示,整體性能相比之前最佳方法提升了2-3個(gè)百分點(diǎn)。