對(duì)計(jì)算機(jī)來(lái)說(shuō),理解“穿紅色上衣的長(zhǎng)發(fā)女性”這類特征性描述,并在海量圖片中精準(zhǔn)找到對(duì)應(yīng)人物,是一項(xiàng)復(fù)雜的技術(shù)難題。盡管多模態(tài)預(yù)訓(xùn)練模型CLIP在多種視覺任務(wù)中展示出強(qiáng)大的性能,但其在人物表征學(xué)習(xí)的應(yīng)用中,也就是“以文找人”時(shí),面臨兩個(gè)關(guān)鍵挑戰(zhàn):
一是缺乏專注于人物中心圖像的大規(guī)模訓(xùn)練數(shù)據(jù);二是容易受到噪聲文本標(biāo)記的影響。
格靈深瞳參與研究的GA-DMS框架,為攻破上述技術(shù)難題提供了全新解決方案。研究團(tuán)隊(duì)通過(guò)數(shù)據(jù)構(gòu)建和模型架構(gòu)的協(xié)同改進(jìn),推動(dòng)CLIP在人物表征學(xué)習(xí)中的應(yīng)用,顯著提升了基于文本的人物檢索效果。該成果已入選EMNLP 2025 主會(huì)(自然語(yǔ)言處理領(lǐng)域的頂級(jí)國(guó)際會(huì)議之一)。
首先,團(tuán)隊(duì)開發(fā)了一個(gè)抗噪聲的數(shù)據(jù)構(gòu)建管道,利用機(jī)器學(xué)習(xí)語(yǔ)言模型(MLLMs)的上下文學(xué)習(xí)能力,自動(dòng)過(guò)濾和標(biāo)注網(wǎng)絡(luò)來(lái)源的圖像。這產(chǎn)生了一個(gè)大規(guī)模數(shù)據(jù)集WebPerson,包含500萬(wàn)高質(zhì)量的人物中心圖像-文本對(duì)。
其次,團(tuán)隊(duì)引入了梯度-注意力引導(dǎo)的雙重遮蔽協(xié)同(GA-DMS)框架,用來(lái)改善跨模態(tài)對(duì)齊。
此外,團(tuán)隊(duì)還加入了遮蔽標(biāo)記預(yù)測(cè)目標(biāo),讓模型能夠預(yù)測(cè)信息豐富的文本標(biāo)記,增強(qiáng)細(xì)粒度語(yǔ)義表征學(xué)習(xí)。
廣泛的實(shí)驗(yàn)表明,GA-DMS在多個(gè)基準(zhǔn)測(cè)試中達(dá)到了最先進(jìn)的性能,實(shí)現(xiàn)了更精準(zhǔn)的“以文找人”檢索能力——在CUHK-PEDES數(shù)據(jù)集上的準(zhǔn)確率達(dá)到77.6%,在RSTPReid上準(zhǔn)確率達(dá)到71.25%。

GA-DMS技術(shù)示意圖
關(guān)于技術(shù)報(bào)告的更多細(xì)節(jié),可點(diǎn)擊下方鏈接體驗(yàn)。
論文題目:Gradient-Attention Guided Dual-Masking Synergetic Framework for Robust Text-based Person Retrieval
研究團(tuán)隊(duì):格靈深瞳、東北大學(xué)、華南理工大學(xué)
報(bào)告鏈接:https://arxiv.org/pdf/2509.09118
項(xiàng)目主頁(yè):https://github.com/Multimodal-Representation-Learning-MRL/GA-DMS
-
AI
+關(guān)注
關(guān)注
88文章
37213瀏覽量
291994 -
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8532瀏覽量
136018 -
格靈深瞳
+關(guān)注
關(guān)注
1文章
73瀏覽量
5870
原文標(biāo)題:讓AI讀懂人物描寫!新框架GA-DMS突破“以文找人”技術(shù)難題 | Glint Tech
文章出處:【微信號(hào):shentongzhineng,微信公眾號(hào):格靈深瞳】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
格靈深瞳與奧瑞德達(dá)成戰(zhàn)略合作
格靈深瞳視覺基礎(chǔ)模型Glint-MVT的發(fā)展脈絡(luò)
格靈深瞳加入海光產(chǎn)業(yè)生態(tài)合作組織
格靈深瞳智慧金融產(chǎn)品家族全新升級(jí)
格靈深瞳視覺基礎(chǔ)模型Glint-MVT升級(jí)

格靈深瞳突破文本人物檢索技術(shù)難題
評(píng)論