導讀:
CLIP[1]是一個強大的開放詞匯模型,在圖像領域表現(xiàn)出強大的零樣本識別能力,但如何將該能力遷移到視頻領域是一個較難的問題,主要存在兩大挑戰(zhàn):一是如何為圖像CLIP模型注入時序建模能力;二是在視頻領域遷移的過程中如何保持其對開放詞匯理解能力。
許多工作通過在視頻數(shù)據(jù)集上進行微調(diào)以實現(xiàn)CLIP向視頻領域的遷移,然而由于微調(diào)時使用的數(shù)據(jù)集規(guī)模相對較小,導致模型發(fā)生過擬合,使得CLIP模型原有的零樣本識別能力有所丟失。
本文提出了一種新的CLIP向視頻領域的遷移方法,找到模型泛化和專用化之間的平衡,讓模型既能識別微調(diào)時已經(jīng)見過的動作和事件,又能夠借助CLIP的零樣本識別能力泛化到新的視頻動作和事件。

問題歸納:將開放詞匯視頻模型構建問題近似于持續(xù)學習問題
假設存在一個包含所有的“視頻-文本”對的數(shù)據(jù)集,那么可以通過在上最小化”視頻-文本“對比損失來獲得最佳開放視頻詞匯模型:
然而,現(xiàn)實中如此理想的數(shù)據(jù)集不可能存在,人們只能通過盡可能大規(guī)模、多樣化的視頻文本數(shù)據(jù)集來近似。視頻動作識別是視頻內(nèi)容理解中一類重要任務,本文選取了視頻動作識別數(shù)據(jù)集作為近似。此時,由于動作類別數(shù)量的限制(例如Kinetics-400只包含了400個類別),模型在微調(diào)過程中容易發(fā)生過擬合。
另一方面,本文發(fā)現(xiàn)CLIP的訓練數(shù)據(jù)包含大規(guī)?!皥D像-文本”對,且圖像可以容易地擴展為靜態(tài)視頻,因此可以認為原始CLIP的權重在大規(guī)?!办o態(tài)視頻-文本”(記作上已經(jīng)達到最優(yōu)。如果將數(shù)據(jù)集結合作為的近似,那么優(yōu)化目標將轉化為:
此處數(shù)據(jù)集是私有數(shù)據(jù)集,在CLIP遷移學習的過程中完全無法觸碰,而已知CLIP權重是數(shù)據(jù)集上的最優(yōu)解,因此本文目標是利用和構建開放詞匯視頻模型。自然地,開放詞匯視頻模型構建問題轉變?yōu)橐粋€持續(xù)學習的過程:在保持對歷史任務()性能的同時,不斷地在新的視頻-文本數(shù)據(jù)集()上訓練模型,提升模型的泛化能力。
Open-VCLIP方法介紹:
為了解決上述問題,本文提出Open-VCLIP方法,包括模型架構和算法改進兩部分。在架構設計方面,通過修改自注意層將時序建模能力注入到CLIP模型中;在算法改進方面,提出了插值權重優(yōu)化的新方法,取得更好的閉集性能與零樣本識別性能的權衡。
(1)注入CLIP時序建模能力
本文參考了Space-Time Mixing[2],通過修改自注意層的信息關注范圍,讓自注意力操作過程中的每個塊關注到所屬視頻幀以及相鄰視頻幀中的圖像塊信息來實現(xiàn)局部時序信息聚合,并隨著自注意力層的堆疊完成全局時間信息聚合,從而實現(xiàn)時序建模能力的注入。該過程不需要增加額外參數(shù),適配于后文引入的權重插值優(yōu)化方法。
(2)權重插值優(yōu)化算法
本文解決的是一個零歷史信息的持續(xù)學習問題,即以為模型初始化參數(shù),通過優(yōu)化將模型遷移到數(shù)據(jù)集上,同時需要盡可能保持最小。然而,標準的微調(diào)訓練方式往往容易使模型過擬合到,導致CLIP原始的開放詞匯能力流失嚴重,進而影響模型的泛化能力,這將是本文著重想要解決的問題。
受到[3]的啟發(fā),本文首先引入了一個無需優(yōu)化的權重插值策略:通過加權系數(shù)對CLIP原始參數(shù)和在數(shù)據(jù)集上完成微調(diào)后的參數(shù)進行加權平均操作,防止遷移學習后的模型在原始數(shù)據(jù)集上的過度遺忘。具體形式如下:
但這種做法由于不存在顯示的優(yōu)化約束,導致插值得到的模型可能會在上有較為嚴重的欠擬合。針對此問題,本文提出在訓練過程中對于插值模型在數(shù)據(jù)集上添加正則化約束,從而緩解插值得到的模型在新數(shù)據(jù)上欠擬合嚴重的問題。具體來說,本文提出在訓練過程中對插值權重系數(shù)進行隨機采樣,針對一系列取值下的插值模型在上進行優(yōu)化約束,最終的優(yōu)化目標如下:
其中,插值系數(shù)在區(qū)間區(qū)間均勻采樣,該范圍對應了期望構建的低損失區(qū)域。是正則化損失的權重系數(shù),本篇文章實現(xiàn)時將其取值為。對應的梯度計算如下:
最后,本文在訓練過程中對插值權重應用隨機權重平均(SWA)[4]來進一步提高方法穩(wěn)定性和泛化性。在實踐中,只需要維護模型權重的移動平均值,并在最后進行權重插值即可,形式化描述如下。
實驗
本文實驗采用Kinetics-400視頻動作識別數(shù)據(jù)集作為微調(diào)CLIP的訓練數(shù)據(jù),并將UCF、HMDB以及Kinetics-600子集作為測試視頻模型的零樣本識別能力的數(shù)據(jù)集。
(1)零樣本識別性能
與CLIP基線和標準微調(diào)模型進行對比,可以看出,相比于標準微調(diào)方法容易出現(xiàn)較為嚴重的遺忘現(xiàn)象,本文所提的Open-VCLIP方法能夠顯著提升模型的零樣本識別能力,在不同主干網(wǎng)絡、不同數(shù)據(jù)集上都取得了最佳的零樣本識別準確率。

此外,本文同當前先進零樣本識別性能的方法進行了對比??梢钥吹剑琌pen-VCLIP方法在不同數(shù)據(jù)集上均取得最佳零樣本準確率。除此之外,文章還對比了凍結原始CLIP模型參數(shù)下微調(diào)Adapter模塊的高效參數(shù)微調(diào)方法,結果表明,高效參數(shù)微調(diào)方法無法有效提升零樣本識別準確率。

(2)零樣本識別性能與閉集性能的權衡

文章對不同方法應用權重插值修復算法[3]進行探究,并將不同的加權系數(shù)下的性能用折線圖的方式展現(xiàn),橫坐標表示閉集性能,縱坐標為零樣本識別性能。結果表明:(i)具有時序建模能力的模型具備更強的零樣本識別性能,顯示出時序建模能力對于CLIP模型向視頻領域的遷移是必要的;(ii)Open-VCLIP曲線高于標準微調(diào)方法,反映出本文所提出的優(yōu)化策略不僅能提升模型的零樣本視頻識別能力,而且能夠在零樣本識別性能和閉集性能中取得最佳權衡;(iii)同時,圖中紅色五角星對應同一個插值模型,可以看到單個模型能夠在多個數(shù)據(jù)集中取得接近最優(yōu)的零樣本識別性能,且保持較高的閉集準確率,顯示出方法無需針對特定數(shù)據(jù)集專門調(diào)整插值權重。
(3)零樣本視頻文本檢索性能

評估文本到視頻/視頻到文本的檢索性能可以進一步了解模型的泛化能力。實驗遵循了在Kinetics-400數(shù)據(jù)集上訓練模型,并在MSR-VTT數(shù)據(jù)集上測試的范式。結果展示了Open-VCLIP方法提升了模型的視頻檢索文本的性能和文本檢索視頻的性能,且在視頻檢索文本任務上,Open-VCLIP方法明顯高于CLIP基線,進一步驗證了本文方法有效性。
總結
本篇工作提出了Open-VCLIP方法,通過微調(diào)于視頻識別數(shù)據(jù)集有效將CLIP轉變?yōu)殚_放詞匯的視頻模型。文章主題包含三個部分:將問題歸納為無歷史數(shù)據(jù)的持續(xù)學習問題;為模型添加輕量化時序建模能力;設計正則化插值優(yōu)化策略提升模型泛化能力,減輕遺忘現(xiàn)象發(fā)生。實驗表明,Open-VCLIP在零樣本動作識別任務明顯優(yōu)于最先進的方法,并在閉集性能和零樣本視頻動作識別性能之間實現(xiàn)了最佳的權衡,所提方法也為大模型微調(diào)提供了新思路。
-
建模
+關注
關注
1文章
319瀏覽量
62333 -
數(shù)據(jù)集
+關注
關注
4文章
1229瀏覽量
25964 -
Clip
+關注
關注
0文章
33瀏覽量
7177
原文標題:ICML 2023 | 復旦和Meta提出Open-VCLIP:兼顧時序建模與開集識別的視頻理解模型
文章出處:【微信號:CVer,微信公眾號:CVer】歡迎添加關注!文章轉載請注明出處。
發(fā)布評論請先 登錄
關于功能驗證、時序驗證、形式驗證、時序建模的論文
高階API構建模型和數(shù)據(jù)集使用
多片段時序數(shù)據(jù)建模預測實踐資料分享
分享一種comsol磁場與結構場耦合模型建模
結合碼本和運行期均值法的雙層背景建模方法
開漏(opendrain)和開集(opencollector)介紹
基于視頻深度學習的時空雙流人物動作識別模型
可高效識別視頻不同內(nèi)容的視頻摘要算法
模型在Close set和在Open set的表現(xiàn)是否存在一定的相關性呢
基于實體和動作時空建模的視頻文本預訓練

復旦和Meta提出Open-VCLIP:兼顧時序建模與開集識別的視頻理解模型
評論