我要色综合色综合久久,精品国产一区二区三区四区色银杏,亚洲欧美日本久久综合网站点击

大型語言模型如 ChatGPT 的成功彰顯了海量數(shù)據(jù)在捕捉語言模式和知識方面的巨大潛力，這也推動了基于大量數(shù)據(jù)的視覺模型研究。在計算視覺領(lǐng)域，標注數(shù)據(jù)通常難以獲取，自監(jiān)督學習成為預訓練的主流方法。然而，在自監(jiān)督預訓練中，是否數(shù)據(jù)越多越好？數(shù)據(jù)增廣是否始終有效？華為諾亞方舟實驗室與香港科技大學的研究團隊近期發(fā)現(xiàn)：主流自監(jiān)督預訓練方法如 Masked Autoencoder (MAE) 存在負遷移現(xiàn)象，即在預訓練過程中包含無關(guān)數(shù)據(jù)可能導致下游任務性能下降。面向 MAE 的有效數(shù)據(jù)增強策略仍有待探討。區(qū)別于對比學習高度依賴數(shù)據(jù)增強策略，在 MAE 中采用數(shù)據(jù)增強策略，如簡單的圖像混合，可能會導致互信息 (MI) 的增加而降低模型性能。為解開這些數(shù)據(jù)之謎，研究團隊提出了一種新穎的預訓練范式——Mixture of Cluster-conditional Experts (MoCE)。借鑒 Mixture-of-Experts (MoE) 的概念，MoCE 可以通過一次預訓練，為不同下游任務提供定制化模型。在多個下游任務中，包括圖像分類、目標檢測和分割等，MoCE 超越了傳統(tǒng)的 MAE 預訓練方法。該研究成果已被 ICLR 2023 會議接收為 Spotlight 論文。

?論文標題：Task-customized Masked Autoencoder via Mixture of Cluster-conditional Experts

論文鏈接：

https://openreview.net/forum?id=j8IiQUM33s

此外，團隊還提出了一種名為混合自編碼器 (MixedAE) 的簡單而有效的方法，將圖像混合應用于 MAE 數(shù)據(jù)增強。MixedAE 在各種下游任務（包括圖像分類、語義分割和目標檢測）上實現(xiàn)了最先進的遷移性能，同時保持了顯著的效率。這是第一個從任務設(shè)計的角度將圖像混合作為有效數(shù)據(jù)增強策略應用于基于純自編碼器結(jié)構(gòu)的 Masked Image Modeling (MIM) 的研究。該工作已被 CVPR 2023 會議接收。

論文標題：Mixed Autoencoder for Self-supervised Visual Representation Learning

論文鏈接：

https://arxiv.org/abs/2303.17152

研究背景

在機器學習領(lǐng)域，預訓練模型已經(jīng)成為一種流行的方法，可以提高各種下游任務的性能。然而，研究發(fā)現(xiàn)，自監(jiān)督預訓練存在的負遷移現(xiàn)象。諾亞 AI 基礎(chǔ)理論團隊的前期工作 SDR (AAAI 2022) [1] 首次指出自監(jiān)督預訓練的負遷移問題，并提供初步解決方案。具體來說，負遷移是指在預訓練過程中使用的數(shù)據(jù)與下游任務的數(shù)據(jù)分布不同，導致預訓練模型在下游任務上的性能下降。在自監(jiān)督學習中，模型在無標簽數(shù)據(jù)上進行預訓練，學習數(shù)據(jù)的潛在特征和表示。然而，當預訓練數(shù)據(jù)與下游任務的數(shù)據(jù)分布存在顯著差異時，模型可能學到與下游任務無關(guān)或甚至有害的特征。

?相關(guān)工作1. 自監(jiān)督預訓練的負遷移現(xiàn)象

▲圖一：我們用ImageNet的兩個子集，Split-A和Split-B，訓練兩個MAE模型，和全量數(shù)據(jù)集訓練的模型相比較，后者僅在2個數(shù)據(jù)集上達到了最優(yōu)。這說明，增大數(shù)據(jù)量并不總是帶來更強的遷移效果。

以目前較為流行的自監(jiān)督學習算法 MAE 為例，我們評估了使用不同語義數(shù)據(jù)進行預訓練的 MAE 模型在遷移性能上的表現(xiàn)。我們將 ImageNet 數(shù)據(jù)集分為兩個不相交的子集 Split-A 和 Split-B，根據(jù) WordNet 樹中標簽的語義差異進行劃分。Split-A 主要包含無生命物體（如汽車和飛機），而 Split-B 則主要涉及有機體（如植物和動物）。接著，我們在 Split-A、Split-B 和完整的 ImageNet 數(shù)據(jù)集上分別進行了 MAE 預訓練，并在 11 個下游任務上評估了這三個模型的性能。如圖一所示，在僅含 2 個語義豐富數(shù)據(jù)集（Caltech，VOC）的情況下，基于完整 ImageNet 訓練的 MAE 獲得了最佳的遷移效果；在非生物下游數(shù)據(jù)集 (Aircraft，Cars，SUN，DTD) 上，Split-A 的表現(xiàn)更佳；而在包含 Flowers，F(xiàn)ood，Pets，CIFAR10，CIFAR100 等數(shù)據(jù)集上，Split-B 的表現(xiàn)更優(yōu)。這表明，當下游任務與預訓練數(shù)據(jù)分布不同時，與任務無關(guān)的預訓練信息可能導致負遷移，從而限制了 MAE 模型的可擴展性。換言之，若一個 MAE 模型的預訓練數(shù)據(jù)去除了與下游任務數(shù)據(jù)集相似度較低的部分，則其性能可能優(yōu)于包含這些無關(guān)數(shù)據(jù)的預訓練模型。這突顯了開發(fā)針對特定下游任務的定制化預訓練方法以避免負遷移現(xiàn)象的重要性。2. 自監(jiān)督數(shù)據(jù)增強難題在自監(jiān)督預訓練中，與依賴數(shù)據(jù)增強的對比學習不同，我們發(fā)現(xiàn)傳統(tǒng)數(shù)據(jù)增強手段可能會削弱 MAE 的模型性能。以圖像混合增強（Image Mixing）為例，設(shè)隨機變量 X1 和 X2 表示兩個輸入圖像，M 表示隨機生成的掩碼，我們可以證明混合輸入 σmix({X1,X2},M) 與重構(gòu)目標 X1 之間的互信息 (MI) 不小于 MAE 輸入 σmae(X1,M) 與 X1 之間的互信息（詳見論文附錄）。

因此，簡單的圖像混合增強會提升模型輸入與重構(gòu)目標之間的互信息。盡管這對監(jiān)督學習和對比學習有益，但它卻簡化了 MAE 的圖像重構(gòu)任務，因為掩碼操作 (masking) 的根本目的恰恰是降低模型輸入和重構(gòu)目標之間的互信息，以減少圖像信號的冗余。這表明以 MAE 為代表的掩碼圖像建模對數(shù)據(jù)增強具有與傳統(tǒng)判別式訓練范式不同的偏好，進而帶來了 MAE 自監(jiān)督學習中的數(shù)據(jù)增強難題。

?方法1. MoCEMixture of Cluster-conditional Expert (MoCE) 通過數(shù)據(jù)聚類和顯式地使用具有相似語義的圖像來訓練每個專家，以實現(xiàn)針對特定任務的定制自監(jiān)督預訓練。MoCE 的過程分為三個階段，具體如下：1. 首先，我們使用預先訓練好的 MAE 模型對整個數(shù)據(jù)集進行聚類。每張圖片被分到不同的聚類中，并記錄每個聚類的中心點，形成矩陣 C。2. 然后，受 Mixture-of-Experts (MoE) 多專家模型的啟發(fā)，我們構(gòu)建了基于聚類先驗的 MoCE 模型。與目前常用的視覺多專家模型將每個圖像的 token 路由到某個專家不同，MoCE 讓每個專家負責訓練一組相似的聚類圖片，使得每個專家在不同語義數(shù)據(jù)上得到顯式訓練。具體來說，現(xiàn)有的視覺多專家模型基于 ViT 構(gòu)建，將原先某些 Transformer Block 中的單個 MLP 層擴展為多個 MLP 層，每個 MLP 被稱作一個專家 (expert)。同時引入一個門控網(wǎng)絡(luò) (gate network)，該門控網(wǎng)絡(luò)決定每個 token 應該去往哪個專家。MoCE 多專家層的核心改變是門控網(wǎng)絡(luò)的輸入：

這里，C[x] 表示 token x 所屬圖片所在的聚類中心（我們在第一步已經(jīng)完成了聚類），而不是原先的 token 嵌入。這樣，屬于同一個聚類的圖片的 tokens 都會被路由到同一個專家，從而顯式地區(qū)分每個專家在語義上的差異。為了穩(wěn)定訓練并增強門控網(wǎng)絡(luò)的置信度，我們提出了兩個額外的正則化損失，并在實驗中發(fā)現(xiàn)了它們的有效性。3. 當下游任務到達時，我們引入了一個搜索模塊來選擇最適合用于遷移學習的專家。具體而言，我們重復利用第一步提到的聚類模塊，找到與下游數(shù)據(jù)集最相似的聚類，然后找到該聚類所訓練的專家，將其單獨提取出來，舍棄其他專家進行遷移。這樣，在下游任務中，我們始終使用一個正常大小的 ViT 模型。2. MixedAEMixed Autoencoder (MixedAE) 提出輔助代理任務——同源識別(Homologous recognition)，旨在顯示要求每個圖像塊識別混合圖像中的同源圖像塊以緩解圖像混合所導致的互信息上升，從而實現(xiàn)物體感知的自監(jiān)督預訓練。MixedAE 的過程分為三個階段，具體如下：1. 混合階段：在給定混合系數(shù) r 的情況下，將輸入圖像隨機劃分為不同的圖像組，并根據(jù) r 對每個圖像組進行隨機混合，生成混合圖像。2. 識別階段：鑒于 Vision Transformer 中全局自注意力的使用，在重構(gòu)過程中，各個圖像塊不可避免地與來自其他圖像的異源圖像塊發(fā)生交互，從而導致互信息的上升。因此我們提出同源自注意力機制 (Homologous attention)，通過部署一個簡單的 TopK 采樣操作，要求每個圖像塊顯示識別并僅與同源圖像塊做自注意力計算，以抑制互信息的上升。

3. 驗證階段：為了驗證同源自注意力的準確性，我們提出同源對比損失 (Homologous contrasitve)。對于任意查詢圖像塊 (query patch)，我們將其同源圖像塊視為正樣本，異源圖像塊作為負樣本，以促進同源圖像塊特征的相似度，從而顯示要求圖像塊識別并僅和同源圖像塊做自注意力計算。最后，同源對比損失將和原始圖像重構(gòu)損失一起以多任務形式優(yōu)化網(wǎng)絡(luò)參數(shù)進行自監(jiān)督預訓練。

實驗分析

1. MoCE

我們在之前提到的 11 個下游分類數(shù)據(jù)集和檢測分割任務上做了實驗。實驗結(jié)果表明，MoCE 在多個下游任務中的性能超過了傳統(tǒng)的 MAE 預訓練方法。具體而言，在圖像分類任務中，MoCE 相較于 MAE 實現(xiàn)了更高的準確率。在目標檢測和分割任務中，MoCE 也取得了更好的表現(xiàn)，包括更高的 mIoU 和 AP 指標。這些實驗結(jié)果表明，MoCE 通過利用相似語義圖像進行聚類并為每個專家進行任務定制的自監(jiān)督預訓練，能夠在各種下游任務中提高遷移性能。

▲表一：MoCE在細粒度數(shù)據(jù)集上有較大提升，在類別比較寬泛的任務上也有少量提升。2. MixedAE

在 14 個下游視覺任務（包括圖像分類、語義分割和物體檢測）的評估中，MixedAE 展現(xiàn)了最優(yōu)的遷移性能和卓越的計算效率。相較于 iBOT，MixedAE 實現(xiàn)了約 2 倍預訓練加速。得益于圖像混合所帶來的物體感知預訓練，MixedAE 在下游密集預測任務上取得更顯著的性能提升。注意力圖可視化結(jié)果表明，MixedAE 能比 MAE 更準確完整地識別圖像前景物體，從而實現(xiàn)優(yōu)異的密集預測遷移性能。

▲表二：MixedAE在不同訓練代價下均獲得當前最優(yōu)結(jié)果，展現(xiàn)了卓越的計算效率。

▲圖二：注意力圖可視化。得益于ImageNet的單實例假設(shè)[2]以及物體感知的自監(jiān)督預訓練，MixedAE可以更準確完整地發(fā)現(xiàn)圖像前景物體，從而實現(xiàn)更好的密集預測遷移性能。

?作者介紹結(jié)合 MoCE 和 MixedAE 的研究發(fā)現(xiàn)，我們揭示了自監(jiān)督預訓練中數(shù)據(jù)之謎：數(shù)據(jù)量不再是唯一關(guān)鍵因素，而是如何利用數(shù)據(jù)和進行定制化預訓練和數(shù)據(jù)增廣更為關(guān)鍵。MoCE 通過數(shù)據(jù)聚類和專家定制訓練，顯著提高了針對特定下游任務的遷移性能。MixedAE 則通過一種簡單有效的圖像混合方法，實現(xiàn)了在各種下游任務中的最先進遷移性能。這些研究發(fā)現(xiàn)不僅為自監(jiān)督預訓練領(lǐng)域提供了新的視角，還為開發(fā)更為高效、可擴展和定制化的預訓練方法提供了指導和啟示。我們希望這些探索是一個有效利用更多數(shù)據(jù)量的途徑，并為研究者們提供新的思路。

參考文獻

[1] Task-customized Self-supervised Pre-training with Scalable Dynamic Routing, AAAI 2022.

[2] MultiSiam: Self-supervised Multi-instance Siamese Representation Learning for Autonomous Driving, ICCV 2021.

原文標題：基礎(chǔ)模型自監(jiān)督預訓練的數(shù)據(jù)之謎：大量數(shù)據(jù)究竟是福還是禍？

文章出處：【微信公眾號：智能感知與物聯(lián)網(wǎng)技術(shù)研究所】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴