18video性欧美19sex,欧美高清videosddfsexhd,性少妇videosexfreexxx片中国,激情五月激情综合五月看花,亚洲人成网77777色在线播放

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

基礎(chǔ)模型自監(jiān)督預訓練的數(shù)據(jù)之謎:大量數(shù)據(jù)究竟是福還是禍?

智能感知與物聯(lián)網(wǎng)技術(shù)研究所 ? 來源:未知 ? 2023-07-24 16:55 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

大型語言模型如 ChatGPT 的成功彰顯了海量數(shù)據(jù)在捕捉語言模式和知識方面的巨大潛力,這也推動了基于大量數(shù)據(jù)的視覺模型研究。在計算視覺領(lǐng)域,標注數(shù)據(jù)通常難以獲取,自監(jiān)督學習成為預訓練的主流方法。然而,在自監(jiān)督預訓練中,是否數(shù)據(jù)越多越好?數(shù)據(jù)增廣是否始終有效?華為諾亞方舟實驗室與香港科技大學的研究團隊近期發(fā)現(xiàn):主流自監(jiān)督預訓練方法如 Masked Autoencoder (MAE) 存在負遷移現(xiàn)象,即在預訓練過程中包含無關(guān)數(shù)據(jù)可能導致下游任務性能下降。面向 MAE 的有效數(shù)據(jù)增強策略仍有待探討。區(qū)別于對比學習高度依賴數(shù)據(jù)增強策略,在 MAE 中采用數(shù)據(jù)增強策略,如簡單的圖像混合,可能會導致互信息 (MI) 的增加而降低模型性能。為解開這些數(shù)據(jù)之謎,研究團隊提出了一種新穎的預訓練范式——Mixture of Cluster-conditional Experts (MoCE)。借鑒 Mixture-of-Experts (MoE) 的概念,MoCE 可以通過一次預訓練,為不同下游任務提供定制化模型。在多個下游任務中,包括圖像分類、目標檢測和分割等,MoCE 超越了傳統(tǒng)的 MAE 預訓練方法。該研究成果已被 ICLR 2023 會議接收為 Spotlight 論文。2e6c133e-29ff-11ee-a368-dac502259ad0.png ?論文標題:Task-customized Masked Autoencoder via Mixture of Cluster-conditional Experts

論文鏈接:

https://openreview.net/forum?id=j8IiQUM33s

此外,團隊還提出了一種名為混合自編碼器 (MixedAE) 的簡單而有效的方法,將圖像混合應用于 MAE 數(shù)據(jù)增強。MixedAE 在各種下游任務(包括圖像分類、語義分割和目標檢測)上實現(xiàn)了最先進的遷移性能,同時保持了顯著的效率。這是第一個從任務設(shè)計的角度將圖像混合作為有效數(shù)據(jù)增強策略應用于基于純自編碼器結(jié)構(gòu)的 Masked Image Modeling (MIM) 的研究。該工作已被 CVPR 2023 會議接收。

2e8fe020-29ff-11ee-a368-dac502259ad0.png

論文標題:Mixed Autoencoder for Self-supervised Visual Representation Learning

論文鏈接:

https://arxiv.org/abs/2303.17152 2eaa6440-29ff-11ee-a368-dac502259ad0.png ?

研究背景

機器學習領(lǐng)域,預訓練模型已經(jīng)成為一種流行的方法,可以提高各種下游任務的性能。然而,研究發(fā)現(xiàn),自監(jiān)督預訓練存在的負遷移現(xiàn)象。諾亞 AI 基礎(chǔ)理論團隊的前期工作 SDR (AAAI 2022) [1] 首次指出自監(jiān)督預訓練的負遷移問題,并提供初步解決方案。具體來說,負遷移是指在預訓練過程中使用的數(shù)據(jù)與下游任務的數(shù)據(jù)分布不同,導致預訓練模型在下游任務上的性能下降。在自監(jiān)督學習中,模型在無標簽數(shù)據(jù)上進行預訓練,學習數(shù)據(jù)的潛在特征和表示。然而,當預訓練數(shù)據(jù)與下游任務的數(shù)據(jù)分布存在顯著差異時,模型可能學到與下游任務無關(guān)或甚至有害的特征。

2ec2233c-29ff-11ee-a368-dac502259ad0.png ?相關(guān)工作1. 自監(jiān)督預訓練的負遷移現(xiàn)象

2ee0f370-29ff-11ee-a368-dac502259ad0.png

▲圖一:我們用ImageNet的兩個子集,Split-A和Split-B,訓練兩個MAE模型,和全量數(shù)據(jù)集訓練的模型相比較,后者僅在2個數(shù)據(jù)集上達到了最優(yōu)。這說明,增大數(shù)據(jù)量并不總是帶來更強的遷移效果。

以目前較為流行的自監(jiān)督學習算法 MAE 為例,我們評估了使用不同語義數(shù)據(jù)進行預訓練的 MAE 模型在遷移性能上的表現(xiàn)。我們將 ImageNet 數(shù)據(jù)集分為兩個不相交的子集 Split-A 和 Split-B,根據(jù) WordNet 樹中標簽的語義差異進行劃分。Split-A 主要包含無生命物體(如汽車和飛機),而 Split-B 則主要涉及有機體(如植物和動物)。接著,我們在 Split-A、Split-B 和完整的 ImageNet 數(shù)據(jù)集上分別進行了 MAE 預訓練,并在 11 個下游任務上評估了這三個模型的性能。如圖一所示,在僅含 2 個語義豐富數(shù)據(jù)集(Caltech,VOC)的情況下,基于完整 ImageNet 訓練的 MAE 獲得了最佳的遷移效果;在非生物下游數(shù)據(jù)集 (Aircraft,Cars,SUN,DTD) 上,Split-A 的表現(xiàn)更佳;而在包含 Flowers,F(xiàn)ood,Pets,CIFAR10,CIFAR100 等數(shù)據(jù)集上,Split-B 的表現(xiàn)更優(yōu)。這表明,當下游任務與預訓練數(shù)據(jù)分布不同時,與任務無關(guān)的預訓練信息可能導致負遷移,從而限制了 MAE 模型的可擴展性。換言之,若一個 MAE 模型的預訓練數(shù)據(jù)去除了與下游任務數(shù)據(jù)集相似度較低的部分,則其性能可能優(yōu)于包含這些無關(guān)數(shù)據(jù)的預訓練模型。這突顯了開發(fā)針對特定下游任務的定制化預訓練方法以避免負遷移現(xiàn)象的重要性。2. 自監(jiān)督數(shù)據(jù)增強難題在自監(jiān)督預訓練中,與依賴數(shù)據(jù)增強的對比學習不同,我們發(fā)現(xiàn)傳統(tǒng)數(shù)據(jù)增強手段可能會削弱 MAE 的模型性能。以圖像混合增強(Image Mixing)為例,設(shè)隨機變量 X1 和 X2 表示兩個輸入圖像,M 表示隨機生成的掩碼,我們可以證明混合輸入 σmix({X1,X2},M) 與重構(gòu)目標 X1 之間的互信息 (MI) 不小于 MAE 輸入 σmae(X1,M) 與 X1 之間的互信息(詳見論文附錄)。2f0e4654-29ff-11ee-a368-dac502259ad0.png因此,簡單的圖像混合增強會提升模型輸入與重構(gòu)目標之間的互信息。盡管這對監(jiān)督學習和對比學習有益,但它卻簡化了 MAE 的圖像重構(gòu)任務,因為掩碼操作 (masking) 的根本目的恰恰是降低模型輸入和重構(gòu)目標之間的互信息,以減少圖像信號的冗余。這表明以 MAE 為代表的掩碼圖像建模對數(shù)據(jù)增強具有與傳統(tǒng)判別式訓練范式不同的偏好,進而帶來了 MAE 自監(jiān)督學習中的數(shù)據(jù)增強難題。 2f22e41a-29ff-11ee-a368-dac502259ad0.png ?方法1. MoCEMixture of Cluster-conditional Expert (MoCE) 通過數(shù)據(jù)聚類和顯式地使用具有相似語義的圖像來訓練每個專家,以實現(xiàn)針對特定任務的定制自監(jiān)督預訓練。MoCE 的過程分為三個階段,具體如下:1. 首先,我們使用預先訓練好的 MAE 模型對整個數(shù)據(jù)集進行聚類。每張圖片被分到不同的聚類中,并記錄每個聚類的中心點,形成矩陣 C。2. 然后,受 Mixture-of-Experts (MoE) 多專家模型的啟發(fā),我們構(gòu)建了基于聚類先驗的 MoCE 模型。與目前常用的視覺多專家模型將每個圖像的 token 路由到某個專家不同,MoCE 讓每個專家負責訓練一組相似的聚類圖片,使得每個專家在不同語義數(shù)據(jù)上得到顯式訓練。具體來說,現(xiàn)有的視覺多專家模型基于 ViT 構(gòu)建,將原先某些 Transformer Block 中的單個 MLP 層擴展為多個 MLP 層,每個 MLP 被稱作一個專家 (expert)。同時引入一個門控網(wǎng)絡(luò) (gate network),該門控網(wǎng)絡(luò)決定每個 token 應該去往哪個專家。MoCE 多專家層的核心改變是門控網(wǎng)絡(luò)的輸入:2f3b9a1e-29ff-11ee-a368-dac502259ad0.png這里,C[x] 表示 token x 所屬圖片所在的聚類中心(我們在第一步已經(jīng)完成了聚類),而不是原先的 token 嵌入。這樣,屬于同一個聚類的圖片的 tokens 都會被路由到同一個專家,從而顯式地區(qū)分每個專家在語義上的差異。為了穩(wěn)定訓練并增強門控網(wǎng)絡(luò)的置信度,我們提出了兩個額外的正則化損失,并在實驗中發(fā)現(xiàn)了它們的有效性。3. 當下游任務到達時,我們引入了一個搜索模塊來選擇最適合用于遷移學習的專家。具體而言,我們重復利用第一步提到的聚類模塊,找到與下游數(shù)據(jù)集最相似的聚類,然后找到該聚類所訓練的專家,將其單獨提取出來,舍棄其他專家進行遷移。這樣,在下游任務中,我們始終使用一個正常大小的 ViT 模型。2. MixedAEMixed Autoencoder (MixedAE) 提出輔助代理任務——同源識別(Homologous recognition),旨在顯示要求每個圖像塊識別混合圖像中的同源圖像塊以緩解圖像混合所導致的互信息上升,從而實現(xiàn)物體感知的自監(jiān)督預訓練。MixedAE 的過程分為三個階段,具體如下:1. 混合階段:在給定混合系數(shù) r 的情況下,將輸入圖像隨機劃分為不同的圖像組,并根據(jù) r 對每個圖像組進行隨機混合,生成混合圖像。2. 識別階段:鑒于 Vision Transformer 中全局自注意力的使用,在重構(gòu)過程中,各個圖像塊不可避免地與來自其他圖像的異源圖像塊發(fā)生交互,從而導致互信息的上升。因此我們提出同源自注意力機制 (Homologous attention),通過部署一個簡單的 TopK 采樣操作,要求每個圖像塊顯示識別并僅與同源圖像塊做自注意力計算,以抑制互信息的上升。2f571b9a-29ff-11ee-a368-dac502259ad0.png3. 驗證階段:為了驗證同源自注意力的準確性,我們提出同源對比損失 (Homologous contrasitve)。對于任意查詢圖像塊 (query patch),我們將其同源圖像塊視為正樣本,異源圖像塊作為負樣本,以促進同源圖像塊特征的相似度,從而顯示要求圖像塊識別并僅和同源圖像塊做自注意力計算。最后,同源對比損失將和原始圖像重構(gòu)損失一起以多任務形式優(yōu)化網(wǎng)絡(luò)參數(shù)進行自監(jiān)督預訓練。 2f74073c-29ff-11ee-a368-dac502259ad0.png ?

實驗分析

1. MoCE

我們在之前提到的 11 個下游分類數(shù)據(jù)集和檢測分割任務上做了實驗。實驗結(jié)果表明,MoCE 在多個下游任務中的性能超過了傳統(tǒng)的 MAE 預訓練方法。具體而言,在圖像分類任務中,MoCE 相較于 MAE 實現(xiàn)了更高的準確率。在目標檢測和分割任務中,MoCE 也取得了更好的表現(xiàn),包括更高的 mIoU 和 AP 指標。這些實驗結(jié)果表明,MoCE 通過利用相似語義圖像進行聚類并為每個專家進行任務定制的自監(jiān)督預訓練,能夠在各種下游任務中提高遷移性能。

2f8c2614-29ff-11ee-a368-dac502259ad0.png▲表一:MoCE在細粒度數(shù)據(jù)集上有較大提升,在類別比較寬泛的任務上也有少量提升。2. MixedAE

在 14 個下游視覺任務(包括圖像分類、語義分割和物體檢測)的評估中,MixedAE 展現(xiàn)了最優(yōu)的遷移性能和卓越的計算效率。相較于 iBOT,MixedAE 實現(xiàn)了約 2 倍預訓練加速。得益于圖像混合所帶來的物體感知預訓練,MixedAE 在下游密集預測任務上取得更顯著的性能提升。注意力圖可視化結(jié)果表明,MixedAE 能比 MAE 更準確完整地識別圖像前景物體,從而實現(xiàn)優(yōu)異的密集預測遷移性能。

2fdd4f4e-29ff-11ee-a368-dac502259ad0.png表二:MixedAE在不同訓練代價下均獲得當前最優(yōu)結(jié)果,展現(xiàn)了卓越的計算效率。

30217476-29ff-11ee-a368-dac502259ad0.png

▲圖二:注意力圖可視化。得益于ImageNet的單實例假設(shè)[2]以及物體感知的自監(jiān)督預訓練,MixedAE可以更準確完整地發(fā)現(xiàn)圖像前景物體,從而實現(xiàn)更好的密集預測遷移性能。

30a6743c-29ff-11ee-a368-dac502259ad0.png ?作者介紹結(jié)合 MoCE 和 MixedAE 的研究發(fā)現(xiàn),我們揭示了自監(jiān)督預訓練中數(shù)據(jù)之謎:數(shù)據(jù)量不再是唯一關(guān)鍵因素,而是如何利用數(shù)據(jù)和進行定制化預訓練和數(shù)據(jù)增廣更為關(guān)鍵。MoCE 通過數(shù)據(jù)聚類和專家定制訓練,顯著提高了針對特定下游任務的遷移性能。MixedAE 則通過一種簡單有效的圖像混合方法,實現(xiàn)了在各種下游任務中的最先進遷移性能。這些研究發(fā)現(xiàn)不僅為自監(jiān)督預訓練領(lǐng)域提供了新的視角,還為開發(fā)更為高效、可擴展和定制化的預訓練方法提供了指導和啟示。我們希望這些探索是一個有效利用更多數(shù)據(jù)量的途徑,并為研究者們提供新的思路。 30bea20a-29ff-11ee-a368-dac502259ad0.svg

參考文獻

30bea20a-29ff-11ee-a368-dac502259ad0.svg ?

[1] Task-customized Self-supervised Pre-training with Scalable Dynamic Routing, AAAI 2022.

[2] MultiSiam: Self-supervised Multi-instance Siamese Representation Learning for Autonomous Driving, ICCV 2021.

·


原文標題:基礎(chǔ)模型自監(jiān)督預訓練的數(shù)據(jù)之謎:大量數(shù)據(jù)究竟是福還是禍?

文章出處:【微信公眾號:智能感知與物聯(lián)網(wǎng)技術(shù)研究所】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴

原文標題:基礎(chǔ)模型自監(jiān)督預訓練的數(shù)據(jù)之謎:大量數(shù)據(jù)究竟是福還是禍?

文章出處:【微信號:tyutcsplab,微信公眾號:智能感知與物聯(lián)網(wǎng)技術(shù)研究所】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    基于大規(guī)模人類操作數(shù)據(jù)訓練的VLA模型H-RDT

    近年來,機器人操作領(lǐng)域的VLA模型普遍基于跨本體機器人數(shù)據(jù)訓練,這類方法存在兩大局限:不同機器人本體和動作空間的差異導致統(tǒng)一訓練困難;現(xiàn)
    的頭像 發(fā)表于 08-21 09:56 ?621次閱讀
    基于大規(guī)模人類操作<b class='flag-5'>數(shù)據(jù)</b><b class='flag-5'>預</b><b class='flag-5'>訓練</b>的VLA<b class='flag-5'>模型</b>H-RDT

    用PaddleNLP為GPT-2模型制作FineWeb二進制訓練數(shù)據(jù)

    ,使用PaddleNLP將FineWeb數(shù)據(jù)集中文本形式的數(shù)據(jù),經(jīng)過分詞化(Tokenize),轉(zhuǎn)換為大語言模型能直接使用的二進制數(shù)據(jù),以便提升訓練
    的頭像 發(fā)表于 03-21 18:24 ?3442次閱讀
    用PaddleNLP為GPT-2<b class='flag-5'>模型</b>制作FineWeb二進制<b class='flag-5'>預</b><b class='flag-5'>訓練</b><b class='flag-5'>數(shù)據(jù)</b>集

    工程師在產(chǎn)品選型的時究竟是選CAN還是CANFD接口卡呢?

    很多工程師在產(chǎn)品選型的時候會疑惑,究竟是選CAN接口卡還是CANFD接口卡呢?兩者之間有什么區(qū)別呢?影響選擇的關(guān)鍵因素又是什么?我們今天一個一個來拆解。1.波特率傳統(tǒng)的CAN接口卡僅有一個波特率,即
    的頭像 發(fā)表于 03-21 11:37 ?619次閱讀
    工程師在產(chǎn)品選型的時<b class='flag-5'>究竟是</b>選CAN<b class='flag-5'>還是</b>CANFD接口卡呢?

    數(shù)據(jù)標注服務—奠定大模型訓練數(shù)據(jù)基石

    數(shù)據(jù)標注是大模型訓練過程中不可或缺的基礎(chǔ)環(huán)節(jié),其質(zhì)量直接影響著模型的性能表現(xiàn)。在大模型訓練中,
    的頭像 發(fā)表于 03-21 10:30 ?1991次閱讀

    標貝數(shù)據(jù)標注服務:奠定大模型訓練數(shù)據(jù)基石

    數(shù)據(jù)標注是大模型訓練過程中不可或缺的基礎(chǔ)環(huán)節(jié),其質(zhì)量直接影響著模型的性能表現(xiàn)。在大模型訓練中,
    的頭像 發(fā)表于 03-21 10:27 ?762次閱讀
    標貝<b class='flag-5'>數(shù)據(jù)</b>標注服務:奠定大<b class='flag-5'>模型</b><b class='flag-5'>訓練</b>的<b class='flag-5'>數(shù)據(jù)</b>基石

    是否可以輸入隨機數(shù)據(jù)集來生成INT8訓練后量化模型?

    無法確定是否可以輸入隨機數(shù)據(jù)集來生成 INT8 訓練后量化模型
    發(fā)表于 03-06 06:45

    從Open Model Zoo下載的FastSeg大型公共訓練模型,無法導入名稱是怎么回事?

    從 Open Model Zoo 下載的 FastSeg 大型公共訓練模型。 運行 converter.py 以將 FastSeg 大型模型轉(zhuǎn)換為中間表示 (IR): pyth
    發(fā)表于 03-05 07:22

    用PaddleNLP在4060單卡上實踐大模型訓練技術(shù)

    作者:算力魔方創(chuàng)始人/英特爾創(chuàng)新大使劉力 之前我們分享了《從零開始訓練一個大語言模型需要投資多少錢》,其中高昂的訓練費用讓許多對大模型
    的頭像 發(fā)表于 02-19 16:10 ?1859次閱讀
    用PaddleNLP在4060單卡上實踐大<b class='flag-5'>模型</b><b class='flag-5'>預</b><b class='flag-5'>訓練</b>技術(shù)

    室內(nèi)導航究竟是如何實現(xiàn)的

    作為物聯(lián)網(wǎng)智能硬件的引領(lǐng)者,云里物里當然不是來聊電影的,而是想借此機會,和大家探討一下:室內(nèi)導航究竟是如何實現(xiàn)的?它背后的技術(shù)原理是什么?接下來,讓我們一起揭開室內(nèi)導航的神秘面紗。
    的頭像 發(fā)表于 02-12 13:50 ?796次閱讀

    ADS1298R PACE_OUT1和PACE_OUT2這兩條引腿究竟是輸入還是輸出?有什么用?怎樣使用?

    PACE_OUT1和PACE_OUT2這兩條引腿究竟是輸入還是輸出?有什么用?怎樣使用?
    發(fā)表于 02-12 07:56

    【「基于大模型的RAG應用開發(fā)與優(yōu)化」閱讀體驗】+大模型微調(diào)技術(shù)解讀

    今天學習<基于大模型的RAG應用開發(fā)與優(yōu)化>這本書。大模型微調(diào)是深度學習領(lǐng)域中的一項關(guān)鍵技術(shù),它指的是在已經(jīng)訓練好的大型深度學習模型
    發(fā)表于 01-14 16:51

    時空引導下的時間序列監(jiān)督學習框架

    考慮各個序列之間的關(guān)系。因此,本文提出的方法更適合作為時空預測領(lǐng)域的訓練模型。下面為大家詳細介紹一下這篇文章。 摘要 相關(guān)時間序列分析在許多現(xiàn)實行業(yè)中扮演著重要的角色。為進一步的下游任務學習這個大規(guī)模
    的頭像 發(fā)表于 11-15 11:41 ?1094次閱讀
    時空引導下的時間序列<b class='flag-5'>自</b><b class='flag-5'>監(jiān)督</b>學習框架

    嵌入式和人工智能究竟是什么關(guān)系?

    嵌入式和人工智能究竟是什么關(guān)系? 嵌入式系統(tǒng)是一種特殊的系統(tǒng),它通常被嵌入到其他設(shè)備或機器中,以實現(xiàn)特定功能。嵌入式系統(tǒng)具有非常強的適應性和靈活性,能夠根據(jù)用戶需求進行定制化設(shè)計。它廣泛應用于各種
    發(fā)表于 11-14 16:39

    如何訓練自己的LLM模型

    訓練自己的大型語言模型(LLM)是一個復雜且資源密集的過程,涉及到大量數(shù)據(jù)、計算資源和專業(yè)知識。以下是訓練LLM
    的頭像 發(fā)表于 11-08 09:30 ?1893次閱讀

    PCM1861 INT腳究竟是輸出還是輸入?

    這個芯片activce或是idle. 是否有人解釋下,INT腳究竟是輸出還是輸入。我希望是輸出,我需要讀取到是否有analog audio輸入的信息。 或者,輸入輸出與否還要靠其他什么地方設(shè)置? 盼望有人回復解答,不勝感激!
    發(fā)表于 10-29 07:29