18video性欧美19sex,欧美高清videosddfsexhd,性少妇videosexfreexxx片中国,激情五月激情综合五月看花,亚洲人成网77777色在线播放

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

一種為小樣本文本分類設(shè)計(jì)的結(jié)合數(shù)據(jù)增強(qiáng)的元學(xué)習(xí)框架

深度學(xué)習(xí)自然語言處理 ? 來源:南大NLP ? 作者:孫鵬飛 ? 2021-05-19 15:54 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

01

研究背景及動機(jī)

近些年,元學(xué)習(xí)已經(jīng)成為解決小樣本問題的主流技術(shù),并且取得不錯的成果。然而,由于現(xiàn)有的元學(xué)習(xí)方法大多數(shù)集中在圖像分類上,而對文本分類上的關(guān)注比較少。與圖像不同,同一類別中文本具有多種表達(dá)方式,這使得當(dāng)前元學(xué)習(xí)方法的性能更容易受到每個(gè)類別樣本數(shù)(即shot的數(shù)量)的影響。因此,現(xiàn)有的元學(xué)習(xí)方法很難在小樣本文本分類上取得令人滿意的結(jié)果。

為了解決這個(gè)問題,我們在元學(xué)習(xí)中引入了數(shù)據(jù)增強(qiáng),它帶來的好處是我們可以產(chǎn)生增強(qiáng)樣本以增加新類別的樣本數(shù)量,并使訓(xùn)練樣本多樣化。然而,這帶來了一個(gè)新的挑戰(zhàn),如何在小樣本的情況下產(chǎn)生置信度高的樣本?

為此,我們提出了一種新穎的數(shù)據(jù)增強(qiáng)方法,稱為Ball generator,圖1給出了一個(gè)簡單的例子。首先,我們計(jì)算支持集的最小包圍球,并在該球中合成樣本。我們認(rèn)為該球中的樣本具有較高的置信度,因?yàn)樗兄С旨瘶颖径及谠撉蛑?,并且它們與球心的最遠(yuǎn)距離最小。

其次,為避免合成樣本偏差的影響,我們引入了變換模塊,以使合成樣本靠近自己的球心,并遠(yuǎn)離其他球心。此外,我們還提出了一個(gè)新的基于數(shù)據(jù)增強(qiáng)的元學(xué)習(xí)框架(MEta-Learning with Data Augmentation,MEDA),以聯(lián)合訓(xùn)練ball generator和meta-learner,使二者協(xié)同進(jìn)化。與普通元學(xué)習(xí)相比,通過增加新類別的樣本數(shù)量,有效地提高了meta-learning在小樣本情況下的泛化能力。

950a13b4-b4a6-11eb-bf61-12bb97331649.png

圖1:Ball generator示例

02

MEDA

MEDA的框架如圖2所示。它是兩模塊組成:一個(gè)是ball generator模塊,它負(fù)責(zé)利用支持集生成增強(qiáng)支持集,并得到擴(kuò)展支持集。另一個(gè)模塊是meta-learner,它在給定了擴(kuò)展支持集的條件下計(jì)算每個(gè)查詢實(shí)例在類別上的概率分布,表示為。而不同的meta-learner的區(qū)別在于如何實(shí)現(xiàn)。這里我們選擇原型網(wǎng)絡(luò)和關(guān)系網(wǎng)絡(luò)作為MEDA的meta-learner。

9536f29e-b4a6-11eb-bf61-12bb97331649.png

圖2: MEDA

其中,ball generator是一種特征空間數(shù)據(jù)增強(qiáng)方法。它的核心思想是在特征空間中進(jìn)行樣本的合成,并對合成的樣本進(jìn)行調(diào)整。因此,整個(gè)ball generator由兩個(gè)子模塊組成:合成模塊和變換模塊。

合成模塊利用空間采樣算法獲得相應(yīng)的合成樣本。具體是將采樣空間限制為支持集的最小包圍球,這里是球心,是半徑。然后,通過如下公式計(jì)算得到合成樣本:

95bedefc-b4a6-11eb-bf61-12bb97331649.png

這里,和。

變換模塊,它是為了進(jìn)一步避免合成樣本偏差的影響,在特征空間中對合成的樣本進(jìn)行變換操作,使合成樣本更接近自己類別的球心,而遠(yuǎn)離其他球心。因此,我們將變換操作寫成函數(shù),該函數(shù)以合成樣本作為輸入,產(chǎn)生一個(gè)增強(qiáng)樣本作為輸出。

03

實(shí)驗(yàn)

本文的實(shí)驗(yàn)是在SNIPS和ARSC數(shù)據(jù)集上進(jìn)行的。我們將MEDA與三組baseline模型進(jìn)行了比較。第一組是數(shù)據(jù)增強(qiáng)的模型;第二組是傳統(tǒng)的元學(xué)習(xí)模型;第三組是最新的小樣本文本分類的SOTA模型。實(shí)驗(yàn)結(jié)果如表1和2所示。

表1:SNIPS實(shí)驗(yàn)結(jié)果

9634ec8c-b4a6-11eb-bf61-12bb97331649.png

表2: ARSC實(shí)驗(yàn)結(jié)果

967c6e36-b4a6-11eb-bf61-12bb97331649.png

從實(shí)驗(yàn)結(jié)果上來看,由于通過數(shù)據(jù)增強(qiáng)獲得更多的訓(xùn)練樣本,使得MEDA在兩個(gè)數(shù)據(jù)集上都取得一致且顯著的提升。

為了更進(jìn)一步說明模型的shot數(shù)量對模型的影響,我們設(shè)計(jì)相應(yīng)的實(shí)驗(yàn)。如圖3所示,我們可以觀察到MEDA在所有設(shè)置中都取得了最好的表現(xiàn)。特別地,MEDA的準(zhǔn)確率隨著shot數(shù)量的減少而增加(間距變大),這表明當(dāng)shot數(shù)相對較小時(shí),模型效果的提升更明顯。

96bf7cc6-b4a6-11eb-bf61-12bb97331649.png

圖3: 不同shot數(shù)量對模型準(zhǔn)確率的影響

此外,我們還研究了模型的準(zhǔn)確性如何隨著增強(qiáng)樣本數(shù)量的變化而變化。我們畫出不同模型在SNIPS數(shù)據(jù)集上的準(zhǔn)確率變化情況。如圖4所示:

970f03f4-b4a6-11eb-bf61-12bb97331649.png

圖4: 不同模型的平均準(zhǔn)確率隨增強(qiáng)樣本數(shù)量的變化而變化

可以看到,隨著增強(qiáng)樣本數(shù)量的增加,模型的準(zhǔn)確率有所提高。同時(shí),我們比較5-shot和10-shot的實(shí)驗(yàn)設(shè)置,我們發(fā)現(xiàn)通過模型增強(qiáng)5個(gè)樣本與使用5個(gè)真實(shí)樣本的效果幾乎相同,這意味著我們的MEDA不是簡單地復(fù)制樣本,而是為模型生成有意義的樣本。

04

總結(jié)

在本文中,我們提出了一種新穎的數(shù)據(jù)增強(qiáng)方法,稱為ball generator,以增加新類別的樣本數(shù)量。此外,我們還提出了一個(gè)新的框架MEDA,該框架聯(lián)合優(yōu)化了ball generator和meta-learner,從而使ball generator可以學(xué)習(xí)生成最適合meta-learner的增強(qiáng)樣本。更多的細(xì)節(jié)、結(jié)果以及分析請參考原論文。

編輯:jq

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 數(shù)據(jù)
    +關(guān)注

    關(guān)注

    8

    文章

    7298

    瀏覽量

    93602
  • 函數(shù)
    +關(guān)注

    關(guān)注

    3

    文章

    4401

    瀏覽量

    66546

原文標(biāo)題:IJCAI2021論文:MEDA:一種為小樣本文本分類設(shè)計(jì)的結(jié)合數(shù)據(jù)增強(qiáng)的元學(xué)習(xí)框架

文章出處:【微信號:zenRRan,微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    模板驅(qū)動 無需訓(xùn)練數(shù)據(jù) SmartDP解決小樣本AI算法模型開發(fā)難題

    。但是這個(gè)平臺不適用于小樣本AI模型開發(fā),特別是些特殊行業(yè),數(shù)據(jù)本來就不多,但又有著需求,因此陷于兩難。面臨這種市場困境,慧視光電推出了個(gè)全新的AI平臺Sma
    的頭像 發(fā)表于 09-09 17:57 ?1015次閱讀
    模板驅(qū)動  無需訓(xùn)練<b class='flag-5'>數(shù)據(jù)</b>  SmartDP解決<b class='flag-5'>小樣本</b>AI算法模型開發(fā)難題

    一種適用于動態(tài)環(huán)境的自適應(yīng)先驗(yàn)場景-對象SLAM框架

    由于傳統(tǒng)視覺SLAM在動態(tài)場景中容易會出現(xiàn)嚴(yán)重的定位漂移,本文提出了一種新穎的基于場景-對象的可靠性評估框架,該框架通過當(dāng)前幀質(zhì)量指標(biāo)以及相對于可靠參考幀的場景變化,全面評估SLAM的
    的頭像 發(fā)表于 08-19 14:17 ?462次閱讀
    <b class='flag-5'>一種</b>適用于動態(tài)環(huán)境的自適應(yīng)先驗(yàn)場景-對象SLAM<b class='flag-5'>框架</b>

    嵌入式AI技術(shù)漫談:怎么訓(xùn)練AI模型采集樣本數(shù)據(jù)

    多少數(shù)據(jù),才能形成合適的樣本集,進(jìn)而開始訓(xùn)練模型呢? 此時(shí),回答“按需提供”或者“先試試看”似乎會變成句車轱轆話,看似回答了問題,但客戶還是無從下手。 AI數(shù)據(jù)
    的頭像 發(fā)表于 06-11 16:30 ?968次閱讀

    一種實(shí)時(shí)多線程VSLAM框架vS-Graphs介紹

    針對現(xiàn)有VSLAM系統(tǒng)語義表達(dá)不足、地圖可解釋性差的問題,本文提出vS-Graphs,一種實(shí)時(shí)多線程VSLAM框架。該方案顯著提升了重建地圖的語義豐富度、可解釋性及定位精度。實(shí)驗(yàn)表明
    的頭像 發(fā)表于 04-19 14:07 ?627次閱讀
    <b class='flag-5'>一種</b>實(shí)時(shí)多線程VSLAM<b class='flag-5'>框架</b>vS-Graphs介紹

    嵌入式AI技術(shù)之深度學(xué)習(xí)數(shù)據(jù)樣本預(yù)處理過程中使用合適的特征變換對深度學(xué)習(xí)的意義

    ? 作者:蘇勇Andrew 使用神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)機(jī)器學(xué)習(xí),網(wǎng)絡(luò)的每個(gè)層都將對輸入的數(shù)據(jù)次抽象,多層神經(jīng)網(wǎng)絡(luò)構(gòu)成深度學(xué)習(xí)框架,可以深度理解
    的頭像 發(fā)表于 04-02 18:21 ?1189次閱讀

    xgboost在圖像分類中的應(yīng)用

    XGBoost(eXtreme Gradient Boosting)是一種高效的機(jī)器學(xué)習(xí)算法,它基于梯度提升框架,通過構(gòu)建多個(gè)弱學(xué)習(xí)器(通常是決策樹)來提高模型的性能。XGBoost因
    的頭像 發(fā)表于 01-19 11:16 ?1397次閱讀

    【「基于大模型的RAG應(yīng)用開發(fā)與優(yōu)化」閱讀體驗(yàn)】+Embedding技術(shù)解讀

    理和理解這些數(shù)據(jù)。在自然語言處理中,Embedding常用于將文本數(shù)據(jù)中的單詞、句子或文檔映射固定長度的實(shí)數(shù)向量,這些向量包含了豐富的語義信息。RAG技術(shù)是一種
    發(fā)表于 01-17 19:53

    AI模型部署邊緣設(shè)備的奇妙之旅:目標(biāo)檢測模型

    問題,當(dāng)步幅2時(shí),添加了深度卷積和逐點(diǎn)卷積來整合不同的信道信息(圖 a)。GhostNet 的作者提出了一種新的 Ghost 模塊,該模塊可以用更少的參數(shù)生成更多的特征圖,以提高網(wǎng)絡(luò)的學(xué)習(xí)能力。在步幅
    發(fā)表于 12-19 14:33

    如何使用自然語言處理分析文本數(shù)據(jù)

    媒體、新聞報(bào)道、用戶評論等)收集你感興趣的文本數(shù)據(jù)。 數(shù)據(jù)清洗 :去除無關(guān)字符(如HTML標(biāo)簽、特殊符號等),確保文本數(shù)據(jù)干凈且致。 2. 預(yù)處理 分詞 :將
    的頭像 發(fā)表于 12-05 15:27 ?2168次閱讀

    HarmonyOS NEXT應(yīng)用服務(wù)開發(fā)Intents Kit(意圖框架服務(wù))綜述

    、綜述 Intents Kit(意圖框架服務(wù))是HarmonyOS級的意圖標(biāo)準(zhǔn)體系 ,意圖連接了應(yīng)用/服務(wù)內(nèi)的業(yè)務(wù)功能。 意圖框架能幫開發(fā)者將應(yīng)用/
    發(fā)表于 11-28 10:43

    一種面向飛行試驗(yàn)的數(shù)據(jù)融合框架

    天地氣動數(shù)據(jù)一致性,針對某外形飛行試驗(yàn)數(shù)據(jù)開展了典型對象的天地氣動數(shù)據(jù)融合方法研究。結(jié)合數(shù)據(jù)挖掘的隨機(jī)森林方法,本文提出了
    的頭像 發(fā)表于 11-27 11:34 ?1196次閱讀
    <b class='flag-5'>一種</b>面向飛行試驗(yàn)的<b class='flag-5'>數(shù)據(jù)</b>融合<b class='flag-5'>框架</b>

    HarmonyOS NEXT應(yīng)用服務(wù)開發(fā)Intents Kit(意圖框架服務(wù))習(xí)慣推薦方案概述

    、習(xí)慣推薦是HarmonyOS學(xué)習(xí)用戶的行為習(xí)慣后做出的主動預(yù)測推薦。 1.開發(fā)者將用戶在應(yīng)用/服務(wù)內(nèi)的使用行為向HarmonyOS共享,使得HarmonyOS可以基于共享的數(shù)據(jù)
    發(fā)表于 11-19 17:59

    主動學(xué)習(xí)在圖像分類技術(shù)中的應(yīng)用:當(dāng)前狀態(tài)與未來展望

    本文對近年來提出的主動學(xué)習(xí)圖像分類算法進(jìn)行了詳細(xì)綜述,并根據(jù)所用樣本數(shù)據(jù)處理及模型優(yōu)化方案,將現(xiàn)有算法分為三類:基于數(shù)據(jù)
    的頭像 發(fā)表于 11-14 10:12 ?1605次閱讀
    主動<b class='flag-5'>學(xué)習(xí)</b>在圖像<b class='flag-5'>分類</b>技術(shù)中的應(yīng)用:當(dāng)前狀態(tài)與未來展望

    HarmonyOS NEXT應(yīng)用服務(wù)開發(fā)Intents Kit(意圖框架服務(wù))事件推薦方案概述

    、概述 事件推薦是應(yīng)用/服務(wù)有新的動態(tài)產(chǎn)生且滿足推薦規(guī)則時(shí)給用戶做出的主動推薦。實(shí)現(xiàn)事件推薦需要開發(fā)者將事件信息共享給意圖框架,當(dāng)滿足事件推送規(guī)則時(shí),會在小藝建議入口向指定用戶推薦該事件提醒卡片
    發(fā)表于 11-13 10:38

    HarmonyOS NEXT應(yīng)用服務(wù)開發(fā)Intents Kit(意圖框架服務(wù))本地搜索方案概述

    本地搜索”特性例,當(dāng)用戶在使用音樂應(yīng)用/服務(wù)產(chǎn)生行為時(shí),應(yīng)用/服務(wù)可以將音樂的數(shù)據(jù)通過意圖框架API接口共享到HarmonyOS。這里的音樂數(shù)
    發(fā)表于 11-06 10:59