18video性欧美19sex,欧美高清videosddfsexhd,性少妇videosexfreexxx片中国,激情五月激情综合五月看花,亚洲人成网77777色在线播放

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

基于Transformer模型的上下文嵌入何時(shí)真正值得使用?

深度學(xué)習(xí)自然語(yǔ)言處理 ? 來(lái)源:深度學(xué)習(xí)自然語(yǔ)言處理 ? 作者: Victor Karlsson ? 2020-08-28 10:44 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

不知道大家在平時(shí)使用時(shí)有沒(méi)有發(fā)現(xiàn),BERT的上下文嵌入非常『昂貴』,并且可能無(wú)法在所有情況下帶來(lái)價(jià)值。分享一篇ACL2020的論文,介紹了一些思路。

論文:Contextual Embeddings: When Are They Worth It?

代碼:https://github.com/HazyResearch/random_embedding

寫(xiě)在前面

諸如BERT或其改進(jìn)后代之類(lèi)的SOTA模型,使用起來(lái)十分"昂貴"。僅僅是預(yù)訓(xùn)練的『BERT-base』模型(用今天的標(biāo)準(zhǔn)幾乎可以認(rèn)為是很小的模型),也需要在16個(gè)TPU芯片上花費(fèi)了超過(guò)4天的時(shí)間,而這需要花費(fèi)數(shù)千美元。這甚至都沒(méi)有考慮對(duì)模型進(jìn)行進(jìn)一步的微調(diào)或最終使用,這兩者都只會(huì)增加最終的總成本。

與其嘗試找出創(chuàng)建更小的Transformer模型的方法(如何修剪BERT達(dá)到加速目的?理論與實(shí)現(xiàn)),不如退后一步去問(wèn):「基于Transformer模型的上下文嵌入何時(shí)真正值得使用?」在什么情況下,使用GloVe或甚至是隨機(jī)嵌入等計(jì)算成本較低的非上下文嵌入(non-contextual embeddings ),可能達(dá)到類(lèi)似的性能?

這些是Arora等人提出的一些問(wèn)題,而答案就在他們的研究中:Contextual Embeddings: When Are They Worth It[1]?本文將概述他們的研究并重點(diǎn)介紹他們的主要發(fā)現(xiàn)。

研究?jī)?nèi)容

該研究分為兩個(gè)部分,首先檢查訓(xùn)練數(shù)據(jù)量的影響,然后檢查這些數(shù)據(jù)集的語(yǔ)言特性。

訓(xùn)練數(shù)據(jù)大小

作者發(fā)現(xiàn),在決定BERT-embedding和Glove-embedding的效果性能方面,訓(xùn)練數(shù)據(jù)量起著關(guān)鍵作用。通過(guò)使用更多的訓(xùn)練數(shù)據(jù),非上下文嵌入很快得到了改善,并且在使用所有可用數(shù)據(jù)時(shí),通常能夠在BERT模型用時(shí)的5-10%之內(nèi)完成。

另一方面,作者發(fā)現(xiàn)在某些情況下,可以用少于16倍的數(shù)據(jù)來(lái)訓(xùn)練上下文化嵌入,同時(shí)仍然與非上下文化嵌入所獲得的最佳性能相當(dāng)。這就需要在推理(計(jì)算和內(nèi)存)和標(biāo)記數(shù)據(jù)的成本之間進(jìn)行了權(quán)衡,或者如Arora等人所說(shuō):

ML practitioners may find that for certain real-world tasks the large gains in efficiency [when using non-contextual embeddings] are well worth the cost of labelling more data. ——— Arora et al

數(shù)據(jù)集的語(yǔ)言特性

對(duì)訓(xùn)練數(shù)據(jù)量的研究表明,在某些任務(wù)中,上下文嵌入比非上下文嵌入的表現(xiàn)要好得多,而在其他情況下,這些差異要小得多。這些結(jié)果激發(fā)了作者們的思考,是否有可能找到并量化語(yǔ)言特性,以表明這種情況何時(shí)發(fā)生。

為此,他們定義了三個(gè)度量標(biāo)準(zhǔn),用于量化每個(gè)數(shù)據(jù)集的特征。根據(jù)設(shè)計(jì),這些度量沒(méi)有給出一個(gè)單一的定義,而是用來(lái)編碼哪些特征影響模型性能的直覺(jué)。這使得我們可以對(duì)它們進(jìn)行解釋?zhuān)缓髮?duì)它們進(jìn)行嚴(yán)格的定義,以用于我們研究的任務(wù)。因此,下面以命名實(shí)體識(shí)別數(shù)據(jù)集舉例作者提出的指標(biāo):

文本結(jié)構(gòu)的復(fù)雜性:表示一個(gè)句子中詞與詞之間的依賴(lài)性。在NER中表現(xiàn)為每個(gè)實(shí)體跨越的token數(shù)量,如“George Washington”橫跨兩個(gè)token。

詞義模糊:每個(gè)token在訓(xùn)練數(shù)據(jù)集中分配的不同標(biāo)簽的數(shù)量,如“Washington”可以指定人員、地點(diǎn)和組織,這需要考慮到它的背景。

未出現(xiàn)詞的流行度:表示在訓(xùn)練過(guò)程出現(xiàn)從未見(jiàn)過(guò)詞的概率。在NER中定義為token出現(xiàn)次數(shù)的倒數(shù)。

這些指標(biāo)被用來(lái)給數(shù)據(jù)集中的每一項(xiàng)打分,以便我們將它們分成“困難”和“容易”。這使得我們能夠比較來(lái)自同一數(shù)據(jù)集的這兩個(gè)分區(qū)的嵌入性能。

如果這些指標(biāo)是非信息性的,那么這兩個(gè)分區(qū)的性能差異將是相等的。幸運(yùn)的是,作者們發(fā)現(xiàn)并非如此。相反,他們觀察到,在42個(gè)案例中,有30個(gè)案例,上下文嵌入和非上下文嵌入之間的差異在困難分區(qū)?上高于簡(jiǎn)單分區(qū)。

這意味著,這些指標(biāo)可以作為一個(gè)代理,來(lái)自BERT之類(lèi)模型的上下文嵌入將優(yōu)于非上下文嵌入!然而,從另一個(gè)角度來(lái)看,它可能更有用——用于指示來(lái)自glove的非上下文嵌入何時(shí)足以達(dá)到最先進(jìn)的性能。

結(jié)論

在研究Contextual Embeddings: When Are They Worth It? 中,Arora等人強(qiáng)調(diào)了數(shù)據(jù)集的關(guān)鍵特征,這些特征指示上下文嵌入何時(shí)值得使用。首先,訓(xùn)練數(shù)據(jù)集大小決定了非上下文化嵌入的潛在有用性,即越多越好。其次,數(shù)據(jù)集的特征也起著重要作用。作者定義了三個(gè)指標(biāo),即文本結(jié)構(gòu)的復(fù)雜性,詞匯使用的模糊性,以及未出現(xiàn)詞的流行度,這有助于我們理解使用上下文嵌入可能帶來(lái)的潛在好處。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3618

    瀏覽量

    51543
  • 數(shù)據(jù)集
    +關(guān)注

    關(guān)注

    4

    文章

    1229

    瀏覽量

    25964
  • 文本
    +關(guān)注

    關(guān)注

    0

    文章

    119

    瀏覽量

    17696
  • Transformer
    +關(guān)注

    關(guān)注

    0

    文章

    153

    瀏覽量

    6757

原文標(biāo)題:ACL2020 | 什么時(shí)候值得用BERT上下文嵌入

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    為什么transformer性能這么好?Transformer上下文學(xué)習(xí)能力是哪來(lái)的?

    為什么 transformer 性能這么好?它給眾多大語(yǔ)言模型帶來(lái)的上下文學(xué)習(xí) (In-Context Learning) 能力是從何而來(lái)?在人工智能領(lǐng)域里,transformer
    的頭像 發(fā)表于 09-25 12:05 ?1887次閱讀
    為什么<b class='flag-5'>transformer</b>性能這么好?<b class='flag-5'>Transformer</b>的<b class='flag-5'>上下文</b>學(xué)習(xí)能力是哪來(lái)的?

    關(guān)于進(jìn)程上下文、中斷上下文及原子上下文的一些概念理解

    開(kāi)講之前,咱們有必要看看這兩個(gè)概念:a -- 上下文 上下文是從英文context翻譯過(guò)來(lái),指的是一種環(huán)境。相對(duì)于進(jìn)程而言,就是進(jìn)程執(zhí)行時(shí)的環(huán)境; 具體來(lái)說(shuō)就是各個(gè)變量和數(shù)據(jù),包括所有的寄存器變量
    發(fā)表于 09-06 09:58

    進(jìn)程上下文與中斷上下文的理解

    來(lái)源 網(wǎng)絡(luò)一.什么是內(nèi)核態(tài)和用戶(hù)態(tài)內(nèi)核態(tài):在內(nèi)核空間執(zhí)行,通常是驅(qū)動(dòng)程序,中斷相關(guān)程序,內(nèi)核調(diào)度程序,內(nèi)存管理及其操作程序。用戶(hù)態(tài):用戶(hù)程序運(yùn)行空間。 二.什么是進(jìn)程上下文與中斷上下文1.進(jìn)程上下文
    發(fā)表于 12-11 19:45

    JavaScript的執(zhí)行上下文

    JavaScript執(zhí)行上下文之執(zhí)行上下文
    發(fā)表于 05-29 16:12

    進(jìn)程上下文/中斷上下文及原子上下文的概念

    為什么會(huì)有上下文這種概念進(jìn)程上下文/中斷上下文及原子上下文的概念
    發(fā)表于 01-13 07:17

    中斷中的上下文切換詳解

    接口的實(shí)現(xiàn),在中斷上下文中的信號(hào)量post動(dòng)作,調(diào)用的是isrRtxSemaphoreRelease接口,此接口調(diào)用osRtxPostProcess進(jìn)行真正的post動(dòng)作,在isr_queue_put
    發(fā)表于 03-23 17:18

    基于多Agent的用戶(hù)上下文自適應(yīng)站點(diǎn)構(gòu)架

    自適應(yīng)站點(diǎn)很少考慮對(duì)用戶(hù)環(huán)境的自適應(yīng)。為此,提出用戶(hù)上下文自適應(yīng)站點(diǎn)的概念,給出基于多Agent技術(shù)的用戶(hù)上下文自適應(yīng)站點(diǎn)構(gòu)架模型。闡述用戶(hù)上下文獲取、挖掘過(guò)程以及站
    發(fā)表于 04-11 08:49 ?13次下載

    基于交互上下文的預(yù)測(cè)方法

    傳統(tǒng)的上下文預(yù)測(cè)是在單用戶(hù)的上下文基礎(chǔ)上進(jìn)行的,忽視了實(shí)際普適計(jì)算環(huán)境中由于用戶(hù)交互活動(dòng)導(dǎo)致的上下文變化因素。為了合理、有效地解決上述局限性問(wèn)題,該文提出基
    發(fā)表于 10-04 14:08 ?7次下載

    終端業(yè)務(wù)上下文的定義方法及業(yè)務(wù)模型

    該文針對(duì)業(yè)務(wù)上下文僅關(guān)注業(yè)務(wù)質(zhì)量較少考慮用戶(hù)終端環(huán)境的現(xiàn)狀,提出終端業(yè)務(wù)上下文的概念,為普適業(yè)務(wù)的開(kāi)展提供必要的信息支撐。給出一種終端業(yè)務(wù)上下文的通用定義方法
    發(fā)表于 03-06 11:06 ?11次下載

    基于Pocket PC的上下文菜單實(shí)現(xiàn)

    介紹了基于 Pocket PC 中的點(diǎn)按操作概念, 論述了在Pocket PC 中上下文菜單的實(shí)現(xiàn)原理及方法, 并給出了基于MFC 下的Windows CE 應(yīng)用程序?qū)崿F(xiàn)上下文菜單的步驟和代碼實(shí)例。
    發(fā)表于 07-25 18:26 ?17次下載

    基于Pocket PC的上下文菜單實(shí)現(xiàn)

    本文介紹了基于 Pocket PC 中的“點(diǎn)按”操作概念 論述了在 Pocket PC 中上下文菜單的實(shí)現(xiàn)原理及方法 并給出了基于 MFC 下的 Windows CE 應(yīng)用程序?qū)崿F(xiàn)上下文菜單的步驟和代碼實(shí)例 。
    發(fā)表于 04-18 10:46 ?0次下載

    基于上下文相似度的分解推薦算法

    模型,再對(duì)目標(biāo)用戶(hù)的K個(gè)鄰居用戶(hù)建立移動(dòng)用戶(hù)一上下文一移動(dòng)服務(wù)三維張量分解模型,獲得目標(biāo)用戶(hù)的移動(dòng)服務(wù)預(yù)測(cè)值,生成移動(dòng)推薦。實(shí)驗(yàn)結(jié)果顯示,與余弦相似性方法、Pearson相關(guān)系數(shù)方法和Cosinel改進(jìn)相似度
    發(fā)表于 11-27 17:42 ?0次下載

    Web服務(wù)的上下文的訪問(wèn)控制策略模型

    的訪問(wèn)控制策略模型。模型的核心思想是將各種與訪問(wèn)控制有關(guān)的信息統(tǒng)一抽象表示為一個(gè)上下文概念,以上下文為中心來(lái)制定和執(zhí)行訪問(wèn)控制策略,上下文擔(dān)
    發(fā)表于 01-05 16:32 ?0次下載

    初學(xué)OpenGL:什么是繪制上下文

    初學(xué)OpenGL,打開(kāi)紅寶書(shū),會(huì)告訴你OpenGL是個(gè)狀態(tài)機(jī),OpenGL采用了客戶(hù)端-服務(wù)器模式,那時(shí)覺(jué)得好抽象,直到后來(lái)了解了繪制上下文才把這些聯(lián)系起來(lái)。我們可以認(rèn)為每一個(gè)硬件GPU是個(gè)服務(wù)器
    發(fā)表于 04-28 11:47 ?2733次閱讀

    如何分析Linux CPU上下文切換問(wèn)題

    在我的上一篇文章:《探討 Linux CPU 的上下文切換》中,我談到了 CPU 上下文切換的工作原理。快速回顧一下,CPU 上下文切換是保證 Linux 系統(tǒng)正常運(yùn)行的核心功能。可分為進(jìn)程
    的頭像 發(fā)表于 05-05 20:11 ?2559次閱讀