成人黄色大片,午夜dj在线观看高清在线视频国语,99j久久精品久久久久久

不知道大家在平時(shí)使用時(shí)有沒(méi)有發(fā)現(xiàn)，BERT的上下文嵌入非常『昂貴』，并且可能無(wú)法在所有情況下帶來(lái)價(jià)值。分享一篇ACL2020的論文，介紹了一些思路。

論文：Contextual Embeddings: When Are They Worth It?

代碼：https://github.com/HazyResearch/random_embedding

寫(xiě)在前面

諸如BERT或其改進(jìn)后代之類(lèi)的SOTA模型，使用起來(lái)十分"昂貴"。僅僅是預(yù)訓(xùn)練的『BERT-base』模型（用今天的標(biāo)準(zhǔn)幾乎可以認(rèn)為是很小的模型），也需要在16個(gè)TPU芯片上花費(fèi)了超過(guò)4天的時(shí)間，而這需要花費(fèi)數(shù)千美元。這甚至都沒(méi)有考慮對(duì)模型進(jìn)行進(jìn)一步的微調(diào)或最終使用，這兩者都只會(huì)增加最終的總成本。

與其嘗試找出創(chuàng)建更小的Transformer模型的方法（如何修剪BERT達(dá)到加速目的？理論與實(shí)現(xiàn)），不如退后一步去問(wèn)：「基于Transformer模型的上下文嵌入何時(shí)真正值得使用？」在什么情況下，使用GloVe或甚至是隨機(jī)嵌入等計(jì)算成本較低的非上下文嵌入（non-contextual embeddings ），可能達(dá)到類(lèi)似的性能？

這些是Arora等人提出的一些問(wèn)題，而答案就在他們的研究中：Contextual Embeddings: When Are They Worth It[1]?本文將概述他們的研究并重點(diǎn)介紹他們的主要發(fā)現(xiàn)。

研究?jī)?nèi)容

該研究分為兩個(gè)部分，首先檢查訓(xùn)練數(shù)據(jù)量的影響，然后檢查這些數(shù)據(jù)集的語(yǔ)言特性。

訓(xùn)練數(shù)據(jù)大小

作者發(fā)現(xiàn)，在決定BERT-embedding和Glove-embedding的效果性能方面，訓(xùn)練數(shù)據(jù)量起著關(guān)鍵作用。通過(guò)使用更多的訓(xùn)練數(shù)據(jù)，非上下文嵌入很快得到了改善，并且在使用所有可用數(shù)據(jù)時(shí)，通常能夠在BERT模型用時(shí)的5-10％之內(nèi)完成。

另一方面，作者發(fā)現(xiàn)在某些情況下，可以用少于16倍的數(shù)據(jù)來(lái)訓(xùn)練上下文化嵌入，同時(shí)仍然與非上下文化嵌入所獲得的最佳性能相當(dāng)。這就需要在推理（計(jì)算和內(nèi)存）和標(biāo)記數(shù)據(jù)的成本之間進(jìn)行了權(quán)衡，或者如Arora等人所說(shuō)：

ML practitioners may find that for certain real-world tasks the large gains in efficiency [when using non-contextual embeddings] are well worth the cost of labelling more data. ——— Arora et al

數(shù)據(jù)集的語(yǔ)言特性

對(duì)訓(xùn)練數(shù)據(jù)量的研究表明，在某些任務(wù)中，上下文嵌入比非上下文嵌入的表現(xiàn)要好得多，而在其他情況下，這些差異要小得多。這些結(jié)果激發(fā)了作者們的思考，是否有可能找到并量化語(yǔ)言特性，以表明這種情況何時(shí)發(fā)生。

為此，他們定義了三個(gè)度量標(biāo)準(zhǔn)，用于量化每個(gè)數(shù)據(jù)集的特征。根據(jù)設(shè)計(jì)，這些度量沒(méi)有給出一個(gè)單一的定義，而是用來(lái)編碼哪些特征影響模型性能的直覺(jué)。這使得我們可以對(duì)它們進(jìn)行解釋?zhuān)缓髮?duì)它們進(jìn)行嚴(yán)格的定義，以用于我們研究的任務(wù)。因此，下面以命名實(shí)體識(shí)別數(shù)據(jù)集舉例作者提出的指標(biāo)：

文本結(jié)構(gòu)的復(fù)雜性：表示一個(gè)句子中詞與詞之間的依賴(lài)性。在NER中表現(xiàn)為每個(gè)實(shí)體跨越的token數(shù)量，如“George Washington”橫跨兩個(gè)token。

詞義模糊：每個(gè)token在訓(xùn)練數(shù)據(jù)集中分配的不同標(biāo)簽的數(shù)量，如“Washington”可以指定人員、地點(diǎn)和組織，這需要考慮到它的背景。

未出現(xiàn)詞的流行度：表示在訓(xùn)練過(guò)程出現(xiàn)從未見(jiàn)過(guò)詞的概率。在NER中定義為token出現(xiàn)次數(shù)的倒數(shù)。

這些指標(biāo)被用來(lái)給數(shù)據(jù)集中的每一項(xiàng)打分，以便我們將它們分成“困難”和“容易”。這使得我們能夠比較來(lái)自同一數(shù)據(jù)集的這兩個(gè)分區(qū)的嵌入性能。

如果這些指標(biāo)是非信息性的，那么這兩個(gè)分區(qū)的性能差異將是相等的。幸運(yùn)的是，作者們發(fā)現(xiàn)并非如此。相反，他們觀察到，在42個(gè)案例中，有30個(gè)案例，上下文嵌入和非上下文嵌入之間的差異在困難分區(qū)?上高于簡(jiǎn)單分區(qū)。

這意味著，這些指標(biāo)可以作為一個(gè)代理，來(lái)自BERT之類(lèi)模型的上下文嵌入將優(yōu)于非上下文嵌入！然而，從另一個(gè)角度來(lái)看，它可能更有用——用于指示來(lái)自glove的非上下文嵌入何時(shí)足以達(dá)到最先進(jìn)的性能。

結(jié)論

在研究Contextual Embeddings: When Are They Worth It? 中，Arora等人強(qiáng)調(diào)了數(shù)據(jù)集的關(guān)鍵特征，這些特征指示上下文嵌入何時(shí)值得使用。首先，訓(xùn)練數(shù)據(jù)集大小決定了非上下文化嵌入的潛在有用性，即越多越好。其次，數(shù)據(jù)集的特征也起著重要作用。作者定義了三個(gè)指標(biāo)，即文本結(jié)構(gòu)的復(fù)雜性，詞匯使用的模糊性，以及未出現(xiàn)詞的流行度，這有助于我們理解使用上下文嵌入可能帶來(lái)的潛在好處。

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

模型

模型

+關(guān)注

關(guān)注
1

文章
3618

瀏覽量
51543
數(shù)據(jù)集

數(shù)據(jù)集

+關(guān)注

關(guān)注
4

文章
1229

瀏覽量
25964
文本

文本

+關(guān)注

關(guān)注
0

文章
119

瀏覽量
17696
Transformer

Transformer

+關(guān)注

關(guān)注
0

文章
153

瀏覽量
6757

原文標(biāo)題：ACL2020 | 什么時(shí)候值得用BERT上下文嵌入

文章出處：【微信號(hào)：zenRRan，微信公眾號(hào)：深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

18video性欧美19sex,欧美高清videosddfsexhd,性少妇videosexfreexxx片中国,激情五月激情综合五月看花,亚洲人成网77777色在线播放

搜索歷史

基于Transformer模型的上下文嵌入何時(shí)真正值得使用？

評(píng)論

搜索歷史

基于Transformer模型的上下文嵌入何時(shí)真正值得使用？

評(píng)論

基于Transformer模型的上下文嵌入何時(shí)真正值得使用？