18video性欧美19sex,欧美高清videosddfsexhd,性少妇videosexfreexxx片中国,激情五月激情综合五月看花,亚洲人成网77777色在线播放

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

生成英文維基百科文章的方法可以概述為源文檔的多文檔摘要

mK5P_AItists ? 2018-02-06 11:26 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

最近,經(jīng)過(guò)研究證明,生成英文維基百科(English Wikipedia)文章的方法可以概述為源文檔的多文檔摘要。我們使用抽取式文摘(extractive summarization)來(lái)粗略地識(shí)別出顯要的信息,以及一個(gè)神經(jīng)抽象模型以生成文章。對(duì)于抽象模型,我們引入了一個(gè)只能解碼的體系結(jié)構(gòu),它可以擴(kuò)展性地處理非常長(zhǎng)的序列,遠(yuǎn)比用于序列轉(zhuǎn)換中的典型的編碼器——解碼器體系結(jié)構(gòu)長(zhǎng)得多。我們的研究表明,這個(gè)模型可以生成流暢、連貫的多句話段落,甚至整個(gè)維基百科的文章。當(dāng)給出參考文獻(xiàn)時(shí),研究結(jié)果表明,它可以從諸如復(fù)雜度、ROUGE分?jǐn)?shù)和人類評(píng)價(jià)所反映的信息中提取出相關(guān)的事實(shí)信息。

序列—序列框架已被證明在諸如機(jī)器翻譯這樣的自然語(yǔ)言序列轉(zhuǎn)換任務(wù)上取得了成功。最近,神經(jīng)技術(shù)已經(jīng)被應(yīng)用于對(duì)新聞文章進(jìn)行單一文檔、抽象(釋義)文本摘要的處理。在此前的研究中,監(jiān)督模型的輸入范圍包括文章的第一句到整個(gè)文本,并且要對(duì)其進(jìn)行端到端的訓(xùn)練以預(yù)測(cè)參考摘要。由于語(yǔ)言理解是生成流暢摘要的先決條件,因此進(jìn)行這種端到端的操作需要大量的并行的文章—摘要對(duì)。

生成英文維基百科文章的方法可以概述為源文檔的多文檔摘要

圖1:T-DMCA模型中使用的自注意力層(self-attention layers)的架構(gòu)。每個(gè)注意力層都將一個(gè)字符序列作為輸入,并產(chǎn)生一個(gè)相似長(zhǎng)度的序列作為輸出。左圖:轉(zhuǎn)換器解碼器中使用的原始自注意。中:內(nèi)存壓縮的注意力(Memory-compressed attentionyers),減少了鍵/值的數(shù)量。右:將序列分割成單個(gè)較小的子序列的局部注意力。然后將這些子序列合并在一起以得到最終的輸出序列。

相反,我們考慮了多文檔摘要的任務(wù),其中,輸入是相關(guān)文檔的集合且其摘要是精煉過(guò)的。以往研究工作的著重點(diǎn)在提取式摘要上,從輸入中選擇句子或短語(yǔ)以形成摘要,而不是生成新的文本。抽象神經(jīng)方法的應(yīng)用存在一定的局限性,一個(gè)可能的原因是缺少大型的已標(biāo)記數(shù)據(jù)集。

在這項(xiàng)研究中,我們將英文維基百科視為一個(gè)多文檔摘要的監(jiān)督式機(jī)器學(xué)習(xí)任務(wù),其中,輸入由維基百科主題(文章標(biāo)題)和非維基百科參考文獻(xiàn)的集合組成,目標(biāo)是維基百科的文章文本。我們對(duì)第一次試圖抽象地生成基于參考文本的維基百科文章的第一部分或引文。除了在任務(wù)上運(yùn)行強(qiáng)大的基線模型之外,我們還將轉(zhuǎn)換器(Transformer)體系結(jié)構(gòu)(Vaswani 等人于2017年提出)修改為只包含一個(gè)解碼器,在較長(zhǎng)的輸入序列情況下,與循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)以及Transformer編碼器—解碼器模型相比,它具有更好的表型性能。最后,研究結(jié)果表明,我們的建模改進(jìn)使得我們能夠生成完整的維基百科文章。

圖2:用于各種提取方法的ROUGE-L F1,抽象模型的貢獻(xiàn)表現(xiàn)為用于最佳組合的d tf-idf-T-DMCA模型

用于神經(jīng)抽象摘要的其他數(shù)據(jù)集

神經(jīng)抽象摘要(Neural abstractive summarization)是Rush等人(于2015年)提出的,其中,他們使用包括來(lái)自多家出版商的新聞報(bào)道在內(nèi)的英文Gigaword語(yǔ)料庫(kù)(Graff和Cieri于2003年提出)對(duì)標(biāo)題生成模型進(jìn)行訓(xùn)練。然而,這個(gè)任務(wù)更像是句子的釋義,而不是摘要,因?yàn)橹挥形恼碌牡谝痪湓挷疟挥靡灶A(yù)測(cè)標(biāo)題和另一句話。而在ROUGE(一種經(jīng)常用于摘要的自動(dòng)度量)和人類評(píng)估((Chopra等人于2016年提出))中,基于RNN具有注意力(attention)的編碼器—解碼器模型(seq2seq),在該任務(wù)上具有良好的性能表現(xiàn)。

2016年,Nallapati等人通過(guò)修改每日郵報(bào)(Daily Mail)和美國(guó)有線電視新聞網(wǎng)(CNN)中配有故事亮點(diǎn)的新聞報(bào)道的提問(wèn)數(shù)據(jù)集,提出了一個(gè)抽象的摘要數(shù)據(jù)集。這個(gè)任務(wù)比標(biāo)題生成更為困難,因?yàn)榱咙c(diǎn)中所使用的信息可能來(lái)自文章的多個(gè)部分,而不僅僅是第一句。數(shù)據(jù)集的一個(gè)缺點(diǎn)是,它有一個(gè)較少數(shù)量級(jí)的并行樣本(310k VS 3.8M)以供學(xué)習(xí)。標(biāo)準(zhǔn)具有注意力的 seq2seq模型性能表現(xiàn)并不太好,并且還使用了大量的技術(shù)以提高性能。另一個(gè)不利之處是,目前還不清楚制定故事亮點(diǎn)的準(zhǔn)則是什么,而且很顯然的是,兩家新聞出版商在文體上存在者顯著的差異。

圖3:在用于不同模型體系結(jié)構(gòu)的組合語(yǔ)料庫(kù)上,比較了復(fù)雜度和用于tf-idf提取問(wèn)題中L之間的關(guān)系。對(duì)于T-DMCA來(lái)說(shuō),E表示專家級(jí)混合層(mixture-of-experts)的大小。

在我們的研究中,我們也對(duì)神經(jīng)抽象模型進(jìn)行了訓(xùn)練,但是是在維基百科的多文檔機(jī)制中。從表1可以看出,輸入和輸出文本通常要大得多,并且根據(jù)文章的不同而有著明顯的差異。一般來(lái)說(shuō),摘要(維基百科的主要內(nèi)容)往往是多個(gè)句子,有時(shí)是多個(gè)段落,且就像維基百科風(fēng)格手冊(cè)中所提倡的那樣,是以一種相當(dāng)統(tǒng)一的風(fēng)格編寫(xiě)的。但是,輸入文檔可能包含任意來(lái)源的任意風(fēng)格的文檔。

生成英文維基百科文章的方法可以概述為源文檔的多文檔摘要

表1:摘要數(shù)據(jù)集的數(shù)量級(jí)輸入/輸出大小和一元(unigrams)回調(diào)

我們還在表1中給出了ROUGE-1給定輸入的輸出回調(diào)(recall)得分,即同時(shí)出現(xiàn)在輸入輸出中的一元(unigrams)/單詞的比例。更高的分?jǐn)?shù)對(duì)應(yīng)于一個(gè)更易于進(jìn)行抽取式摘要處理的數(shù)據(jù)集。特別是,如果輸出完全嵌入到輸入的某個(gè)地方(例如wiki復(fù)制),則得分將為100。相對(duì)于對(duì)于其他摘要數(shù)據(jù)集分?jǐn)?shù)為76.1和78.7,而我們的分?jǐn)?shù)為59.2的情況下,表明我們的方法是最不適合進(jìn)行純抽取方法的。

涉及維基百科的任務(wù)

其實(shí),有許多研究工作都將維基百科用于機(jī)器學(xué)習(xí)任務(wù)中,包括問(wèn)題回答(questionanswering)、信息提?。╥nformation extraction)以及結(jié)構(gòu)化數(shù)據(jù)中的文本生成等。

與我們最為接近的涉及維基百科生成的研究工作是Sauper和Barzilay(于2009年)所進(jìn)行的,其中文章是使用學(xué)習(xí)模板從參考文檔中抽取式(而不是像我們案例中的抽象式)生成的。維基百科文章限于兩類,而我們使用的是所有文章類型。參考文檔是從搜索引擎獲的,其中,用作查詢的維基百科主題與我們的搜索引擎參考頗為相似。不過(guò),我們也會(huì)在維基百科文章的“參考文獻(xiàn)”部分中顯示文檔的結(jié)果。

生成英文維基百科文章的方法可以概述為源文檔的多文檔摘要

圖4:同一樣本在不同模型中的預(yù)測(cè)結(jié)果顯示。

在圖4中,我們展示了來(lái)自三個(gè)不同模型(使用tf-idf提取和組合語(yǔ)料庫(kù))的預(yù)測(cè)結(jié)果,以及維基百科的基本事實(shí)。隨著復(fù)雜度的降低,我們看到模型的輸出在流暢性、事實(shí)準(zhǔn)確性和敘述復(fù)雜性方面都有所改善。特別是,T-DMCA模型提供了維基百科版本的一個(gè)可替代性選擇,并且更為簡(jiǎn)潔,同時(shí)提到了關(guān)鍵事實(shí),例如律師事務(wù)所所在位置,什么時(shí)間、如何形成的,以及該事務(wù)所的崛起和衰落。

生成英文維基百科文章的方法可以概述為源文檔的多文檔摘要

圖5:來(lái)自Transformer-ED,L = 500的翻譯

在模型輸出的手動(dòng)檢查中,我們注意到一個(gè)意想不到的副作用:模型試著學(xué)習(xí)將英文名稱翻譯成多種語(yǔ)言,例如,將Rohit Viswanath翻譯成印地語(yǔ)(見(jiàn)圖5)。雖然我們沒(méi)有對(duì)翻譯進(jìn)行系統(tǒng)的評(píng)估,但我們發(fā)現(xiàn)它們往往是正確的,而且在維基百科文章本身中并沒(méi)有發(fā)現(xiàn)它們。我們還證實(shí),一般情況下,翻譯不僅僅是從諸如示例樣本這樣的源頭復(fù)制的,其中,目標(biāo)語(yǔ)言是不正確的(例如名稱從英文到烏克蘭語(yǔ)的翻譯)。

我們已經(jīng)證明,維基百科的生成可以看作是一個(gè)多文檔摘要問(wèn)題,它具有一個(gè)大的、并行的數(shù)據(jù)集,并且演示了一個(gè)用以實(shí)現(xiàn)它的兩階段的抽取—抽象框架。第一階段使用的粗提取方法似乎對(duì)最終性能有顯著的影響,這表明進(jìn)一步的研究將會(huì)取得成果。在抽象階段,我們引入了一種全新的、僅具有解碼器序列的轉(zhuǎn)換模型,能夠處理非常長(zhǎng)的輸入—輸出樣本。該模型在長(zhǎng)序列上的性能表現(xiàn)明顯優(yōu)于傳統(tǒng)的編碼器—解碼器架構(gòu),從而使得我們能夠在基于許多參考文獻(xiàn)的條件下,生成連貫且信息豐富的維基百科文章。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 解碼器
    +關(guān)注

    關(guān)注

    9

    文章

    1199

    瀏覽量

    42663
  • 編碼器
    +關(guān)注

    關(guān)注

    45

    文章

    3877

    瀏覽量

    140886
  • 自然語(yǔ)言
    +關(guān)注

    關(guān)注

    1

    文章

    292

    瀏覽量

    13881
  • rnn
    rnn
    +關(guān)注

    關(guān)注

    0

    文章

    90

    瀏覽量

    7255

原文標(biāo)題:「谷歌大腦」提出通過(guò)對(duì)長(zhǎng)序列進(jìn)行摘要提取,AI可自動(dòng)生成「維基百科」

文章出處:【微信號(hào):AItists,微信公眾號(hào):人工智能學(xué)家】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    電子電路百科全書(shū)下載

    模電資料三節(jié)課福利大放送,詳情可添加管理員微信免費(fèi)領(lǐng)?。?**。另有6部模電+2部EMC教程正在眾籌,詳情戳:http://z.elecfans.com/273.html?elecfans_trackid=zx_lt。電子電路百科全書(shū) 電子電路百科全書(shū).rar
    發(fā)表于 09-25 16:11

    維基百科怎么上?Wikipedia打不開(kāi)怎么辦?

    網(wǎng)頁(yè),今天我們就來(lái)說(shuō)說(shuō)在國(guó)內(nèi)怎么打開(kāi)維基百科方法1..需要的網(wǎng)絡(luò)工具有(外游加速器)下載解壓如下圖QQ149762042.解壓完,登上剛注冊(cè)申請(qǐng)的號(hào),登進(jìn)去選國(guó)外的節(jié)點(diǎn)連上3. 連上我們可以查下IP
    發(fā)表于 12-08 17:30

    SPI通信協(xié)議的基礎(chǔ)知識(shí)解析

    水平,強(qiáng)烈建議自行去英文維基百科去閱讀相關(guān)知識(shí)。相關(guān)鏈接:SPI中文維基百科(沒(méi)有翻譯全)SPI 英文維基百科本文
    發(fā)表于 12-13 08:05

    電子電路百科全書(shū)

    電子電路百科全書(shū)電子電路百科全書(shū)下載介紹:電子電路百科全書(shū)
    發(fā)表于 03-14 14:42 ?0次下載

    基于詞頻統(tǒng)計(jì)的文檔自動(dòng)摘要生成方案

    文檔自動(dòng)摘要技術(shù)可以向用戶提供一個(gè)簡(jiǎn)潔、全面的摘要信息,因此研究
    發(fā)表于 12-18 16:58 ?12次下載

    pld基礎(chǔ)入門百科知識(shí)

    pld基礎(chǔ)入門百科知識(shí)  可編程邏輯器件 (programmable logic device)  一、概述  PLD(programmable logic device)-- :PLD是做為一種通用集成電路生產(chǎn)的,他的邏
    發(fā)表于 03-11 14:37 ?27次下載

    石墨的百科知識(shí)大全

    石墨的百科知識(shí)大全   
    發(fā)表于 10-26 17:38 ?5232次閱讀

    數(shù)據(jù)庫(kù)-百科

    數(shù)據(jù)庫(kù)-百科數(shù)據(jù)庫(kù)-百科數(shù)據(jù)庫(kù)-百科
    發(fā)表于 05-04 11:09 ?0次下載

    流量一再降價(jià) 維基百科關(guān)閉“Wikipedia Zero”計(jì)劃

    如今的手機(jī)SIM卡“無(wú)限流量”成為可能,一些依賴流量的互聯(lián)網(wǎng)功能也逐漸消失,維基百科的“Wikipedia Zero”計(jì)劃就是其中之一。
    的頭像 發(fā)表于 08-05 11:32 ?2682次閱讀

    維基百科聯(lián)合創(chuàng)始人,計(jì)劃將區(qū)塊鏈技術(shù)運(yùn)用到網(wǎng)絡(luò)百科全書(shū)中去

    據(jù)Everipedia 報(bào)道,維基百科聯(lián)合創(chuàng)始人 Larry Sanger 博士將加入該公司,準(zhǔn)備將區(qū)塊鏈技術(shù)運(yùn)用到這個(gè)網(wǎng)絡(luò)百科全書(shū)中。在普通人看來(lái),區(qū)塊鏈和比特幣、以太坊等加密貨幣有著密切的關(guān)聯(lián)
    發(fā)表于 10-23 11:32 ?1493次閱讀

    如何用Python編程下載和解析英文維基百科

    從自然語(yǔ)言處理到監(jiān)督式機(jī)器學(xué)習(xí),維基百科助力了無(wú)數(shù)的數(shù)據(jù)科學(xué)項(xiàng)目。 維基百科的規(guī)模之大,可稱為世上最大的百科全書(shū),但也因此稍讓數(shù)據(jù)工程師們感到頭疼。當(dāng)然,有合適的工具的話,數(shù)據(jù)量的規(guī)模就不是那么大的問(wèn)題了。 本文將介紹“如何
    的頭像 發(fā)表于 11-04 10:37 ?2.1w次閱讀

    維基百科聯(lián)合創(chuàng)始人希望借助區(qū)塊鏈技術(shù)打造一個(gè)去中心化的維基百科

    。 Everipedia 聯(lián)合創(chuàng)始人兼 CEO Theodor Forselius 在接受 TNW 采訪時(shí)表示: 我們始終堅(jiān)信可以打造比維基百科更大更好的產(chǎn)品,通過(guò)去中心化
    發(fā)表于 07-16 14:09 ?1501次閱讀

    MIT推出維基百科AI編輯系統(tǒng)

    維基百科作為任何人都可以編輯的在線百科全書(shū),需要大量的志愿者編輯花費(fèi)大量時(shí)間精力來(lái)讓每一個(gè)詞條保持最新。雖然志愿者編輯有很多,但要保障每天成千上萬(wàn)的頁(yè)面及時(shí)更新,仍是一件極具挑戰(zhàn)的任務(wù)。
    發(fā)表于 07-21 09:24 ?898次閱讀

    印度陷入政治兩極化,維基百科內(nèi)容編輯也“亂了”

    國(guó)外科技媒體《連線》日前刊載的文章稱,隨著印度陷入政治兩極化,維基百科上的內(nèi)容編輯之戰(zhàn)愈演愈烈,謊言、陰謀論以及新冠疫情虛假信息等充斥其間。
    的頭像 發(fā)表于 11-15 11:29 ?1421次閱讀

    基于布谷鳥(niǎo)搜索算法與多目標(biāo)函數(shù)的文檔摘要方法

    最大化生成摘要的信息量,提出一種基于布谷鳥(niǎo)搜索(CS)算法與多目標(biāo)函數(shù)的文檔摘要
    發(fā)表于 03-30 11:44 ?11次下載
    基于布谷鳥(niǎo)搜索算法與多目標(biāo)函數(shù)的<b class='flag-5'>多</b><b class='flag-5'>文檔</b><b class='flag-5'>摘要</b><b class='flag-5'>方法</b>