最近,經(jīng)過(guò)研究證明,生成英文維基百科(English Wikipedia)文章的方法可以概述為源文檔的多文檔摘要。我們使用抽取式文摘(extractive summarization)來(lái)粗略地識(shí)別出顯要的信息,以及一個(gè)神經(jīng)抽象模型以生成文章。對(duì)于抽象模型,我們引入了一個(gè)只能解碼的體系結(jié)構(gòu),它可以擴(kuò)展性地處理非常長(zhǎng)的序列,遠(yuǎn)比用于序列轉(zhuǎn)換中的典型的編碼器——解碼器體系結(jié)構(gòu)長(zhǎng)得多。我們的研究表明,這個(gè)模型可以生成流暢、連貫的多句話段落,甚至整個(gè)維基百科的文章。當(dāng)給出參考文獻(xiàn)時(shí),研究結(jié)果表明,它可以從諸如復(fù)雜度、ROUGE分?jǐn)?shù)和人類評(píng)價(jià)所反映的信息中提取出相關(guān)的事實(shí)信息。
序列—序列框架已被證明在諸如機(jī)器翻譯這樣的自然語(yǔ)言序列轉(zhuǎn)換任務(wù)上取得了成功。最近,神經(jīng)技術(shù)已經(jīng)被應(yīng)用于對(duì)新聞文章進(jìn)行單一文檔、抽象(釋義)文本摘要的處理。在此前的研究中,監(jiān)督模型的輸入范圍包括文章的第一句到整個(gè)文本,并且要對(duì)其進(jìn)行端到端的訓(xùn)練以預(yù)測(cè)參考摘要。由于語(yǔ)言理解是生成流暢摘要的先決條件,因此進(jìn)行這種端到端的操作需要大量的并行的文章—摘要對(duì)。

圖1:T-DMCA模型中使用的自注意力層(self-attention layers)的架構(gòu)。每個(gè)注意力層都將一個(gè)字符序列作為輸入,并產(chǎn)生一個(gè)相似長(zhǎng)度的序列作為輸出。左圖:轉(zhuǎn)換器解碼器中使用的原始自注意。中:內(nèi)存壓縮的注意力(Memory-compressed attentionyers),減少了鍵/值的數(shù)量。右:將序列分割成單個(gè)較小的子序列的局部注意力。然后將這些子序列合并在一起以得到最終的輸出序列。
相反,我們考慮了多文檔摘要的任務(wù),其中,輸入是相關(guān)文檔的集合且其摘要是精煉過(guò)的。以往研究工作的著重點(diǎn)在提取式摘要上,從輸入中選擇句子或短語(yǔ)以形成摘要,而不是生成新的文本。抽象神經(jīng)方法的應(yīng)用存在一定的局限性,一個(gè)可能的原因是缺少大型的已標(biāo)記數(shù)據(jù)集。
在這項(xiàng)研究中,我們將英文維基百科視為一個(gè)多文檔摘要的監(jiān)督式機(jī)器學(xué)習(xí)任務(wù),其中,輸入由維基百科主題(文章標(biāo)題)和非維基百科參考文獻(xiàn)的集合組成,目標(biāo)是維基百科的文章文本。我們對(duì)第一次試圖抽象地生成基于參考文本的維基百科文章的第一部分或引文。除了在任務(wù)上運(yùn)行強(qiáng)大的基線模型之外,我們還將轉(zhuǎn)換器(Transformer)體系結(jié)構(gòu)(Vaswani 等人于2017年提出)修改為只包含一個(gè)解碼器,在較長(zhǎng)的輸入序列情況下,與循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)以及Transformer編碼器—解碼器模型相比,它具有更好的表型性能。最后,研究結(jié)果表明,我們的建模改進(jìn)使得我們能夠生成完整的維基百科文章。

圖2:用于各種提取方法的ROUGE-L F1,抽象模型的貢獻(xiàn)表現(xiàn)為用于最佳組合的d tf-idf-T-DMCA模型
用于神經(jīng)抽象摘要的其他數(shù)據(jù)集
神經(jīng)抽象摘要(Neural abstractive summarization)是Rush等人(于2015年)提出的,其中,他們使用包括來(lái)自多家出版商的新聞報(bào)道在內(nèi)的英文Gigaword語(yǔ)料庫(kù)(Graff和Cieri于2003年提出)對(duì)標(biāo)題生成模型進(jìn)行訓(xùn)練。然而,這個(gè)任務(wù)更像是句子的釋義,而不是摘要,因?yàn)橹挥形恼碌牡谝痪湓挷疟挥靡灶A(yù)測(cè)標(biāo)題和另一句話。而在ROUGE(一種經(jīng)常用于摘要的自動(dòng)度量)和人類評(píng)估((Chopra等人于2016年提出))中,基于RNN具有注意力(attention)的編碼器—解碼器模型(seq2seq),在該任務(wù)上具有良好的性能表現(xiàn)。
2016年,Nallapati等人通過(guò)修改每日郵報(bào)(Daily Mail)和美國(guó)有線電視新聞網(wǎng)(CNN)中配有故事亮點(diǎn)的新聞報(bào)道的提問(wèn)數(shù)據(jù)集,提出了一個(gè)抽象的摘要數(shù)據(jù)集。這個(gè)任務(wù)比標(biāo)題生成更為困難,因?yàn)榱咙c(diǎn)中所使用的信息可能來(lái)自文章的多個(gè)部分,而不僅僅是第一句。數(shù)據(jù)集的一個(gè)缺點(diǎn)是,它有一個(gè)較少數(shù)量級(jí)的并行樣本(310k VS 3.8M)以供學(xué)習(xí)。標(biāo)準(zhǔn)具有注意力的 seq2seq模型性能表現(xiàn)并不太好,并且還使用了大量的技術(shù)以提高性能。另一個(gè)不利之處是,目前還不清楚制定故事亮點(diǎn)的準(zhǔn)則是什么,而且很顯然的是,兩家新聞出版商在文體上存在者顯著的差異。

圖3:在用于不同模型體系結(jié)構(gòu)的組合語(yǔ)料庫(kù)上,比較了復(fù)雜度和用于tf-idf提取問(wèn)題中L之間的關(guān)系。對(duì)于T-DMCA來(lái)說(shuō),E表示專家級(jí)混合層(mixture-of-experts)的大小。
在我們的研究中,我們也對(duì)神經(jīng)抽象模型進(jìn)行了訓(xùn)練,但是是在維基百科的多文檔機(jī)制中。從表1可以看出,輸入和輸出文本通常要大得多,并且根據(jù)文章的不同而有著明顯的差異。一般來(lái)說(shuō),摘要(維基百科的主要內(nèi)容)往往是多個(gè)句子,有時(shí)是多個(gè)段落,且就像維基百科風(fēng)格手冊(cè)中所提倡的那樣,是以一種相當(dāng)統(tǒng)一的風(fēng)格編寫(xiě)的。但是,輸入文檔可能包含任意來(lái)源的任意風(fēng)格的文檔。

表1:摘要數(shù)據(jù)集的數(shù)量級(jí)輸入/輸出大小和一元(unigrams)回調(diào)
我們還在表1中給出了ROUGE-1給定輸入的輸出回調(diào)(recall)得分,即同時(shí)出現(xiàn)在輸入輸出中的一元(unigrams)/單詞的比例。更高的分?jǐn)?shù)對(duì)應(yīng)于一個(gè)更易于進(jìn)行抽取式摘要處理的數(shù)據(jù)集。特別是,如果輸出完全嵌入到輸入的某個(gè)地方(例如wiki復(fù)制),則得分將為100。相對(duì)于對(duì)于其他摘要數(shù)據(jù)集分?jǐn)?shù)為76.1和78.7,而我們的分?jǐn)?shù)為59.2的情況下,表明我們的方法是最不適合進(jìn)行純抽取方法的。
涉及維基百科的任務(wù)
其實(shí),有許多研究工作都將維基百科用于機(jī)器學(xué)習(xí)任務(wù)中,包括問(wèn)題回答(questionanswering)、信息提?。╥nformation extraction)以及結(jié)構(gòu)化數(shù)據(jù)中的文本生成等。
與我們最為接近的涉及維基百科生成的研究工作是Sauper和Barzilay(于2009年)所進(jìn)行的,其中文章是使用學(xué)習(xí)模板從參考文檔中抽取式(而不是像我們案例中的抽象式)生成的。維基百科文章限于兩類,而我們使用的是所有文章類型。參考文檔是從搜索引擎獲的,其中,用作查詢的維基百科主題與我們的搜索引擎參考頗為相似。不過(guò),我們也會(huì)在維基百科文章的“參考文獻(xiàn)”部分中顯示文檔的結(jié)果。

圖4:同一樣本在不同模型中的預(yù)測(cè)結(jié)果顯示。
在圖4中,我們展示了來(lái)自三個(gè)不同模型(使用tf-idf提取和組合語(yǔ)料庫(kù))的預(yù)測(cè)結(jié)果,以及維基百科的基本事實(shí)。隨著復(fù)雜度的降低,我們看到模型的輸出在流暢性、事實(shí)準(zhǔn)確性和敘述復(fù)雜性方面都有所改善。特別是,T-DMCA模型提供了維基百科版本的一個(gè)可替代性選擇,并且更為簡(jiǎn)潔,同時(shí)提到了關(guān)鍵事實(shí),例如律師事務(wù)所所在位置,什么時(shí)間、如何形成的,以及該事務(wù)所的崛起和衰落。

圖5:來(lái)自Transformer-ED,L = 500的翻譯
在模型輸出的手動(dòng)檢查中,我們注意到一個(gè)意想不到的副作用:模型試著學(xué)習(xí)將英文名稱翻譯成多種語(yǔ)言,例如,將Rohit Viswanath翻譯成印地語(yǔ)(見(jiàn)圖5)。雖然我們沒(méi)有對(duì)翻譯進(jìn)行系統(tǒng)的評(píng)估,但我們發(fā)現(xiàn)它們往往是正確的,而且在維基百科文章本身中并沒(méi)有發(fā)現(xiàn)它們。我們還證實(shí),一般情況下,翻譯不僅僅是從諸如示例樣本這樣的源頭復(fù)制的,其中,目標(biāo)語(yǔ)言是不正確的(例如名稱從英文到烏克蘭語(yǔ)的翻譯)。
我們已經(jīng)證明,維基百科的生成可以看作是一個(gè)多文檔摘要問(wèn)題,它具有一個(gè)大的、并行的數(shù)據(jù)集,并且演示了一個(gè)用以實(shí)現(xiàn)它的兩階段的抽取—抽象框架。第一階段使用的粗提取方法似乎對(duì)最終性能有顯著的影響,這表明進(jìn)一步的研究將會(huì)取得成果。在抽象階段,我們引入了一種全新的、僅具有解碼器序列的轉(zhuǎn)換模型,能夠處理非常長(zhǎng)的輸入—輸出樣本。該模型在長(zhǎng)序列上的性能表現(xiàn)明顯優(yōu)于傳統(tǒng)的編碼器—解碼器架構(gòu),從而使得我們能夠在基于許多參考文獻(xiàn)的條件下,生成連貫且信息豐富的維基百科文章。
-
解碼器
+關(guān)注
關(guān)注
9文章
1199瀏覽量
42663 -
編碼器
+關(guān)注
關(guān)注
45文章
3877瀏覽量
140886 -
自然語(yǔ)言
+關(guān)注
關(guān)注
1文章
292瀏覽量
13881 -
rnn
+關(guān)注
關(guān)注
0文章
90瀏覽量
7255
原文標(biāo)題:「谷歌大腦」提出通過(guò)對(duì)長(zhǎng)序列進(jìn)行摘要提取,AI可自動(dòng)生成「維基百科」
文章出處:【微信號(hào):AItists,微信公眾號(hào):人工智能學(xué)家】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
電子電路百科全書(shū)下載
維基百科怎么上?Wikipedia打不開(kāi)怎么辦?
SPI通信協(xié)議的基礎(chǔ)知識(shí)解析
基于詞頻統(tǒng)計(jì)的多文檔自動(dòng)摘要生成方案
pld基礎(chǔ)入門百科知識(shí)
數(shù)據(jù)庫(kù)-百度百科
流量一再降價(jià) 維基百科關(guān)閉“Wikipedia Zero”計(jì)劃
維基百科聯(lián)合創(chuàng)始人,計(jì)劃將區(qū)塊鏈技術(shù)運(yùn)用到網(wǎng)絡(luò)百科全書(shū)中去
如何用Python編程下載和解析英文版維基百科
維基百科聯(lián)合創(chuàng)始人希望借助區(qū)塊鏈技術(shù)打造一個(gè)去中心化的維基百科
MIT推出維基百科AI編輯系統(tǒng)
印度陷入政治兩極化,維基百科內(nèi)容編輯也“亂了”
基于布谷鳥(niǎo)搜索算法與多目標(biāo)函數(shù)的多文檔摘要方法

生成英文維基百科文章的方法可以概述為源文檔的多文檔摘要
評(píng)論