香蕉噜噜噜噜私人影院,噜噜影院,japanese日本护士xxxx10一16

自多模態(tài)大火以來，井噴式地出現(xiàn)了許多工作，通過改造預(yù)訓(xùn)練語言模型，用圖像信息來增強(qiáng)語義信息，但主要集中在幾個(gè) NLU 任務(wù)上，在 NLG 上的研究比較少。

今天要介紹的這篇 paper Multimodal Conditionality for Natural Language Generation 研究的任務(wù)場景則是以多模態(tài)信息作為條件做 conditional 的 NLG任務(wù)。這種任務(wù)設(shè)置有許多實(shí)際的應(yīng)用場景。比如，生成商品介紹文案時(shí)，僅僅基于該商品的文字標(biāo)題是不夠的。如果能結(jié)合商品的圖片，必然能夠得到更貼切的文案。

這篇工作的模型基于 GPT2，而多模態(tài)信息則是以一種類似 prompt 的方式來使用。雖然方法比較簡單直觀，但具備一定通用性，未來或許有進(jìn)一步挖掘的可能。

論文題目：

Multimodal Conditionality for Natural Language Generation

論文鏈接：

https://arxiv.org/pdf/2109.01229.pdf

原理作者的想法其實(shí)十分簡單，一切語言模型都是為了衡量一段文字序列的概率，即：

而如果引入了多模態(tài)的輸入，就相當(dāng)于在生成時(shí)多了一個(gè)條件，即條件概率為：

其中為多模態(tài)輸入序列。

以文中生成商品文案的運(yùn)用場景為例。

這里的Product Title和Product Images就是作為生成Product Description時(shí)的“條件”。

那么如何將多模態(tài)序列引入到自然語言生成模型呢？

本文使用了一個(gè)十分直觀的方法，稱作MANTIS，將作為條件的多模態(tài)序列作為前綴放置到decoder輸入序列的前面，進(jìn)而中解碼過程中分享多模態(tài)信息。其中圖片輸入借助ResNet-152，將最后一層輸出用線性層映射到語言模型同一個(gè)空間中。而作為條件的文本輸入，即這里的product title，和生成序列一同進(jìn)行編碼。

效果數(shù)據(jù)集采用FACAD，提供了商品的標(biāo)題和圖片，目標(biāo)是生成產(chǎn)品描述，效果如下：

文中提出的模型在所有指標(biāo)中都取得了最優(yōu)結(jié)果，相比于baseline，將BLEU4提升了0.8，CIDEr提升了7.2，METEOR提升了0.8，ROUGE-L提升了1.0。同時(shí)，由于衡量生成文本質(zhì)量具有主觀性，作者也進(jìn)行了人工評分，結(jié)果表明MANTIS依然取得了最優(yōu)結(jié)果。

從生成效果來看，生成的描述成功地結(jié)合了圖片信息，使得描述更加準(zhǔn)確，而非籠統(tǒng)的介紹。

總結(jié)這篇文章方法十分直觀，但是結(jié)合最近火熱的 Prompt，似乎又有了更多的啟發(fā)。同樣是生成，同樣是加前綴，似乎給定條件的生成就是加上編碼好的前綴？那么多模態(tài)未來能不能成為一種新的prompt呢？作者認(rèn)為他們的模型可以借助各種不同的多模態(tài)條件生成，然而不得不說本文的方法對模態(tài)融合的部分做的馬虎了些。本文只是單純借助解碼器進(jìn)行融合，并沒有在編碼階段就分享跨模態(tài)的信息。

責(zé)任編輯：haq

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報(bào)投訴