18video性欧美19sex,欧美高清videosddfsexhd,性少妇videosexfreexxx片中国,激情五月激情综合五月看花,亚洲人成网77777色在线播放

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

如何使用多模態(tài)信息做prompt

深度學(xué)習(xí)自然語言處理 ? 來源:夕小瑤的賣萌屋 ? 作者:子龍 ? 2021-11-03 09:39 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

自多模態(tài)大火以來,井噴式地出現(xiàn)了許多工作,通過改造預(yù)訓(xùn)練語言模型,用圖像信息來增強(qiáng)語義信息,但主要集中在幾個(gè) NLU 任務(wù)上,在 NLG 上的研究比較少。

今天要介紹的這篇 paper Multimodal Conditionality for Natural Language Generation 研究的任務(wù)場景則是以多模態(tài)信息作為條件做 conditional 的 NLG任務(wù)。這種任務(wù)設(shè)置有許多實(shí)際的應(yīng)用場景。比如,生成商品介紹文案時(shí),僅僅基于該商品的文字標(biāo)題是不夠的。如果能結(jié)合商品的圖片,必然能夠得到更貼切的文案。

這篇工作的模型基于 GPT2,而多模態(tài)信息則是以一種類似 prompt 的方式來使用。雖然方法比較簡單直觀,但具備一定通用性,未來或許有進(jìn)一步挖掘的可能。

論文題目:

Multimodal Conditionality for Natural Language Generation

論文鏈接:

https://arxiv.org/pdf/2109.01229.pdf

原理作者的想法其實(shí)十分簡單,一切語言模型都是為了衡量一段文字序列的概率,即:

而如果引入了多模態(tài)的輸入,就相當(dāng)于在生成時(shí)多了一個(gè)條件,即條件概率為:

其中為多模態(tài)輸入序列。

以文中生成商品文案的運(yùn)用場景為例。

這里的Product Title和Product Images就是作為生成Product Description時(shí)的“條件”。

那么如何將多模態(tài)序列引入到自然語言生成模型呢?

本文使用了一個(gè)十分直觀的方法,稱作MANTIS,將作為條件的多模態(tài)序列作為前綴放置到decoder輸入序列的前面,進(jìn)而中解碼過程中分享多模態(tài)信息。其中圖片輸入借助ResNet-152,將最后一層輸出用線性層映射到語言模型同一個(gè)空間中。而作為條件的文本輸入,即這里的product title,和生成序列一同進(jìn)行編碼。

效果數(shù)據(jù)集采用FACAD,提供了商品的標(biāo)題和圖片,目標(biāo)是生成產(chǎn)品描述,效果如下:

dd0036ac-3837-11ec-82a8-dac502259ad0.png

dd22ef4e-3837-11ec-82a8-dac502259ad0.png

文中提出的模型在所有指標(biāo)中都取得了最優(yōu)結(jié)果,相比于baseline,將BLEU4提升了0.8,CIDEr提升了7.2,METEOR提升了0.8,ROUGE-L提升了1.0。同時(shí),由于衡量生成文本質(zhì)量具有主觀性,作者也進(jìn)行了人工評分,結(jié)果表明MANTIS依然取得了最優(yōu)結(jié)果。

從生成效果來看,生成的描述成功地結(jié)合了圖片信息,使得描述更加準(zhǔn)確,而非籠統(tǒng)的介紹。

總結(jié)這篇文章方法十分直觀,但是結(jié)合最近火熱的 Prompt,似乎又有了更多的啟發(fā)。同樣是生成,同樣是加前綴,似乎給定條件的生成就是加上編碼好的前綴?那么多模態(tài)未來能不能成為一種新的prompt呢?作者認(rèn)為他們的模型可以借助各種不同的多模態(tài)條件生成,然而不得不說本文的方法對模態(tài)融合的部分做的馬虎了些。本文只是單純借助解碼器進(jìn)行融合,并沒有在編碼階段就分享跨模態(tài)的信息。

責(zé)任編輯:haq

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 信息
    +關(guān)注

    關(guān)注

    0

    文章

    407

    瀏覽量

    36277
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3618

    瀏覽量

    51547

原文標(biāo)題:用多模態(tài)信息做 prompt,解鎖 GPT 新玩法

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    米爾RK3576部署端側(cè)模態(tài)輪對話,6TOPS算力驅(qū)動(dòng)30億參數(shù)LLM

    話的 KV-Cache 維護(hù)與手動(dòng)清除; Prompt 模板的動(dòng)態(tài)渲染; 用戶輸入的解析處理與推理結(jié)果的回顯展示。 1.3 核心邏輯:輪對話的處理流程該方案的模態(tài)
    發(fā)表于 09-05 17:25

    淺析模態(tài)標(biāo)注對大模型應(yīng)用落地的重要性與標(biāo)注實(shí)例

    ?在人工智能邁向AGI通用智能的關(guān)鍵道路上,大模型正從單一的文本理解者,演進(jìn)為能同時(shí)看、聽、讀、想的“多面手”。驅(qū)動(dòng)這一進(jìn)化的核心燃料,正是高質(zhì)量的模態(tài)數(shù)據(jù),而將原始數(shù)據(jù)轉(zhuǎn)化為“機(jī)器可讀教材
    的頭像 發(fā)表于 09-05 13:49 ?398次閱讀

    商湯科技模態(tài)通用智能戰(zhàn)略思考

    時(shí)間是最好的試金石,AI領(lǐng)域尤其如此。當(dāng)行業(yè)熱議大模型走向時(shí),商湯早已錨定“模態(tài)通用智能”——這是我們以深厚研究積累和實(shí)踐反復(fù)驗(yàn)證的可行路徑。
    的頭像 發(fā)表于 08-14 09:33 ?901次閱讀

    模態(tài)+空間智能:盾華以AI+智慧路燈桿,點(diǎn)亮城市治理新方式

    模態(tài)+空間智能:盾華以AI+智慧路燈桿,點(diǎn)亮城市治理新方式
    的頭像 發(fā)表于 06-12 10:17 ?352次閱讀
    <b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>+空間智能:盾華以AI+智慧路燈桿,點(diǎn)亮城市治理新方式

    愛芯通元NPU適配Qwen2.5-VL-3B視覺模態(tài)大模型

    熟悉愛芯通元NPU的網(wǎng)友很清楚,從去年開始我們在端側(cè)模態(tài)大模型適配上一直處于主動(dòng)緊跟的節(jié)奏。先后適配了國內(nèi)最早開源的模態(tài)大模MiniCPM V 2.0,上海人工智能實(shí)驗(yàn)室的書生
    的頭像 發(fā)表于 04-21 10:56 ?2423次閱讀
    愛芯通元NPU適配Qwen2.5-VL-3B視覺<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>大模型

    基于MindSpeed MM玩轉(zhuǎn)Qwen2.5VL模態(tài)理解模型

    模態(tài)理解模型是讓AI像人類一樣,通過整合多維度信息(如視覺、語言、聽覺等),理解數(shù)據(jù)背后的語義、情感、邏輯或場景,從而完成推理、決策等任務(wù)。
    的頭像 發(fā)表于 04-18 09:30 ?2427次閱讀
    基于MindSpeed MM玩轉(zhuǎn)Qwen2.5VL<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>理解模型

    ??低暟l(fā)布模態(tài)大模型AI融合巡檢超腦

    基于??涤^瀾大模型技術(shù)體系,??低曂瞥鲂乱淮?b class='flag-5'>多模態(tài)大模型AI融合巡檢超腦,全面升級(jí)人、車、行為、事件等算法,為行業(yè)帶來全新的模態(tài)大模型巡檢體驗(yàn),以更準(zhǔn)確、更高效的智慧巡檢,為各行各
    的頭像 發(fā)表于 04-17 17:12 ?1182次閱讀

    ?模態(tài)交互技術(shù)解析

    模態(tài)交互 模態(tài)交互( Multimodal Interaction )是指通過多種感官通道(如視覺、聽覺、觸覺等)或多種交互方式(如語音、手勢、觸控、眼動(dòng)等)與計(jì)算機(jī)系統(tǒng)進(jìn)行自然、
    的頭像 發(fā)表于 03-17 15:12 ?3155次閱讀

    ??低暟l(fā)布模態(tài)大模型文搜存儲(chǔ)系列產(chǎn)品

    模態(tài)大模型為安防行業(yè)帶來重大技術(shù)革新,基于觀瀾大模型技術(shù)體系,??低晫⒋髤?shù)量、大樣本量的圖文模態(tài)大模型與嵌入式智能硬件深度融合,發(fā)布
    的頭像 發(fā)表于 02-18 10:33 ?911次閱讀

    2025年Next Token Prediction范式會(huì)統(tǒng)一模態(tài)

    訓(xùn)練方法與推理策略 性能評測體系 現(xiàn)存挑戰(zhàn)與未來方向 綜述的完整目錄如下: 模態(tài)的 Tokenization 我們認(rèn)為模態(tài)的 Tokenization 是 MMNTP 的基石和最重
    的頭像 發(fā)表于 01-21 10:11 ?854次閱讀
    2025年Next Token Prediction范式會(huì)統(tǒng)一<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>嗎

    體驗(yàn)MiniCPM-V 2.6 模態(tài)能力

    模態(tài)組網(wǎng)
    jf_23871869
    發(fā)布于 :2025年01月20日 13:40:48

    商湯日日新模態(tài)大模型權(quán)威評測第一

    剛剛,商湯科技日日新SenseNova模態(tài)大模型,在權(quán)威綜合評測權(quán)威平臺(tái)OpenCompass的模態(tài)評測中取得榜單第一。
    的頭像 發(fā)表于 12-20 10:39 ?1390次閱讀

    一文理解模態(tài)大語言模型——下

    /understanding-multimodal-llms ? 《一文理解模態(tài)大語言模型 - 上》介紹了什么是模態(tài)大語言模型,以及構(gòu)建
    的頭像 發(fā)表于 12-03 15:18 ?899次閱讀
    一文理解<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>大語言模型——下

    超聲界“內(nèi)卷終結(jié)者”!ZRT智銳通提供全新引擎打造模態(tài)影像融合系統(tǒng)

    模態(tài)影像融合超聲系統(tǒng)的市場規(guī)模也在不斷擴(kuò)大,國內(nèi)眾多超聲系統(tǒng)廠家也在不斷尋找合適的硬件平臺(tái),用以承載旗下的模態(tài)影像融合超聲系統(tǒng)。
    的頭像 發(fā)表于 11-11 10:52 ?1446次閱讀
    超聲界“內(nèi)卷終結(jié)者”!ZRT智銳通提供全新引擎打造<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>影像融合系統(tǒng)

    AI對話魔法 Prompt Engineering 探索指南

    作者:京東物流 李雪婷 一、什么是 Prompt Engineering? 想象一下,你在和一個(gè)智能助手聊天,你需要說出非常清晰和具體的要求,才能得到你想要的答案。Prompt
    的頭像 發(fā)表于 11-07 10:11 ?1689次閱讀
    AI對話魔法 <b class='flag-5'>Prompt</b> Engineering 探索指南