18video性欧美19sex,欧美高清videosddfsexhd,性少妇videosexfreexxx片中国,激情五月激情综合五月看花,亚洲人成网77777色在线播放

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

如何去解決文本到圖像生成的跨模態(tài)對比損失問題?

LiveVideoStack ? 來源:LiveVideoStack ? 作者:Google AI Blog ? 2021-06-15 10:07 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

Google提出了一個跨模態(tài)對比學(xué)習(xí)框架來訓(xùn)練用于文本到圖像合成的 GAN 模型,用于研究解決生成的跨模態(tài)對比損失問題。

從文本到圖像的自動生成,如何訓(xùn)練模型僅通過一段文本描述輸入就能生成具體的圖像,是一項非常具有挑戰(zhàn)性的任務(wù)。

與其它指導(dǎo)圖像創(chuàng)建的輸入類型相比,描述性句子是一種更直觀、更靈活的視覺概念表達(dá)方式。強大的自動文本到圖像的生成系統(tǒng)可以成為快速、有效的內(nèi)容生產(chǎn)、制作工具,用于更多具有創(chuàng)造性的應(yīng)用當(dāng)中。

在CVPR 2021中,Google提出了一個跨模態(tài)對比生成對抗網(wǎng)絡(luò)(XMC-GAN),訓(xùn)練用于文本到圖像合成的 GAN 模型,通過模態(tài)間與模態(tài)內(nèi)的對比學(xué)習(xí)使圖像和文本之間的互信息最大化,解決文本到圖像生成的跨模態(tài)對比損失問題。

poYBAGDIDJ-AfrniAADMgxcEq1k626.jpg

XMC-GAN 文本到圖像合成模型中的模態(tài)間和模態(tài)內(nèi)對比學(xué)習(xí)

XMC-GAN 被成功應(yīng)用于三個具有挑戰(zhàn)性的數(shù)據(jù)集:一個是MS-COCO 圖像描述集合,另外兩個是用Localized Narratives注釋的數(shù)據(jù)集,一個是包括MS-COCO 圖像(稱為LN-COCO) ,另一個描述開放圖像數(shù)據(jù) (LN-OpenImages)。結(jié)果顯示 XMC-GAN生成圖像所描繪的場景相比于使用其它技術(shù)生成的圖像質(zhì)量更高,在每個方面都達(dá)到了最先進(jìn)的水平。

pYYBAGDIDI-AdQkNAAB3Ifj0XNA593.jpg

MS-COCO對圖像質(zhì)量和文本對齊的人工評估

此外,XMC-GAN還在 LN-OpenImages 上進(jìn)行了一系列訓(xùn)練和評估,這相比于 MS-COCO 更具有挑戰(zhàn)性,由于數(shù)據(jù)集更大,圖像涵蓋主題范圍更加廣泛且復(fù)雜。

對于人類評估和定量指標(biāo),XMC-GAN 在多個數(shù)據(jù)集模型中相較之前有顯著的改進(jìn)。可以生成與輸入描述非常匹配的高質(zhì)量圖像,包括更長,更詳細(xì)的敘述,同時端到端模型的復(fù)雜度也相對較為簡單,這代表了從自然語言描述生成圖像的創(chuàng)造性應(yīng)用的重大進(jìn)步。

責(zé)任編輯:lq6

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 圖像
    +關(guān)注

    關(guān)注

    2

    文章

    1094

    瀏覽量

    42083
  • GaN
    GaN
    +關(guān)注

    關(guān)注

    19

    文章

    2284

    瀏覽量

    78891

原文標(biāo)題:XMC-GAN:從文本到圖像的跨模態(tài)對比學(xué)習(xí)

文章出處:【微信號:livevideostack,微信公眾號:LiveVideoStack】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    米爾RK3576部署端側(cè)多模態(tài)多輪對話,6TOPS算力驅(qū)動30億參數(shù)LLM

    細(xì)化需求,系統(tǒng)需實時調(diào)整響應(yīng)策略 1.2 多輪對話系統(tǒng)鳥瞰:三顆“核心”協(xié)同驅(qū)動RK3576 多模態(tài)交互對話方案基于 RKLLM 的核心運作,依賴于圖像視覺編碼器、大語言模型與對話管家這三大模塊的協(xié)同
    發(fā)表于 09-05 17:25

    淺析多模態(tài)標(biāo)注對大模型應(yīng)用落地的重要性與標(biāo)注實例

    ”的關(guān)鍵工序——多模態(tài)標(biāo)注重要性日益凸顯。 一、什么是多模態(tài)標(biāo)注? 多模態(tài)標(biāo)注是指對文本、圖像、語音、視頻、點云等異構(gòu)數(shù)據(jù)進(jìn)行
    的頭像 發(fā)表于 09-05 13:49 ?398次閱讀

    基于米爾瑞芯微RK3576開發(fā)板的Qwen2-VL-3B模型NPU多模態(tài)部署評測

    案例:支持圖像文本交互 步驟 1:環(huán)境準(zhǔn)備 步驟 2:模型的獲取、驗證與格式轉(zhuǎn)換 步驟 3:修改代碼并交叉編譯可執(zhí)行文件并上傳到板子上 步驟 4:上傳文件開發(fā)板 性能測試 Tips 多
    發(fā)表于 08-29 18:08

    中國科學(xué)院自動化研究所攜手中科曙光打造高性能工具鏈解決方案

    2019年起,中國科學(xué)院自動化研究所以語音、文本、圖像等單模態(tài)大模型的研究與應(yīng)用為基石,全力攻關(guān)全球首個千億參數(shù)多模態(tài)大模型。如今,相關(guān)產(chǎn)品已突破
    的頭像 發(fā)表于 08-11 11:08 ?769次閱讀

    無法使用OpenVINO?在 GPU 設(shè)備上運行穩(wěn)定擴散文本圖像的原因?

    在OpenVINO? GPU 設(shè)備上使用圖像大小 (1024X576) 運行穩(wěn)定擴散文本圖像,并收到錯誤消息: RuntimeError: Exception from
    發(fā)表于 06-25 06:36

    如何使用離線工具od SPSDK生成完整圖像?

    對我來說,完整圖像是指包含 keyblob、FCB 等的圖像。換句話說,圖像包含 0x30000000 0x30000FFF 之間的大約 4KB。 如果我理解正確,使用 SPT(以
    發(fā)表于 03-28 06:51

    一種多模態(tài)駕駛場景生成框架UMGen介紹

    端自動駕駛技術(shù)的快速發(fā)展對閉環(huán)仿真器提出了迫切需求,而生成式模型為其提供了一種有效的技術(shù)架構(gòu)。然而,現(xiàn)有的駕駛場景生成方法大多側(cè)重于圖像模態(tài)
    的頭像 發(fā)表于 03-24 15:57 ?1438次閱讀
    一種多<b class='flag-5'>模態(tài)</b>駕駛場景<b class='flag-5'>生成</b>框架UMGen介紹

    ?VLM(視覺語言模型)?詳細(xì)解析

    支持生成式任務(wù)。 多模態(tài)融合 :通過模態(tài)注意力機制、投影層(如CLIP將圖像文本映射到同一空間
    的頭像 發(fā)表于 03-17 15:32 ?6920次閱讀
    ?VLM(視覺語言模型)?詳細(xì)解析

    海康威視文搜存儲系列:模態(tài)檢索,安防新境界

    ??低曂瞥龅奈乃汛鎯ο盗挟a(chǎn)品,引領(lǐng)了安防領(lǐng)域的信息檢索新革命。該產(chǎn)品憑借多模態(tài)大模型技術(shù),實現(xiàn)了自然語言與視頻圖像模態(tài)信息檢索,將安防錄像回溯帶入了全新的智能時代。 用戶只需輸入
    的頭像 發(fā)表于 02-18 14:08 ?941次閱讀

    一文詳解視覺語言模型

    視覺語言模型(VLM)是一種多模態(tài)、生成式 AI 模型,能夠理解和處理視頻、圖像文本。
    的頭像 發(fā)表于 02-12 11:13 ?2811次閱讀
    一文詳解視覺語言模型

    #新年新氣象,大家新年快樂!#AIGC入門及鴻蒙入門

    ,基于擴散模型,能夠生成與給定文本描述相符的圖像。 鴻蒙系統(tǒng)入門 1.基礎(chǔ)知識:鴻蒙系統(tǒng)(HarmonyOS)是華為推出的一款分布式操作系統(tǒng),旨在實現(xiàn)設(shè)備、
    發(fā)表于 01-13 10:46

    AIGC入門及鴻蒙入門

    模型,能夠生成與給定文本描述相符的圖像。 鴻蒙系統(tǒng)入門 1. 基礎(chǔ)知識: 鴻蒙系統(tǒng)(HarmonyOS)是華為推出的一款分布式操作系統(tǒng),旨在實現(xiàn)設(shè)備、
    發(fā)表于 01-13 10:32

    淺析OpenVINO 2024.5的新功能

    ,事實上在安全、監(jiān)控或醫(yī)療保健等某些領(lǐng)域至關(guān)重要。它代表了從處理文本到處理不同輸入和生成不同形式輸出的重大演變。例如,多模態(tài)模型可以接收長視頻,并以圖像或音頻片段的形式輸出關(guān)鍵信息。
    的頭像 發(fā)表于 11-25 17:12 ?856次閱讀

    生成式AI工具作用

    生成式AI工具是指那些能夠自動生成文本、圖像、音頻、視頻等多種類型數(shù)據(jù)的人工智能技術(shù)。在此,petacloud.ai小編為您整理生成式AI工具作用。
    的頭像 發(fā)表于 10-28 11:19 ?1076次閱讀

    如何使用 Llama 3 進(jìn)行文本生成

    使用LLaMA 3(Large Language Model Family of AI Alignment)進(jìn)行文本生成,可以通過以下幾種方式實現(xiàn),取決于你是否愿意在本地運行模型或者使用現(xiàn)成的API
    的頭像 發(fā)表于 10-27 14:21 ?1465次閱讀