“Generative AI(生成式AI)有什么社會價值?”
當騰訊研究院的研究員將上面這個問題輸入到ChatGPT中,得到如下回復:
“生成式AI是一種人工智能技術,它可以使用訓練數(shù)據來生成新的內容。這種技術可以用來解決各種問題,具有很高的社會價值。
例如,它可以用來生成文本、圖像、音頻和視頻,這些內容可以用來幫助人們了解世界,也可以用來提高工作效率。
此外,生成式AI還可以用來解決一些非常復雜的問題,比如提供新的醫(yī)療方案、幫助制定更有效的政策、或者甚至幫助人類更好地了解自己。
總的來說,生成式AI為人類提供了很多有價值的機會,有助于人類更好地理解世界,并創(chuàng)造出更多的價值?!?/p>
在以上ChatGPT的四段回答中,首先給出了定義(是什么和做什么),然后說明為什么要使用它,包括舉例和和強調重要性。最后,還進行了價值理念的歸納和升華。實話說,如果我們問一個對AI有所了解的人類,很大可能也回答不出這樣內容完備和邏輯條理的答案,或許這就是以ChatGPT等為代表的生成式AI之所以震撼業(yè)界的原因。
這一次,AIGC能掀起人工智能的產業(yè)革命嗎?
不過,人工智能自誕生的七八十年來,帶給人們的驚嘆多了去了。從早期研究積木世界到最早的智能機器人Shakey,再到上世紀八十年代深藍戰(zhàn)勝國際象棋冠軍卡斯帕羅夫,直至最近幾年的AlphaGo戰(zhàn)勝世界圍棋冠軍,人形機器人Atlas的后空翻和機器狗Spot的連滾翻……AI技術從來不缺讓人震撼的元素,但真正能夠產業(yè)化落地的卻少之又少。正因如此,谷歌這些年也收斂了敗家燒模式,開始講起Responsible AI的故事。
相較谷歌,OpenAI是一家小公司,不過背后卻有世界首富馬斯克和巨頭微軟的背書。從2016年6月宣布以制造通用機器人和使用自然語言的聊天機器人作為公司發(fā)展目標后,便開始了GPT語言模型的研究。
不過,真正讓OpenAI火出圈的是在2021年推出的DALL-E,加上后來Stable Diffusion的開源,文生圖率先掀起了AIGC的熱浪,伴隨而來的是大語言模型ChatGPT火爆全網。盡管業(yè)界原本的期待是進化版模型GPT-4,但GPT-3衍生而來的ChatGPT還是給到人們不少意外之喜。除了如前文所示的對答如流,在檢查程序代碼上也絲毫不含糊。
那么,以DALL-E、ChatGPT等為代表的生成式大模型真能掀起人工智能的產業(yè)革命嗎?如果是歷經了人工智能各流派興衰的產業(yè)界老人,可能多少會持有懷疑的態(tài)度。但對于后生代的巨頭科技企業(yè)和新時代的AI開發(fā)者來說,將會抱持更大的期待。

游戲設計師杰森?艾倫使用Midjourney模型 生成的《太空歌劇院》是首個獲獎的AI生成藝術
當然,愿望雖好,AIGC能否真正完成變革,還需要從技術工程化、產業(yè)生態(tài)化,以及機遇和挑戰(zhàn)等方面來進行多維度分析。騰訊研究院在近日發(fā)布了《AIGC 發(fā)展趨勢報告 2023》(以下簡稱《報告》),對AIGC的發(fā)展趨勢進行了深度解讀。
技術工程化:哪些Buff讓AIGC走向巔峰?
ChatGPT、DALL-E、Stable Diffusion們如此牛X,它們的背后有哪些技術?
《報告》中將其歸納為三點:
生成算法
預訓練模型
多模態(tài)
生成算法
生成算法并非新技術,2014年由伊恩?古德費洛最早提出生成對抗網絡(Generative Adversarial Network,GAN )是最早的生成式模型。之后,進一步出現(xiàn)了Transformer、Diffusion等深度學習生成算法,下表為生成式算法的演進時間軸。


圖片來源:《AIGC 發(fā)展趨勢報告 2023》
可以說,AIGC背后的三個最重要的算法模型就是GAN、Transformer和Diffusion。GAN的重要性體現(xiàn)在最早推出,衍生了許多流行架構和變種,還有大量科學家和研究人員在使用這一模型。Transformer則是因為應用領域的廣闊,包括NLP、CV 等領域的應用。后來出現(xiàn)的BERT、GPT-3、LaMDA等預訓練模型都是基于Transformer模型建立的。Diffusion則因為最優(yōu)化模型性能的表現(xiàn),包括靈活的模型架構和精確的對數(shù)似然計算,讓其成為最先進的圖像生成模型。
預訓練模型
在《報告》中,是這樣形容預訓練的重要性的:預訓練模型引發(fā)了 AIGC技術能力的質變。之所以稱為“質變”,正因此后基于大量數(shù)據訓練、擁有巨量參數(shù)成為AIGC實現(xiàn)多任務、多語言、多方式的核心驅動力。
預訓練開始的標志性事件是谷歌在2018年發(fā)布基于Transformer的機器學習方法BERT,自此AI進入大煉模型參數(shù)的預訓練時代。由谷歌掀起的這場預訓練旋風也拉起了一幫AI巨頭和獨角獸們的熱情參與,下表是主要的AIGC預訓練模型。

圖片來源:《AIGC 發(fā)展趨勢報告 2023》
多模態(tài)
除了生成算法和預訓練,AIGC 要達成工程化也少不了多模態(tài)。在這點上,CLIP的重要性就體現(xiàn)出來了。2021年,OpenAI團隊將跨模態(tài)深度學習模型 CLIP進行了開源,能夠將文字和圖像進行關聯(lián)。這樣一來,就從早期的單NLP、CV模型,擴展到語言文字、圖形圖像、音視頻等多模態(tài)、跨模態(tài)模型。
產業(yè)生態(tài)化:上、中、下游,看MaaS如何加持
生成算法、預訓練模型、多模態(tài)讓AIGC實現(xiàn)工程化,但一項技術能否真正撬動市場,還需要看它能否產業(yè)化。
在如何構建產業(yè)化上,《報告》給出的結論是:AIGC產業(yè)生態(tài)加速形成和發(fā)展,走向模型即服務(MaaS)的未來。
這些年來,SaaS(軟件即服務)、PaaS(平臺即服務)和IaaS(基礎設施即服務)我們聽了很多,當模型也變成一種服務之后,AIGC的產業(yè)未來會呈現(xiàn)出怎樣的形態(tài)?

圖片來源:《AIGC 發(fā)展趨勢報告 2023》
如上圖所示,從左到右依次是基礎層、中間層和應用層。
基礎層
首先,在產業(yè)的底層架構上,需要有以預訓練模型為基礎搭建的AIGC技術基礎設施。和其他所有技術一樣,基礎層是最考驗技術發(fā)展程度和可投入成本的地方,具有較高的進入門檻。據Alchemy API創(chuàng)始人Elliot Turner推測,訓練GPT-3的成本可能接近1200萬美元。所以,能夠進入到這一層的企業(yè)主要是頭部科技企業(yè)和科研機構。
除了背靠微軟不差錢的OpenAI,Stability.ai能夠成為基礎設施型公司也在于不斷有資金注入,就在三個月之前,這家公司又獲得了1.01億美元的融資。
基礎設施的獲利方式主要是通過受控的api調用進行收費,或者以開源為主,然后通過開發(fā)和銷售專業(yè)版和定制版實現(xiàn)商業(yè)獲利。
中間層
中間層主要是垂直化、場景化、個性化的模型和應用工具。基礎層的作用體現(xiàn)在提供通用模型訓練平臺,中間層的作用則是從通用調試和訓練中快速抽取生成場景化、定制化、個性化的小模型和應用工具,這一層的目的在于實現(xiàn)不同行業(yè)、垂直領域、功能場景的工業(yè)流水線式部署。
事實上,目前已經有不少團隊開始基于AIGC的基礎平臺進行二次開發(fā),比如二次元畫風生成器Novel-AI,以及小冰公司通過AIGC生成動畫短片。相較通用的AIGC生成器,經過中間層的加工之后,產出的內容產品可以直接提供給終端用戶。
應用層
基礎層和中間層的應用主要面向B端,到了應用層就直接面向C端了。在這一層上,可以直接生成文字、圖片和音視頻。不過,相較于B端有更加功能強大的顯卡,C端個人用戶能否生成高質量的內容很考驗消費級顯卡的算力。英偉達、AMD、臺積電等芯片制造廠商對這個領域的蛋糕也都在虎視眈眈。
機遇與挑戰(zhàn):引領AI 2.0變革,仍不能忽視知識產權、倫理等因素
除了技術工程化和產業(yè)生態(tài)化,衡量AIGC未來發(fā)展還需要把控兩大方面:機遇和挑戰(zhàn),即當前和潛在的有利及不利因素。
從機遇來看,可以說是非常得多。在《報告》中,從消費端:AIGC牽引數(shù)字內容領域的全新變革;到產業(yè)端:合成數(shù)據牽引人工智能的未來;再到社會端:合成數(shù)據牽引人工智能的未來??梢哉f從人們的生產生活,到社會組織的方方面面都可以有AIGC的參與。
具體表現(xiàn)在:
消費端
AIGC正越來越多地參與到數(shù)字內容的創(chuàng)意性生成工作,以人機協(xié)同的方式釋放價值,成為未來互聯(lián)網的內容生產基礎設施;
AIGC帶來的內容生產方式變革開始引起內容消費模式的變化,未來應用生態(tài)和消費市場將走向多樣化;
在互聯(lián)網邁向“在場(3D)”的趨勢下,AIGC為3D互聯(lián)網可以帶來包括3D模型、場景、角色制作能效的提升,為創(chuàng)作者激發(fā)新的靈感;

Epic使用虛幻5引擎和程序化生成技術高效制作
《黑客帝國:覺醒》中的龐大城市(圖片來源:知乎用戶@王程)
未來隨著性能的進一步提升,對話式AIGC在搜索、知識傳播等領域有很大的應用空間。聊天機器人和數(shù)字人將成為新的、更具包容性的用戶交互界面,不斷拓展應用領域;
未來元宇宙的大型虛擬空間建設也離不開AIGC的參與,包括核心基礎設施技術、數(shù)字原生內容的開發(fā)等等,通過AIGC可以釋放大量包括開發(fā)者在內的人力和物力。
產業(yè)端
目前人工智能仍然處在發(fā)展的1.0階段(AI 1.0),從AI 1.0走向AI 2.0,數(shù)據是最大的掣肘。從真實數(shù)據向合成數(shù)據的轉化,可以推動人工智能邁向 2.0。而AIGC技術的持續(xù)創(chuàng)新,讓合成數(shù)據迎來新的發(fā)展契機。
社會端
《報告》將AIGC對社會價值的推動概括為:AIGC的社會價值體現(xiàn)為革新數(shù)字內容與藝術創(chuàng)造領域,并將輻射到其他領域和行業(yè),孕育新的技術形態(tài)與價值模式,甚至會成為通往AGI(通用AI)的可能性路徑。
當然,有機遇就會有挑戰(zhàn)。未來,AIGC也將面臨包括知識產權、安全問題、倫理道德、環(huán)境保護等多個方面的挑戰(zhàn)。
文末彩蛋:“即使語言只是人類經驗的一小部分”
在吳恩達給DeeplearningAI的最新來信中,他表示到:
“一個人需要幾十輩子的時間,除了閱讀什么都不做,才能獲得GPT-3在訓練過程中接觸的單詞數(shù)量。但是,網絡聚合了為數(shù)十億人編寫或由數(shù)十億人編寫的文本,計算機可以隨時訪問其中的大部分內容。通過這些數(shù)據,LLMs獲取了關于人類體驗的豐富知識。盡管LLMs從未見過日出,但它已經閱讀了足夠多關于日出的文字,足以令人信服地描述日出的樣子。
因此,即使語言只是人類經驗的一小部分,LLMs也能夠接觸到關于世界的大量信息。這表明,建立智能有多種途徑,遵循生物進化或人類兒童成長的方式可能不是工程系統(tǒng)最有效的途徑?!?/p>
由此,他得出了當下機器學習算法獲得智能的最有效途徑——通過語言進化。而谷歌聯(lián)合創(chuàng)始人,現(xiàn)實版的托尼·史塔克曾說過:“終有一天,世界上所有的知識都可以直接與我們的大腦連接?!?/p>
從AIGC掀起的語言進化,到世界上所有的知識經驗與我們的大腦相連究竟還有多遠?你認為呢?
審核編輯 :李倩
-
算法
+關注
關注
23文章
4743瀏覽量
96907 -
人工智能
+關注
關注
1813文章
49539瀏覽量
259403 -
模型
+關注
關注
1文章
3618瀏覽量
51549 -
AIGC
+關注
關注
1文章
390瀏覽量
3105
原文標題:Stable Diffusion、ChatGPT爆火的背后!
文章出處:【微信號:AI科技大本營,微信公眾號:AI科技大本營】歡迎添加關注!文章轉載請注明出處。
發(fā)布評論請先 登錄
人工智能如何驅動碳化硅革命
挖到寶了!人工智能綜合實驗箱,高校新工科的寶藏神器
挖到寶了!比鄰星人工智能綜合實驗箱,高校新工科的寶藏神器!
CES Asia 2025蓄勢待發(fā),聚焦低空經濟與AI,引領未來產業(yè)新變革
維智科技出席人工智能賦能能源智造升級專題分享會
中軟國際攜手廈門市共建城市人工智能產業(yè)
生成式人工智能認證:解鎖AI時代個人與組織的進化密碼
“人工智能+”賦能檢察院巡檢智慧監(jiān)督

AIGC能掀起人工智能的產業(yè)革命嗎?
評論