2022淳衙,浪潮兇猛的 AIGC 元年 巢寡。
風(fēng)口上的 AIGC
今年的 AI 領(lǐng)域蓬戚,可能沒什么比 AIGC 更熱了夸楣。
AIGC 的全稱是 Artificial Intelligence Generated Content,人工智能生成內(nèi)容子漩。不過豫喧,AIGC 目前還沒有一個(gè)規(guī)范、統(tǒng)一的定義幢泼。
根據(jù)中國信通院與京東探索研究院發(fā)布的《人工智能生成內(nèi)容(AIGC)白皮書》中給出的定義紧显,AIGC 既是從內(nèi)容生產(chǎn)者視角進(jìn)行分類的一類內(nèi)容,又是一種內(nèi)容生產(chǎn)方式缕棵,還是用于內(nèi)容自動(dòng)化生成的一類技術(shù)集合孵班。
有預(yù)測(cè)數(shù)據(jù)顯示,到 2030 年招驴,AIGC 的市場(chǎng)規(guī)母莩蹋或?qū)⒊^萬億人民幣。
2022 年别厘,尤其是下半年虱饿,AIGC 概念突然升溫。有這么幾個(gè)標(biāo)志性的事件把 AIGC 推到了風(fēng)口浪尖之上触趴,其一是文生圖模型 Stable Diffusion 的開源郭厌,其二是 ChatGPT 的爆火出圈。
AI 繪畫神器 Stable Diffusion 橫空出世
有人將 Stable Diffusion 形容為 AI 界的“神筆馬良”雕蔽,這可能并不夸張。
Stable Diffusion 是一個(gè)文本至圖像的模型宾娜,于今年 8 月 22 日公開發(fā)布批狐,它能讓數(shù)十億人在幾秒鐘內(nèi)創(chuàng)建出令人贊嘆的藝術(shù)品。用戶隨意輸入自己想要的文字描述前塔,就能得到相應(yīng)的圖像結(jié)果嚣艇。
兩個(gè)月后,伴隨著 Stable Diffusion 的開源华弓,它所具備的潛力瞬間得到了極大釋放食零。開源讓 Stable Diffusion 將無過濾圖像生成的門檻下放到歷史最低,任何具備一點(diǎn)點(diǎn)技術(shù)知識(shí)的電腦用戶都能輕松上手寂屏,可以說是一項(xiàng)老少咸宜的 AI 圖像生成工具贰谣。
盡管此前娜搂,藝術(shù)創(chuàng)作 AI 已經(jīng)歷了一段時(shí)間的發(fā)展,但 Stable Diffusion 的出現(xiàn)才真正讓這項(xiàng)技術(shù)得到了騰飛式的發(fā)展吱抚。因?yàn)樗梢悦赓M(fèi)使用百宇、上手快捷,大大減少了用戶生成內(nèi)容的障礙秘豹。
Stable Diffusion 掀起了文生圖模型的熱潮携御。今年 10 月,百度發(fā)布了首個(gè)知識(shí)增強(qiáng)的 AI 作畫大模型 ERNIE-ViLG 2.0既绕;11 月初啄刹,阿里達(dá)摩院在魔搭社區(qū) ModelScope 上開放了通義文生圖大模型;11 月底凄贩,智源研究院大模型研究團(tuán)隊(duì)開源最新雙語 AltDiffusion 模型誓军,中文世界有了專業(yè)級(jí) AI 文圖創(chuàng)作工具,其在視效上媲美 Stable Diffusion怎炊。
ChatGPT 火爆出圈
最近幾周谭企,OpenAI 最新的聊天機(jī)器人ChatGPT火出天際,成為現(xiàn)象級(jí)應(yīng)用评肆。
問答债查、寫小說、寫代碼瓜挽、寫論文盹廷、寫區(qū)塊鏈智能合約....ChatGPT 的應(yīng)用也頻頻出圈。ChatGPT 就像是一個(gè)無所不知的虛擬體久橙,它能回答各種問題俄占,而且總能給到讓人滿意,甚至超過預(yù)期的答案淆衷,因此引起了極高的關(guān)注度缸榄。
ChatGPT 展示出的強(qiáng)大的能力和無限可能,讓人們看到祝拯,通過 ChatGPT 這樣的技術(shù)方案解決很多任務(wù)的潛力甚带。大家感到驚奇的是,在一個(gè)模型里面就可以完成各種任務(wù)佳头,而且是很難的任務(wù)鹰贵。在過去一些看似比較困難的任務(wù)(比如問倫理道德方面),ChatGPT 也能解決得很好康嘉。
清華大學(xué)教授黃民烈認(rèn)為碉输,ChatGPT 的技術(shù)創(chuàng)新性主要在于兩個(gè)方面:
強(qiáng)大的底座模型:過去幾年 GPT-3 的能力得到了快速提升,OpenAI 建立了用戶亭珍、數(shù)據(jù)和模型之間的飛輪敷钾。顯然枝哄,開源模型的能力已遠(yuǎn)遠(yuǎn)落后平臺(tái)公司所提供的 API 能力闰非,因?yàn)殚_源模型沒有持續(xù)的用戶數(shù)據(jù)對(duì)模型進(jìn)行改進(jìn)。
利用強(qiáng)化學(xué)習(xí)從人類反饋中學(xué)習(xí): 在真實(shí)調(diào)用數(shù)據(jù)上的精調(diào)模型瘪贱,確保數(shù)據(jù)的質(zhì)量和多樣性,從人類反饋中學(xué)習(xí)辆毡。從“兩兩比較的數(shù)據(jù)”中學(xué)習(xí),對(duì)強(qiáng)化學(xué)習(xí)而言意義很大球昨。如果對(duì)單個(gè)生成結(jié)果進(jìn)行打分,標(biāo)注者主觀性帶來的偏差很大眨攘,無法給出精確的獎(jiǎng)勵(lì)值主慰。在強(qiáng)化學(xué)習(xí)里共螺,獎(jiǎng)勵(lì)值差一點(diǎn)情竹,最后訓(xùn)練的策略就差很遠(yuǎn)秦效。而對(duì)于多個(gè)結(jié)果進(jìn)行排序和比較,相對(duì)就容易做很多挑秉。這種比較式的評(píng)估方法苔货,在很多語言生成任務(wù)的評(píng)價(jià)上也被廣泛采用蒲赂。
黃民烈認(rèn)為滥嘴,ChatGPT 出現(xiàn)對(duì) AI 界來說至耻,有著十分重要的意義:“它宣示著無縫人機(jī)交互時(shí)代的來臨。過去我們講 conversation as a service (caas)還停留在紙面走触,但實(shí)際上今天,無論是開放域聊天敛腌,還是通用任務(wù)助理(ChatGPT)都在強(qiáng)烈地表明這一點(diǎn)”像樊。
從信息檢索的角度看旅敷,ChatGPT 也取得了很大突破媳谁。達(dá)摩院基礎(chǔ)視覺負(fù)責(zé)人趙德麗在接受 InfoQ 采訪時(shí)表示晴音,以前谷歌等搜索引擎做搜索和檢索段多,只是找已經(jīng)存在的信息,ChatGPT 的應(yīng)用加缘,實(shí)現(xiàn)了從信息的搜索到信息的創(chuàng)造這樣一個(gè)范式的轉(zhuǎn)變拣宏,從算法能力上看勋乾,它取得了一個(gè)質(zhì)的飛躍嗡善。短期來看罩引,ChatGPT 有望成為或者輔助像谷歌這種傳統(tǒng)信息檢索的強(qiáng)有力的工具袁铐;長期來看,它有望發(fā)展成為 AI 系統(tǒng)級(jí)的服務(wù)徙融。
但至于它最終會(huì)不會(huì)取代搜索引擎瑰谜。黃民烈認(rèn)為似舵,ChatGPT 取代谷歌搜索還比較遙遠(yuǎn)砚哗,原因主要有蛛芥,受限于訓(xùn)練數(shù)據(jù),ChatGPT 的信息實(shí)效性較弱仅淑,缺乏很多新的信息涯竟;在信息的可信度上庐船,搜索引擎只“搬”東西筐钟,不創(chuàng)造內(nèi)容篓冲。ChatGPT 雖然會(huì)創(chuàng)造內(nèi)容,但創(chuàng)造的東西多大程度上“有用嗤攻、可信屯曹、無害”恶耽,還沒有統(tǒng)一的定論偷俭;再就是成本問題涌萤,現(xiàn)在大模型的生成成本還是太高了负溪,需要持續(xù)下降济炎。
現(xiàn)階段的 ChatGPT 并不完美须尚。通俗地說耐床,它還存在“一本正經(jīng)地胡說八道”的問題撩轰,這本質(zhì)上是對(duì)信息可信性的度量和評(píng)估堪嫂。解決這一問題溉苛,技術(shù)上需要有信息驗(yàn)證的手段愚战;從應(yīng)用上來說,需要深入結(jié)合應(yīng)用的場(chǎng)景和特點(diǎn)塔插,針對(duì)性優(yōu)化和解決想许。
但整體而言流纹,ChatGPT 還是讓人非常驚喜漱凝。黃民烈非橙壮矗看好 ChatGPT 接下來的發(fā)展方向壁公。他認(rèn)為這是一個(gè)正確的方向紊册,現(xiàn)在還比較粗糙湿硝,但假以時(shí)日关斜,一定會(huì)催生很多應(yīng)用痢畜。
趙德麗同樣對(duì) ChatGPT 抱有大期待丁稀。雖然還有各種瑕疵线衫,但 ChatGPT 短時(shí)間內(nèi)出現(xiàn)了各式各樣的不同方向上解決問題的能力,展現(xiàn)了 AI 算法的巨大潛力枯跑。從技術(shù)發(fā)展和解決方案的角度看敛助,它將來可能會(huì)成長為一個(gè)超級(jí) APP纳击,就像是一個(gè)無所不知的虛擬體焕数”づ猓“ChatGPT 這種應(yīng)用的出現(xiàn)加匈,從長遠(yuǎn)來看的影響力雕拼,其實(shí)不亞于阿爾法狗曾經(jīng)在人工智能界帶來的影響力啥寇,它將會(huì)是一個(gè)影響非常深遠(yuǎn)的技術(shù)和應(yīng)用”辑甜。
AIGC 為什么突然火了磷醋?
AIGC 并不是一個(gè)新概念邓线。AIGC骇陈,通常還有另一種叫法 — AI Creation(人工智能創(chuàng)造)你雌,大致從 2016 年—2017 年開始婿崭,其應(yīng)用不斷增加逛球,尤其是在自然語言領(lǐng)域颤绕,廣泛應(yīng)用在生成文本奥务、作詩句氯葬、寫對(duì)聯(lián)等方向帚称,近幾年闯睹,逐漸延伸到作畫始花、作曲等領(lǐng)域酷宵。
憑何而火浇垦?
今年溜族,AIGC 突然在全球躥紅煌抒,成為人人口中的流行詞寡壮。究其原因况既,主要由多項(xiàng)技術(shù)上的關(guān)鍵突破推動(dòng)棒仍,總結(jié)來說:
一莫其,算法上:從今年 4 月開始乱陡,在文生圖視覺方向上胳徽,視覺效果生成的效果取得了突破性的進(jìn)展养盗,文生圖的質(zhì)量得到了很大改善。OpenAI 的文本生成圖像模型 DALL·E 2 算法發(fā)布后蝶缀,在算法效果上取得了和以往相比實(shí)質(zhì)性的突破翁都,成為一個(gè)現(xiàn)象級(jí)的算法柄慰,其在文本生成圖像生成的效果坐搔、真實(shí)度表現(xiàn)上概行,讓大家看到了大規(guī)模商用的前景凳忙。AI 作畫任務(wù)十分直觀勤家,給人的視覺沖擊強(qiáng)烈伐脖,使得 AIGC 逐漸破圈晓殊,快速傳播巫俺。
二介汹,預(yù)訓(xùn)練大模型是 AIGC 的底座,沒有大模型學(xué)到的豐富知識(shí)嘹承,就無法實(shí)現(xiàn)如此豐富的 AI 內(nèi)容生成能力窗价。AIGC 最重要的是一種融會(huì)貫通的能力,要做領(lǐng)域的泛化叹卷,需要學(xué)習(xí)海量的數(shù)據(jù)撼港,大模型的規(guī)模直接決定了 AIGC 創(chuàng)作力的廣度。多模態(tài)大模型的應(yīng)用骤竹,使得 AIGC 的質(zhì)量得到了較為明顯的進(jìn)步。
三蒙揣,擴(kuò)散模型的發(fā)展靶溜。擴(kuò)散生成的算法取得了突破,這個(gè)算法能夠?qū)D像做像素級(jí)別的建模懒震,學(xué)習(xí)效率更高罩息。Stable Diffusion是文本生成圖像模型完全開源的第一個(gè)算法,它跑起來的效率相當(dāng)高个扰,其開源也帶動(dòng)了相關(guān)生態(tài)快速的發(fā)展瓷炮,讓人們看到,基于這種生成式基礎(chǔ)模型递宅,能夠帶來無限的創(chuàng)造和想象空間崭别。特別是在一些國外社區(qū)里,基于 Stable Diffusion 做的各種創(chuàng)新式的應(yīng)用發(fā)展快速恐锣,展現(xiàn)了商業(yè)化潛力茅主。
四,算力降低土榴。深度學(xué)習(xí)計(jì)算能力的快速發(fā)展诀姚。在大算力的基礎(chǔ)上,AI 作畫能夠?qū)崿F(xiàn)在海量數(shù)據(jù)上進(jìn)行大參數(shù)模型的訓(xùn)練玷禽。相比之前的 AIGC 算法赫段,算力上有了很大降低呀打。 要訓(xùn)練一個(gè)基礎(chǔ)的預(yù)訓(xùn)練模型,需要很多算力糯笙。一些專注于基礎(chǔ)的大模型的機(jī)構(gòu)贬丛,將模型訓(xùn)練好后,可以供很多小企業(yè)使用给涕,只需用消費(fèi)級(jí)的網(wǎng)卡就可以做微調(diào)豺憔,也可以直接基于 API 調(diào)用。預(yù)訓(xùn)練大模型加上微調(diào)可以很好地進(jìn)行文生圖生成風(fēng)格的改變够庙,派生出了大量的二次開發(fā)者恭应,屢屢破圈。
從 GAN 到 Diffusion
GAN耘眨,是生成式 AI 的核心技術(shù)之一昼榛。2014 年以來,以生成式對(duì)抗網(wǎng)絡(luò)(Generative Adversarial Network,GAN)為代表的深度學(xué)習(xí)算法的提出和迭代更新剔难,讓 AIGC 進(jìn)入了快速發(fā)展階段胆屿,帶動(dòng)了 AIGC 的一波熱潮。
趙德麗表示偶宫,在 Stable Diffusion 這種擴(kuò)散算法出現(xiàn)之前莺掠,從生成的效果上看,在計(jì)算機(jī)領(lǐng)域读宙,GAN 是效果最好的。發(fā)展到現(xiàn)階段楔绞,GAN 生成的人臉圖像已經(jīng)到了真假難辨的程度结闸。以 StyleGAN 為例,其生成的圖片可以做到栩栩如生酒朵,光線和紋理都清晰可見桦锄,非專業(yè)人士幾乎無法分辨出是由 AI 生成的虛假圖。即便是現(xiàn)在的 Diffusion model 目前也做不到現(xiàn)在 GAN 在人臉生成上的結(jié)果蔫耽。
但 GAN 有一個(gè)最大的缺點(diǎn)结耀,它對(duì)于多類別、語義非常復(fù)雜的匙铡、一般場(chǎng)景下的圖片生成的建模能力較弱图甜。如果只是人臉,只是貓或者只是狗這類場(chǎng)景的數(shù)據(jù)鳖眼,GAN 的效果很好黑毅。但它在某種復(fù)雜數(shù)據(jù)的規(guī)模能力方面,在性能上受限較大钦讳,如果把狗矿瘦、貓枕面、花朵、桌子缚去、椅子潮秘、電話等不同種類的數(shù)據(jù)放在一起,目前的情況下易结,GAN 得不到一個(gè)較好的結(jié)果枕荞。
而 Diffusion model 在這方面取得了突破性的進(jìn)展。Diffusion model 解決了 GAN 不能解決的問題衬衬,因此大家立刻意識(shí)到了它的巨大潛力买猖。今年是 Diffusion model 取得快速發(fā)展的第一年。而且滋尉,它的發(fā)展速度超過當(dāng)年的 GAN玉控,當(dāng)年的 GAN 已經(jīng)足夠火熱了,但可以感受到狮惜, Diffusion model 現(xiàn)在的受關(guān)注程度超過當(dāng)年的 GAN 高诺。
Diffusion 擴(kuò)散化模型帶動(dòng)新一波 AIGC 的熱潮
今年這波 AIGC 的熱潮,被認(rèn)為是由生成擴(kuò)散模型帶動(dòng)起來的碾篡。例如虱而,OpenAI 發(fā)布了文本生成圖像模型 DALL·E 2;谷歌推出了 Imagen开泽;今年 8 月牡拇,初創(chuàng)公司 Stability.AI 發(fā)布了 Stable Diffusion...
百度 ERNIE-ViLG 團(tuán)隊(duì)向 InfoQ 介紹,擴(kuò)散模型是受非平衡熱力學(xué)的啟發(fā)的一系列概率生成模型穆律,通過逐漸增加噪聲的方式對(duì)原始數(shù)據(jù)進(jìn)行擾動(dòng)惠呼,通過學(xué)習(xí)反向的恢復(fù)原始數(shù)據(jù)去噪過程得到用于生成數(shù)據(jù)的模型,典型的擴(kuò)散模型如 DDPM 等峦耘。而擴(kuò)散模型在生成過程中加入文本條件產(chǎn)生了諸如 DALLE2剔蹋、Imagen、ERNIE-ViLG 2.0 等基于擴(kuò)散的文本生成圖像模型辅髓。傳統(tǒng)生成對(duì)抗網(wǎng)絡(luò) GAN 存在訓(xùn)練不穩(wěn)定和生成結(jié)果多樣性差等缺點(diǎn)泣崩,而擴(kuò)散模型顯著提升了圖像生成的效果和多樣性,受到業(yè)界廣泛關(guān)注洛口。
生成擴(kuò)散模型在多模態(tài)生成領(lǐng)域展現(xiàn)出很好的可擴(kuò)展性矫付。在訓(xùn)練數(shù)據(jù)時(shí),把不同模態(tài)的訓(xùn)練數(shù)據(jù)混到一起第焰,把文本技即、靜態(tài)圖片、視頻、聲音等各種各樣不同類型的訓(xùn)練數(shù)據(jù)在一個(gè)語義空間里關(guān)聯(lián)在一起而叼。但因?yàn)橛?xùn)練數(shù)據(jù)規(guī)模大身笤,大模型的參數(shù)特別多,用這種方式葵陵,它仍然只能得到一張分辨率很低的圖片液荸。然后不停地通過擴(kuò)散模型算法,把很小的分辨率和圖片不停地做超分辨率脱篙,不停地把一張很模糊的圖片變得尺寸更大娇钱、更清晰,在這個(gè)過程里還會(huì)補(bǔ)上很多細(xì)節(jié)绊困,最后得到一張相對(duì)較清晰的圖文搂。
現(xiàn)在很多人應(yīng)用 Diffusion model 來生成視頻,生成音樂秤朗,目前為止它最為可行的還是生成靜態(tài)的視覺畫面煤蹭。
AIGC 相關(guān)技術(shù)逐步發(fā)展成熟
AIGC 包括多種內(nèi)容形式,按照黃民烈的分類方法取视,分為感知智能和認(rèn)知智能硝皂。
感知類:文生圖、語音生成作谭、音樂生成等
認(rèn)知類:續(xù)寫稽物、改錯(cuò)、小說故事創(chuàng)作折欠、對(duì)話生成等從技術(shù)上看贝或,寫作相關(guān)和圖像生成這兩個(gè)方向表現(xiàn)比較成熟,對(duì)話最難锐秦。
其中在文本生成方面咪奖,例如在金融文本摘要生成領(lǐng)域,其技術(shù)早已成熟到可以落地的程度农猬。ChatGPT 在內(nèi)容的創(chuàng)作能力、問答流暢度上表現(xiàn)不錯(cuò)售淡,但要深究其真實(shí)性斤葱、正確性和時(shí)效性,還存在不少問題揖闸。如何保證內(nèi)容的真實(shí)性揍堕、正確性和時(shí)效性,是現(xiàn)在 AIGC 尤其是文字類的生成需要重點(diǎn)考慮的問題汤纸。
圖像生成方面衩茸,AI 繪畫格外火熱。百度 ERNIE-ViLG 團(tuán)隊(duì)認(rèn)為贮泞,今年以來楞慈,AI 作畫發(fā)展迅速幔烛,很大程度來自于技術(shù)的突破,使得效果有了質(zhì)的飛躍囊蓝,甚至有些 AI 圖像作品十分驚艷饿悬。
不過,雖然 AI 繪畫已經(jīng)進(jìn)入實(shí)用階段聚霜,但依然有很大的優(yōu)化空間狡恬。在技術(shù)角度,需要提高的主要是兩個(gè)方面蝎宇,包括生成的可控性和細(xì)節(jié)描述能力弟劲。
AI 繪畫的可控性有待提升,對(duì)于數(shù)量姥芥、邏輯兔乞、關(guān)系、多圖關(guān)聯(lián)等問題暫無有效的解決方案撇眯。比如說要求生成 2 個(gè)蘋果报嵌,左邊是紅色,右邊是綠色熊榛。雖然這里邊的關(guān)系并不復(fù)雜锚国,但模型很多時(shí)候,并不能穩(wěn)定地生成正確的結(jié)果玄坦。
細(xì)節(jié)描述能力有待提升血筑,對(duì)于更加復(fù)雜的、有規(guī)律性的細(xì)節(jié)的描述能力有待提升煎楣。比如對(duì)于一棟居民樓的圖片豺总,窗戶應(yīng)該是有多種不同描繪,有開的择懂、有關(guān)的喻喳、有晾衣服的,同時(shí)很多窗戶應(yīng)該對(duì)齊且規(guī)格統(tǒng)一困曙。
小冰公司 CEO 李笛認(rèn)為表伦,整體來看,AI 作畫在生成質(zhì)量上有了大幅提高慷丽,但仍然需要解決一些單點(diǎn)的問題蹦哼,例如模型本身的迭代,一個(gè)人類設(shè)計(jì)師在和雇主的工作過程中要糊,可以根據(jù)雇主的喜好纲熏,對(duì)設(shè)計(jì)初稿的某一局部做精細(xì)調(diào)整。但 AI 無法做到這一點(diǎn),AI 畫作一旦生成局劲,如果想讓它修改勺拣,往往是用重畫的方式來進(jìn)行。而現(xiàn)有的技術(shù) — 多模態(tài)大模型容握,注定有這類問題宣脉。它只能在一定程度上,提高作品與需求的相關(guān)性剔氏,但無法從根本上提高良品率塑猖。
AI 生成視頻,是 AI 生成圖像的一種延伸谈跛。從技術(shù)本質(zhì)上看羊苟,視頻可以認(rèn)為是多張“圖片”,即視頻幀構(gòu)成的序列感憾,且序列上各幀之間有畫面蜡励、邏輯等層面的關(guān)聯(lián)。因此阻桅,從生成質(zhì)量上來說凉倚,AI 生成視頻相對(duì)更難。
當(dāng)前文生圖技術(shù)可以通過簡單的技術(shù)組合嫂沉,例如分步驟擴(kuò)散生成等方式稽寒,將生成圖像擴(kuò)展到生成視頻,但效果還不能令人滿意趟章。此外杏糙,受限于數(shù)據(jù)規(guī)模和質(zhì)量,AI 生成視頻的生成效果和現(xiàn)在的文本生成圖像的效果相比蚓土,有較大差距宏侍。
不過,相對(duì)圖像蜀漆,視頻內(nèi)容具有其獨(dú)特屬性谅河。例如,在互聯(lián)網(wǎng)視頻內(nèi)容消費(fèi)場(chǎng)景中确丢,經(jīng)常會(huì)以“隨便截一張圖都是壁紙”作為對(duì)視頻質(zhì)量的極高贊譽(yù)绷耍。由此可見,相對(duì)于圖片蠕嫁,視頻對(duì)單個(gè)幀的質(zhì)量要求相對(duì)較低锨天,更強(qiáng)調(diào)傳遞信息等功能毯盈。因此剃毒,AI 生成視頻可以采用其他技術(shù)方案完成,在降低技術(shù)難度的同時(shí),更符合特定應(yīng)用場(chǎng)景的要求赘阀,例如基于圖文輸入生成視頻益缠、基于數(shù)據(jù)生成視頻等。
總結(jié)來說基公,AI 按照生成圖像的方式生成視頻幅慌,仍處于前沿探索階段。
商業(yè)想象力幾何轰豆?
趙德麗認(rèn)為胰伍,現(xiàn)階段,AIGC 的生成效果已經(jīng)非常驚艷了酸休,它已經(jīng)達(dá)到了廣泛應(yīng)用的基礎(chǔ)性能骂租,雖然在使用上還有較大門檻,但通過大模型的開源開放等斑司,有助于將門檻降下來渗饮。
商業(yè)模式在探索中
而且可喜的是,現(xiàn)在宿刮,AIGC 已經(jīng)有不少可行的商業(yè)模式發(fā)生了互站。
例如在設(shè)計(jì)、藝術(shù)創(chuàng)作僵缺、電商胡桃、娛樂、金融等領(lǐng)域谤饭。具體在文本生成上标捺,在一些商業(yè)非嚴(yán)肅性文書的輔助編寫上已產(chǎn)生了不錯(cuò)的模式;在文生圖方向揉抵,已經(jīng)看到亡容,面向設(shè)計(jì)師,面向教育行業(yè)的 AI 輔助畫作生成等正在探索商業(yè)用途的路上冤今。
最近幾年闺兢,“數(shù)字人+AIGC”成為不少企業(yè)的探索方向。小冰從幾年前就開始探索 AIGC戏罢。李笛表示屋谭,AIGC 對(duì)于 AI Being 來說的作用在于,在和人交互的過程中龟糕,它不光要能從數(shù)字世界中獲取知識(shí)內(nèi)容和服務(wù)提供給人桐磁,它自己也應(yīng)該相應(yīng)地隨機(jī)應(yīng)變地去創(chuàng)造相應(yīng)的內(nèi)容提供給人。
在互聯(lián)網(wǎng)應(yīng)用之外讲岁,AIGC 在實(shí)體經(jīng)濟(jì)領(lǐng)域我擂,也蘊(yùn)含著不少機(jī)會(huì)衬以。
實(shí)體經(jīng)濟(jì)對(duì)內(nèi)容生產(chǎn)的需求很大⌒DΓ“我們以前認(rèn)為實(shí)體經(jīng)濟(jì)的瓶頸在于生產(chǎn)看峻、產(chǎn)能,其實(shí)不是衙吩,實(shí)體經(jīng)濟(jì)的很多瓶頸在于設(shè)計(jì)互妓,在于內(nèi)容±と” 李笛說冯勉。以小冰為例,小冰的 AIGC 內(nèi)容很早就應(yīng)用在紡織設(shè)計(jì)領(lǐng)域摹芙。小冰與中國紡織信息中心珠闰、國家紡織產(chǎn)品開發(fā)中心推出的 AI 圖案設(shè)計(jì)平臺(tái),可按需定制 100%原創(chuàng)的圖案紋樣瘫辩,目前已有超過 400 家企業(yè)注冊(cè)伏嗜,并在生產(chǎn)中使用。
北京智源人工智能研究院總工程師林詠華向 InfoQ 談到伐厌,工業(yè)生產(chǎn)承绸、制造、倉儲(chǔ)挣轨、物流等實(shí)體行業(yè)军熏,近幾年一直在探索如何用計(jì)算機(jī)視覺來進(jìn)行智能化升級(jí),但實(shí)際落地并不容易卷扮。原因在于荡澎,現(xiàn)有的模型質(zhì)量還未能滿足產(chǎn)業(yè)落地的質(zhì)量要求。其中一個(gè)重要原因是晤锹,訓(xùn)練模型時(shí)所用的訓(xùn)練數(shù)據(jù)十分局限摩幔。因此,可以考慮通過 AIGC 的方式來產(chǎn)生這些場(chǎng)景里的訓(xùn)練數(shù)據(jù)鞭铆。例如在倉儲(chǔ)或衡、物流或更多的工業(yè)場(chǎng)景,用 AI 來輔助產(chǎn)生一些少見的場(chǎng)景數(shù)據(jù)车遂,作為訓(xùn)練數(shù)據(jù)的補(bǔ)充封断,提升整個(gè)模型的質(zhì)量。但這需要更精準(zhǔn)的圖片生成的控制能力舶担,比較起現(xiàn)有的 AIGC 模型能力坡疼,其可控性需要大大提升。
AIGC 在自動(dòng)駕駛場(chǎng)景下也有著不錯(cuò)的應(yīng)用潛力∫绿眨現(xiàn)在自動(dòng)駕駛場(chǎng)景存在訓(xùn)練數(shù)據(jù)不足的問題柄瑰,例如針對(duì)惡劣天氣废岂、事故等突發(fā)狀況,視覺模型在真實(shí)場(chǎng)景中很難捕捉狱意,也難以進(jìn)行模擬,因此拯欧,目前業(yè)內(nèi)在嘗試用數(shù)字孿生和仿真的方式來模擬详囤。也可以嘗試用大模型的方式,通過給出描述镐作,生成相應(yīng)的精確場(chǎng)景藏姐,緩解某些場(chǎng)景下自動(dòng)駕駛數(shù)據(jù)難獲得的問題。
“整體來看该贾,AIGC 現(xiàn)在已經(jīng)開始在探索向?qū)嶓w經(jīng)濟(jì)的應(yīng)用發(fā)展羔杨,但目前還在一個(gè)比較早期的階段” 林詠華判斷。
向 B 端收費(fèi)還是 C 端杨蛋?
然而兜材,AIGC 的商業(yè)化落地,不得不面臨的一個(gè)尷尬的問題是 —— 如何避免走向 “廉價(jià)”逞力。
AI 具有高并發(fā)性曙寡,注定了它的“廉價(jià)”。李笛認(rèn)為寇荧,如果只對(duì) AI 畫作收費(fèi),它很可能會(huì)進(jìn)入到廉價(jià)的成本經(jīng)銷模式。因?yàn)樯竿瘢耸怯袆?chuàng)造力的却邓,從人類設(shè)計(jì)師那得到的畫作,人可能愿意付一百塊峦嗤,從 AI 那得到的畫作蕊唐,且不論質(zhì)量,人可能連一塊都不愿意付烁设,因?yàn)橛X得它是廉價(jià)的刃泌。AI 畫的畫可能很有價(jià)值,但人們認(rèn)為它不值錢署尤。因此如果賣的是內(nèi)容耙替,無論是賣給 B 端還是賣給 C 端它都不值錢。而如果賣調(diào)用服務(wù)給 C 端曹体,也很難持續(xù)俗扇。API 調(diào)用的模式是一種比較粗放的從技術(shù)源頭開始的商業(yè)化包裝方式。
內(nèi)容產(chǎn)業(yè)有一個(gè)重要特點(diǎn)是箕别,它是高附加值且有區(qū)分度的铜幽,不同內(nèi)容的創(chuàng)作者定價(jià)不同滞谢,不完全取決于本身的作品質(zhì)量。但用 AI 創(chuàng)作不同的繪畫除抛,定價(jià)是相同的狮杨,這樣容易把一個(gè)高附加值的市場(chǎng)“打”成一個(gè)低附加值的市場(chǎng)。
對(duì)于 AIGC 可行的賺錢路徑到忽,李笛認(rèn)為橄教,如果 to C ,是走內(nèi)容平臺(tái)模式喘漏,打造一個(gè)內(nèi)容平臺(tái)护蝶,通過廣告收費(fèi)。如果 to B翩迈,是用 AI Being 和企業(yè)之間進(jìn)行協(xié)同持灰。一個(gè) AI Being 創(chuàng)作者,能一定程度對(duì)標(biāo)人類創(chuàng)作者负饲,他有“唯一性”堤魁。通過與雇主的長期磨合,雙方的審美返十、風(fēng)格會(huì)越來越趨同姨涡。對(duì)雇主來說,他的作品質(zhì)量會(huì)越來越穩(wěn)定吧慢√纹“某種意義上講,我們認(rèn)為靠 AIGC 本身賺不到錢检诗。我們不是在做‘畫筆’匈仗,而是在做一個(gè)‘手拿畫筆的人’,我們不是在做能畫畫的 AI逢慌,而是在做能畫畫的 AI Being悠轩。我們側(cè)重把創(chuàng)作的能力,把生成的能力賦予 AI Being攻泼,讓 AI Being 本身具有價(jià)值”火架。
爆發(fā)前夜
“AIGC 技術(shù)走到了一個(gè)轉(zhuǎn)折點(diǎn),到了一個(gè)新階段的起點(diǎn)”忙菠。趙德麗認(rèn)為何鸡,此前,雖然 AIGC 技術(shù)在不斷發(fā)展牛欢,但生成效果并沒有得到廣泛認(rèn)可骡男,還沒達(dá)到大規(guī)模商業(yè)化的條件。但現(xiàn)在傍睹,不一樣了隔盛。
今年犹菱,AIGC 生成的效果,包括基于 AIGC 技術(shù)推出來的應(yīng)用吮炕,大家看到腊脱,這項(xiàng)目技術(shù)已經(jīng)具備了大規(guī)模應(yīng)用和商業(yè)化的潛力和性能,具備了從只能在窄領(lǐng)域到更普遍場(chǎng)景下應(yīng)用的可能性龙亲。AIGC 技術(shù)到了大規(guī)模商業(yè)化應(yīng)用的轉(zhuǎn)折點(diǎn)陕凹。今年是一個(gè)起點(diǎn),但還遠(yuǎn)遠(yuǎn)沒有到成熟的程度俱笛。
AIGC 具體在哪些領(lǐng)域能用好,發(fā)揮出商業(yè)化的價(jià)值传趾,還需要不斷打磨產(chǎn)品和技術(shù)迎膜。例如對(duì)于文本生成圖,現(xiàn)在對(duì) problem 的提示語要求很高浆兰,現(xiàn)在算法還做不到隨便給個(gè)描述磕仅,就能生成栩栩如生的圖片。什么樣的 problem 合適簸呈,如何設(shè)計(jì)出合適的 problem 等榕订,都有一定門檻。
此外蜕便,像 ChatGPT 雖然展示了強(qiáng)大的能力劫恒,但在很多場(chǎng)景下還是有瑕疵,出現(xiàn)問題和答案不匹配的情況還非常多轿腺。如果對(duì)其進(jìn)行商業(yè)化應(yīng)用两嘴,需要再針對(duì)具體的場(chǎng)景,不斷打磨和優(yōu)化族壳。盡管它達(dá)到了大規(guī)模應(yīng)用的基礎(chǔ)憔辫,但并不是非常成熟,還達(dá)不到讓大家自由應(yīng)用的程度仿荆。
現(xiàn)階段贰您,AIGC 已經(jīng)有了一些稱得上規(guī)模的應(yīng)用,但在實(shí)際應(yīng)用中拢操,還存在一些問題锦亦。例如因?yàn)槿嗽O(shè)計(jì)的作品相對(duì)較貴,但人工智能的設(shè)計(jì)作品相對(duì)便宜令境,所以會(huì)有人利用這個(gè)漏洞孽亲,將人工智能系統(tǒng)里的大量作品改頭換面,將它搬遷到或囤積到那些原本是人類設(shè)計(jì)者的定價(jià)體系的平臺(tái)上去傾銷展父,最終會(huì)造成人類創(chuàng)作作品的銷量市場(chǎng)受到損害返劲。AIGC 應(yīng)該避免形成這樣的規(guī)牧崦粒化。
熱度篮绿、爭(zhēng)議與未來
如何提高良品率
當(dāng)前孵延,AI 寫作、AI 作畫等 AIGC 內(nèi)容在質(zhì)量上還存在良莠不齊的問題亲配,提高良品率尤為重要尘应。
不過在大模型的生產(chǎn)模式下,提高良品率的方法并不多吼虎,某種意義上來講犬钢,良品率目前主要依靠翻動(dòng)過程,它能夠在一定程度上降低瑕疵思灰,但想要消除玷犹,不太可能,它不太可能是基于對(duì)大模型的修改而得到洒疚。接下來期待一個(gè)新的稱之為臺(tái)階式的技術(shù)理念出來歹颓。
提高數(shù)據(jù)的質(zhì)量是基礎(chǔ)方法之一。林詠華表示油湖,AIGC 是針對(duì)訓(xùn)練數(shù)據(jù)的融會(huì)貫通和變換巍扛,所以數(shù)據(jù)的廣泛性,數(shù)據(jù)的分布和數(shù)據(jù)的質(zhì)量都很重要乏德。在 AI 領(lǐng)域的研究人員越來越意識(shí)到撤奸,尤其在需要大量數(shù)據(jù)訓(xùn)練模型的大模型領(lǐng)域,數(shù)據(jù)起到的作用可能會(huì)比算法還大喊括。如果希望生成的畫作精良寂呛,那需要訓(xùn)練的圖片的質(zhì)量是精美的,但如果給的是小孩的畫瘾晃,那生成的畫作可能還粗略停留在小孩階段贷痪。
此外就是從算法側(cè)改進(jìn)算法,但改進(jìn)算法本身如果針對(duì)通用場(chǎng)景蹦误,它可能在某些場(chǎng)景總是出現(xiàn)瑕疵或者出現(xiàn)瑕疵的概率比較高劫拢。很多團(tuán)隊(duì)在開發(fā) AIGC 應(yīng)用時(shí),目標(biāo)不是通用場(chǎng)景强胰,比如針對(duì)的是生成二次元圖像的產(chǎn)品舱沧,那需要對(duì)算法或模型進(jìn)行二次開發(fā)。在這種情況下偶洋,完全有可能在二次開發(fā)的基礎(chǔ)上把瑕疵去掉熟吏,提高良品率。一般通過二次開發(fā),且在一些具體場(chǎng)景下的數(shù)據(jù)做模型二次微調(diào)牵寺,可以大大提高 AIGC 的良品率悍引。
“人工智能宣布放棄版權(quán)”
AI 作畫的一個(gè)很大的爭(zhēng)議點(diǎn)在于版權(quán)。例如帽氓,DALL-E 和 Stable Diffusion 等圖形生成類 AI 工具就被質(zhì)疑在互聯(lián)網(wǎng)上隨意抓取數(shù)據(jù)趣斤,且完全沒有考慮過任何許可或所有權(quán)限制。正是由于這種版權(quán)歸屬爭(zhēng)議的存在黎休,Shutterstock 和 Getty Images 等公司禁止在其平臺(tái)上使用 AI 生成圖像浓领。
談到版權(quán)問題,李笛表示势腮,小冰很早就提出联贩,“人工智能宣布放棄版權(quán)”。
通常來說捎拯,版權(quán)界定需要幾步:第一判定是不是侵權(quán)泪幌。人類作品判定侵權(quán)有明確的界定要求,比如一個(gè)作品多少比重的內(nèi)容一致玄渗,就可以判定侵權(quán)座菠。人工智能作為系統(tǒng)狸眼,它天生就有判定機(jī)制藤树,當(dāng)它輸出作品的過程中,它自動(dòng)就可以像知網(wǎng)一樣進(jìn)行查重拓萌。它生成的原始圖像里岁钓,很可能存在著很多圖像跟現(xiàn)有的作品,存在相似性微王,如果相似性較高屡限,侵權(quán)了,只要不把作品輸出就行炕倘。如果讓人工智能確保它給到用戶的每一個(gè)作品都是不侵權(quán)的钧大,這件事很容易做。
第二步要有判定訓(xùn)練的過程罩旋,是基于什么樣的訓(xùn)練數(shù)據(jù)訓(xùn)練的啊央。但要注意的是,無論是人類作品還是 AI 生成作品涨醋,侵權(quán)的責(zé)任認(rèn)定在于瓜饥,這張作品是不是跟另一個(gè)作品產(chǎn)生了相似性,而并非在學(xué)習(xí)作畫的過程中學(xué)習(xí)了別人的作品及作品思想等浴骂。如果這樣乓土,無論是人還是 AI 只要在畫畫,便會(huì)判定為侵權(quán)。從這個(gè)角度看趣苏,人工智能本身在訓(xùn)練過程不存在版權(quán)責(zé)任狡相,尤其是大模型,因?yàn)槿斯ぶ悄茉谟?xùn)練的時(shí)候拦键,它使用的是公開的數(shù)據(jù)來進(jìn)行訓(xùn)練谣光。
另一個(gè)放棄版權(quán)的原因在于,人工智能保留知識(shí)產(chǎn)權(quán)沒有意義芬为。人工智能保留知識(shí)產(chǎn)權(quán)的一個(gè)先決條件是必須要經(jīng)過確權(quán)的步驟萄金。目前全球?qū)τ谥R(shí)產(chǎn)權(quán)的確權(quán)方法主要是通過著作權(quán)登記,每登記一個(gè)作品媚朦,需要一筆著作權(quán)登記費(fèi)用氧敢。而 AI 生成的內(nèi)容規(guī)模十分龐大,這一規(guī)則對(duì) AIGC 來說顯然不現(xiàn)實(shí)询张。
無法辨別真?zhèn)涡畔⒌氖澜?/p>
很多人擔(dān)憂孙乖,隨著 AIGC 的不斷普及,未來大家將生活在一個(gè)無法辨別真?zhèn)涡畔⒌氖澜缋铩?/p>
AIGC 生成的內(nèi)容越來越多份氧,信息的真假會(huì)成為很大的負(fù)擔(dān)唯袄。但這恐怕已經(jīng)是無法避免的趨勢(shì),因?yàn)楝F(xiàn)在 AI 生成的圖片早已經(jīng)是海量規(guī)模蜗帜,而且恋拷,這些 AI 生成的數(shù)據(jù)將會(huì)越來越多的出現(xiàn)在公共的資訊平臺(tái)上,這樣的時(shí)代正在快速到來厅缺。
對(duì)于用戶來說蔬顾,未來將面臨判定真?zhèn)涡畔⒌奶魬?zhàn)。目前還少有比較好的解決這一問題的方法湘捎。趙德麗提出了一種標(biāo)記的方法诀豁。從算法角度來說,可以做一些隱性標(biāo)記窥妇,標(biāo)記出哪些圖片是生成的舷胜,哪些是真實(shí)的圖片。
完全的 AIGC 可能不會(huì)出現(xiàn)
不可否認(rèn)的是活翩,AIGC 對(duì)內(nèi)容創(chuàng)作的確產(chǎn)生了重大影響烹骨。一種觀點(diǎn)認(rèn)為,內(nèi)容生成的四個(gè)階段依次為“PGC纱新、UGC展氓、AI 輔助生成和完全的 AIGC”。按照這一走向脸爱,未來遇汞,AI 的終級(jí)趨向會(huì)是取代人,最后內(nèi)容產(chǎn)業(yè)將走向完全的 AIGC。
李笛對(duì)此持有相反的觀點(diǎn)空入,他認(rèn)為络它,AI 的終極應(yīng)該是與人協(xié)同,應(yīng)該先實(shí)現(xiàn)“規(guī)耐嵊化的 AIGC”再到達(dá)“AI 輔助生成”階段化戳,當(dāng) AIGC 集大成以后,再輔助人類生成內(nèi)容埋凯。
此外点楼,完全的 AIGC 可能不會(huì)實(shí)現(xiàn)。比如人看某個(gè)電影白对,是因?yàn)榍楣?jié)掠廓、演員、導(dǎo)演等多種因素甩恼。人類對(duì)作品的喜好蟀瞧,從來不僅僅是因?yàn)閮?nèi)容質(zhì)量,即便未來完全的 AIGC 化了条摸,可能也并不是人類想要的東西悦污。李笛發(fā)出思考:“所以不存在 AIGC 顛覆人的可能性,能顛覆人的只有人類自己”钉蒲。
趙德麗表示切端,AIGC 本身是基于生成模型產(chǎn)生的能力,生成模型訓(xùn)練需要數(shù)據(jù)子巾,這些數(shù)據(jù)都是人類活動(dòng)產(chǎn)生帆赢,生成的提示詞需要人來輸入小压,人需要做場(chǎng)景的設(shè)計(jì)线梗、提示詞的設(shè)計(jì)、元素的設(shè)計(jì)等等怠益。只不過在一些具體的場(chǎng)景上仪搔,對(duì)于一些固定的設(shè)計(jì)模式,比如設(shè)計(jì)成具體的圖形如紅包界面蜻牢、商品素材等烤咧,可以實(shí)現(xiàn)完全的 AIGC 的方式。但整體而言抢呆,人還是 AIGC 中重要的因素煮嫌。
再回到那個(gè) AI 能不能讓藝術(shù)家丟掉飯碗的老生常談的話題 ——“讓 AI 負(fù)責(zé)生成,讓藝術(shù)家或設(shè)計(jì)師來負(fù)責(zé)審美抱虐,這兩個(gè)并不矛盾昌阿,是一個(gè)相輔相成的關(guān)系。也不存在誰取代誰,有了 AI 繪畫的輔助懦冰,藝術(shù)家會(huì)發(fā)揮出更大的能力灶轰,甚至說一些不是非常專業(yè)的藝術(shù)家,一些普通人借助 AIGC刷钢,也有可能創(chuàng)造出非常驚艷的藝術(shù)品” 李笛表示笋颤。
采訪嘉賓:(按拼音首字母排序)
百度 ERNIE-ViLG 團(tuán)隊(duì)
黃民烈,清華大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系長聘副教授内地、博導(dǎo)伴澄,聆心智能創(chuàng)始人。
李笛阱缓,小冰公司 CEO
林詠華秉版,北京智源人工智能研究院總工程師
趙德麗,阿里達(dá)摩院基礎(chǔ)視覺負(fù)責(zé)人