1. 虛擬數(shù)字人概念解析
虛擬數(shù)字人它是由三個(gè)部分組成:虛擬炭序、數(shù)字怠蹂、人。
- 虛擬:存在于非物理世界少态,多模態(tài)存在于各種介質(zhì)城侧;
- 數(shù)字:數(shù)字化,可復(fù)制多個(gè)分身彼妻,多技術(shù)綜合體嫌佑;
- 人:具備擬人化的外表和行為交互的能力豆茫。
具體說明如下:
- 虛擬: 通常是指它是存在于非物理世界,可以是多模態(tài)的存在于各種介質(zhì)上屋摇,包括視頻揩魂、圖片,還有目前比較流行的VR炮温、 AR 等這些多種媒體的載體上火脉,它不是存在于真實(shí)的物理世界的,它是以一種虛擬的形態(tài)來存在的柒啤。
- 數(shù)字: 數(shù)字指的是可以數(shù)字化倦挂,通常是指它可以復(fù)制多個(gè)分身,它是多種技術(shù)綜合而成的一類的技術(shù)担巩。目前所主流的虛擬數(shù)字人通常都是由 CG 建模方援,然后 CV 的生成,然后加上 NLP 涛癌、語音合成犯戏,以及一些知識(shí)圖譜等技術(shù),來驅(qū)動(dòng)它生成一個(gè)數(shù)字人的形象拳话。
- 人: 通常講的虛擬數(shù)字人是指那種偏擬人化的審美的外表先匪。它還有類似于人的行為交互。
2. 制作虛擬數(shù)字人的通用架構(gòu)
根據(jù)中國(guó)人工智能產(chǎn)業(yè)發(fā)展聯(lián)盟發(fā)布的《2020年虛擬數(shù)字人發(fā)展白皮書》中指出弃衍,虛擬數(shù)字人指具有數(shù)字化外形的虛擬人物呀非,除了擁有人的外觀、行為之外笨鸡,還擁有人的思想姜钳,具有識(shí)別外界環(huán)境、并能與人交流互動(dòng)的能力形耗。當(dāng)前在業(yè)界內(nèi)對(duì)數(shù)字人形成一些共識(shí):即下圖中虛擬數(shù)字人的通用系統(tǒng)架構(gòu)哥桥,大概用這五個(gè)方面來總結(jié):人物形象、語音生成模塊激涤、動(dòng)畫生成模塊拟糕、音視頻合成顯示模塊、交互模塊倦踢。
交互模塊是可以存在也可以不存在的送滞。 因?yàn)橛幸环N虛擬人是單方面的輸出(視頻類鲸阻、海報(bào)類)躺坟,不存在跟人之間交互,但是其他的幾維基本上是具備的缔赠,所以一個(gè)通用的虛擬數(shù)字人晤碘,一般會(huì)依賴這樣的一個(gè)系統(tǒng)的架構(gòu)來產(chǎn)生褂微。
3. 虛擬數(shù)字人所依賴的通用技術(shù)
- CG建模:體現(xiàn)為虛擬數(shù)字人外觀和擬人程度功蜓,當(dāng)前主流的數(shù)字人模型格式為:3D、2D宠蚂、卡通式撼、動(dòng)漫、高保真等求厕。
- NLP技術(shù):核心體現(xiàn)的是對(duì)話能力著隆,通常包括文本對(duì)話,語音 AI 助手等等呀癣,這個(gè)模塊通趁榔郑可以視為虛擬數(shù)字人的大腦。
- CV技術(shù):體驗(yàn)在數(shù)字人的渲染顯示十艾,該部分受數(shù)據(jù)量抵代、計(jì)算框架腾节、關(guān)鍵特增點(diǎn)等因素影響忘嫉,能否呈現(xiàn)自然的面部表情驅(qū)動(dòng)、肢體動(dòng)作等案腺。
虛擬數(shù)字人角色分類
寫實(shí)/超寫實(shí)類角色虛擬人庆冕,比如:AYAYI、翎ling劈榨、柳夜熙等访递;
二次元角色虛擬人,比如洛天依同辣、七海拷姿、星瞳等;
卡通/吉祥物角色虛擬人旱函,比如海爾兄弟响巢、京東狗、蘇格拉寧等棒妨。
虛擬數(shù)字人的驅(qū)動(dòng)技術(shù)分類
- 動(dòng)捕型驅(qū)動(dòng):原理是真人根據(jù)攝像頭傳來的用戶視頻踪古,與用戶實(shí)時(shí)語音,同時(shí)通過動(dòng)作捕捉采集系統(tǒng)將真人的表情券腔、動(dòng)作呈現(xiàn)在虛擬數(shù)字人形象上伏穆,從而與用戶進(jìn)行交互。它生成的往往是一個(gè)靜態(tài)模型纷纫,在綁定關(guān)鍵點(diǎn)之后枕扫,需要借助真人通過動(dòng)作捕捉設(shè)備進(jìn)行形體、眼神辱魁、動(dòng)作等的捕捉烟瞧,然后才能進(jìn)行驅(qū)動(dòng)和渲染偷厦。
- 特點(diǎn):需真人進(jìn)行驅(qū)動(dòng),在動(dòng)作靈活度燕刻、互動(dòng)效果等方面有明顯優(yōu)勢(shì)只泼。
- 技術(shù)流程:原畫設(shè)計(jì);建模+骨骼綁定卵洗;動(dòng)捕設(shè)備或攝像頭將基于真人的動(dòng)作/表情等驅(qū)動(dòng)虛擬數(shù)字人请唱;實(shí)時(shí)渲染-完成內(nèi)容錄制或者現(xiàn)場(chǎng)互動(dòng);
- 技術(shù)突破:動(dòng)作捕捉環(huán)節(jié)过蹂,隨著圖像識(shí)別技術(shù)十绑,姿勢(shì)、表情等識(shí)別算法的進(jìn)步酷勺,昂貴的慣性或光學(xué)動(dòng)捕設(shè)備不再是驅(qū)動(dòng)的必備工具本橙。
- 使用場(chǎng)景:降低影視行業(yè)門檻,推動(dòng)消費(fèi)及轉(zhuǎn)化脆诉,虛擬偶像甚亭、大型直播等。
動(dòng)捕型驅(qū)動(dòng)示例如下:
- AI型驅(qū)動(dòng):原理是通過智能系統(tǒng)自動(dòng)讀取并解析識(shí)別外界輸入信息击胜,根據(jù)解析結(jié)果決策虛擬數(shù)字人后續(xù)的輸出信息亏狰,然后驅(qū)動(dòng)人物模型生成相應(yīng)的語音與動(dòng)作來使虛擬數(shù)字人跟用戶互動(dòng)。該人物模型是預(yù)先通過AI技術(shù)訓(xùn)練得到的偶摔,可通過文本驅(qū)動(dòng)生成語音和對(duì)應(yīng)動(dòng)畫暇唾。它是基于深度學(xué)習(xí)模型的三維場(chǎng)景表達(dá)和對(duì)應(yīng)的神經(jīng)渲染管線,可以自驅(qū)動(dòng)學(xué)習(xí)模特說話時(shí)的唇動(dòng)辰斋、表情策州、語音以及姿態(tài)和動(dòng)作等。
- 特點(diǎn):語音宫仗、表情够挂、動(dòng)作主要通過深度學(xué)習(xí)實(shí)時(shí)或離線生成驅(qū)動(dòng)。
- 技術(shù)流程:設(shè)計(jì)形象或?qū)φ嫒诵蜗筮M(jìn)行打點(diǎn)掃描锰什,采集模型信息下硕;建模+骨骼綁定;訓(xùn)練各類驅(qū)動(dòng)的深度模型汁胆,學(xué)習(xí)角色的語音梭姓、唇形、表情參數(shù)間的潛在映射關(guān)系嫩码;內(nèi)容制作誉尖,基于輸入的語音(或由輸入文本轉(zhuǎn)化的語音),預(yù)測(cè)唇動(dòng)铸题、表情等參數(shù)铡恕,推理圖片并與時(shí)間戳結(jié)合琢感;渲染并生成內(nèi)容。
- 技術(shù)突破:語音合成(語音表述在韻律探熔、情感驹针、流暢度等方面是否符合真人發(fā)聲的習(xí)慣)、NLP技術(shù)(與使用者的語言交互是否順暢诀艰、是否能夠理解使用者需求)柬甥、語音識(shí)別(能否準(zhǔn)確識(shí)別使用者需求)
- 使用場(chǎng)景:虛擬人視頻內(nèi)容生成,虛擬客服其垄,虛擬助手等苛蒲。
AI型驅(qū)動(dòng)示例如下:
虛擬數(shù)字人主流動(dòng)捕技術(shù)介紹
- 光學(xué)動(dòng)捕
- 概念:光學(xué)動(dòng)作捕捉技術(shù)就是在人的身體上進(jìn)行標(biāo)記,標(biāo)記點(diǎn)的會(huì)反射到架設(shè)好的攝像機(jī)绿满,通過反射的不同位置的成像信息臂外,可以進(jìn)行測(cè)算出標(biāo)記點(diǎn)的空間運(yùn)動(dòng)信息,進(jìn)而將這些信息進(jìn)行定位或輸出實(shí)現(xiàn)不同行業(yè)的實(shí)際應(yīng)用喇颁。
- 優(yōu)點(diǎn):1. 動(dòng)捕精度高漏健; 2. 保真程度高。
- 缺點(diǎn):1. 技術(shù)復(fù)雜度和拍攝要求高 无牵;2. 造價(jià)成本高 漾肮;3. 應(yīng)用范圍小厂抖。
- 慣性動(dòng)捕
- 概念:慣性動(dòng)作捕捉技術(shù)是在人的身上佩戴陀螺儀茎毁,人運(yùn)動(dòng)的過程陀螺儀會(huì)進(jìn)行旋轉(zhuǎn),通過感知陀螺儀的旋轉(zhuǎn)信息來推算出人的動(dòng)作行為實(shí)現(xiàn)動(dòng)作捕捉忱辅。
- 優(yōu)點(diǎn):1. 價(jià)格相對(duì)較低七蜘;2. 不依賴場(chǎng)地環(huán)境。
- 缺點(diǎn):1. 動(dòng)捕精度低墙懂; 2. 穩(wěn)定性低橡卤,容易發(fā)生位置漂移。
- AI視覺捕捉
- 概念:AI視覺捕捉不需要進(jìn)行標(biāo)記和佩戴损搬,只需要在人的活動(dòng)范圍內(nèi)通過普通的攝像頭進(jìn)行動(dòng)作的錄制實(shí)現(xiàn)人體關(guān)鍵點(diǎn)信息的識(shí)別進(jìn)而采用特殊的算法來實(shí)現(xiàn)動(dòng)作捕捉碧库。該項(xiàng)技術(shù)對(duì)硬件幾乎沒有特殊的要求,更多的優(yōu)勢(shì)在算法上巧勤。
- 優(yōu)點(diǎn):1. 簡(jiǎn)單上手嵌灰; 2. 成本較低。
- 缺點(diǎn):1. 動(dòng)捕精度低颅悉; 2. 自由度較低 沽瞭;3. 視野固定。
實(shí)用上手簡(jiǎn)易程度:AI視覺動(dòng)捕 > 慣性動(dòng)捕 > 光學(xué)動(dòng)捕
保真程度和穩(wěn)定性:光學(xué)動(dòng)捕 > 慣性動(dòng)捕 > AI視覺動(dòng)捕
造價(jià)成本:光學(xué)動(dòng)捕 > 慣性動(dòng)捕 > AI視覺動(dòng)捕
4. 虛擬數(shù)字人的變現(xiàn)途徑分析
虛擬數(shù)字人目前市面上出現(xiàn)的變現(xiàn)途徑大致有三種:
- 第一種是幫助企業(yè)建立虛擬數(shù)字人剩瓶,為他們營(yíng)銷代言驹溃,由企業(yè)買單城丧。目前的合作形式包括定制、IP 授權(quán)和代運(yùn)營(yíng)豌鹤。經(jīng)網(wǎng)上數(shù)據(jù)搜集亡哄,現(xiàn)在市面上的價(jià)格都不太一樣,定制 Q 版大概在十幾萬布疙,而定制超寫實(shí)則可能需要上百萬磺平。IP 授權(quán)指的是與頭部虛擬人 IP 做 KV 合作和短視頻軟植入,收費(fèi)視具體情況而定拐辽,與粉絲的關(guān)系很大拣挪。
- 第二種向企業(yè)直接售賣直播工具,類似于 SaaS 服務(wù)俱诸。它的難點(diǎn)在于打通集成內(nèi)部的技術(shù)菠劝,以及積累的技術(shù)和樣本是否足夠多樣。當(dāng)實(shí)現(xiàn) SaaS 化后睁搭,企業(yè)品牌能夠用 SaaS 平臺(tái)建立數(shù)字人赶诊,操作系統(tǒng)簡(jiǎn)單,成本大幅度降低园骆。從市面上的報(bào)價(jià)來看舔痪,月費(fèi)在幾百元到幾千元區(qū)間不等。
- 第三種是 UGC 類的創(chuàng)作者經(jīng)濟(jì)锌唾,讓用戶參與到創(chuàng)作當(dāng)中與廠商利潤(rùn)共享锄码。數(shù)字人賽道的發(fā)展需要大量用戶進(jìn)入承擔(dān)不同的角色,不光是因?yàn)閿?shù)字人的創(chuàng)作者和服務(wù)對(duì)象都是人晌涕,還因?yàn)樵谖磥碓钪娴倪h(yuǎn)景當(dāng)中將出現(xiàn)更多數(shù)字人+數(shù)字空間的營(yíng)銷打法滋捶,以及更宏大的敘事,勢(shì)必會(huì)產(chǎn)生大量的內(nèi)容需求余黎。只有更多人共同建立生態(tài)重窟,才能讓平臺(tái)具有更強(qiáng)的生命力和想象空間。
在當(dāng)前很多企業(yè)的的變現(xiàn)思路中惧财,打造一個(gè)近乎完美的 IP 人設(shè)只是第一步巡扇,未來終將走向 SaaS 標(biāo)準(zhǔn)化和 UGC 規(guī)模化垮衷,但是中間過程是需要投入專業(yè)團(tuán)隊(duì)和技術(shù)人才進(jìn)行打造厅翔,尤其對(duì)于之前沒有數(shù)字人周邊產(chǎn)品和技術(shù)積累的公司,更是一個(gè)不小的挑戰(zhàn)帘靡。
5. 虛擬數(shù)字人當(dāng)前主流的SaaS平臺(tái)架構(gòu)
下圖是常見的按層劃分的虛擬數(shù)字人平臺(tái)架構(gòu)設(shè)計(jì)知给。從下往上依次是:服務(wù)層、協(xié)議層、化身層涩赢、應(yīng)用層戈次。
其中服務(wù)層涉及一些底層技術(shù)框架,需搭建“AI能力支撐平臺(tái)”來承載所有功能筒扒,應(yīng)包括:語音識(shí)別怯邪、語音驅(qū)動(dòng)、文本驅(qū)動(dòng)花墩、語音轉(zhuǎn)化悬秉、手勢(shì)驅(qū)動(dòng)、圖像驅(qū)動(dòng)冰蘑、聲紋復(fù)刻和泌、人臉識(shí)別、動(dòng)作捕捉祠肥、OCR識(shí)別武氓、知識(shí)圖譜、智能推薦等能力仇箱;除技術(shù)能力外县恕,服務(wù)層還應(yīng)包含運(yùn)營(yíng)使用配置功能;
協(xié)議層包含語音交互協(xié)議剂桥、口型驅(qū)動(dòng)協(xié)議忠烛、表情驅(qū)動(dòng)協(xié)議、動(dòng)作驅(qū)動(dòng)協(xié)議权逗,作用是與服務(wù)層和化身層進(jìn)行對(duì)接美尸,將服務(wù)層獲取到的信息進(jìn)行運(yùn)算處理來傳遞給化身層,以便于模型的控制旬迹。
化身層包含對(duì)數(shù)字人資產(chǎn)的管理火惊,需搭建“角色資源平臺(tái)”來進(jìn)行管理,包含:3D/2D角色庫(kù)奔垦、角色配飾庫(kù)、動(dòng)作/表情庫(kù)尸疆、特效庫(kù)椿猎、背景環(huán)境庫(kù)、模板管理寿弱、音視頻頻管理等犯眠。
應(yīng)用層又稱為應(yīng)用場(chǎng)景層,該層平臺(tái)會(huì)打包成不同平臺(tái)SDK供應(yīng)用集成症革,應(yīng)包含:PC筐咧、Web、iOS、Android等量蕊。