Metaverse-虛擬數(shù)字人技術(shù)篇

1. 虛擬數(shù)字人概念解析

虛擬數(shù)字人它是由三個(gè)部分組成:虛擬炭序、數(shù)字怠蹂、人。
  • 虛擬:存在于非物理世界少态,多模態(tài)存在于各種介質(zhì)城侧;
  • 數(shù)字:數(shù)字化,可復(fù)制多個(gè)分身彼妻,多技術(shù)綜合體嫌佑;
  • 人:具備擬人化的外表和行為交互的能力豆茫。

具體說明如下:

  1. 虛擬: 通常是指它是存在于非物理世界,可以是多模態(tài)的存在于各種介質(zhì)上屋摇,包括視頻揩魂、圖片,還有目前比較流行的VR炮温、 AR 等這些多種媒體的載體上火脉,它不是存在于真實(shí)的物理世界的,它是以一種虛擬的形態(tài)來存在的柒啤。
  2. 數(shù)字: 數(shù)字指的是可以數(shù)字化倦挂,通常是指它可以復(fù)制多個(gè)分身,它是多種技術(shù)綜合而成的一類的技術(shù)担巩。目前所主流的虛擬數(shù)字人通常都是由 CG 建模方援,然后 CV 的生成,然后加上 NLP 涛癌、語音合成犯戏,以及一些知識(shí)圖譜等技術(shù),來驅(qū)動(dòng)它生成一個(gè)數(shù)字人的形象拳话。
  3. 人: 通常講的虛擬數(shù)字人是指那種偏擬人化的審美的外表先匪。它還有類似于人的行為交互。
虛擬數(shù)字人效果.png

2. 制作虛擬數(shù)字人的通用架構(gòu)

根據(jù)中國(guó)人工智能產(chǎn)業(yè)發(fā)展聯(lián)盟發(fā)布的《2020年虛擬數(shù)字人發(fā)展白皮書》中指出弃衍,虛擬數(shù)字人指具有數(shù)字化外形的虛擬人物呀非,除了擁有人的外觀、行為之外笨鸡,還擁有人的思想姜钳,具有識(shí)別外界環(huán)境、并能與人交流互動(dòng)的能力形耗。當(dāng)前在業(yè)界內(nèi)對(duì)數(shù)字人形成一些共識(shí):即下圖中虛擬數(shù)字人的通用系統(tǒng)架構(gòu)哥桥,大概用這五個(gè)方面來總結(jié):人物形象、語音生成模塊激涤、動(dòng)畫生成模塊拟糕、音視頻合成顯示模塊、交互模塊倦踢。

交互模塊是可以存在也可以不存在的送滞。 因?yàn)橛幸环N虛擬人是單方面的輸出(視頻類鲸阻、海報(bào)類)躺坟,不存在跟人之間交互,但是其他的幾維基本上是具備的缔赠,所以一個(gè)通用的虛擬數(shù)字人晤碘,一般會(huì)依賴這樣的一個(gè)系統(tǒng)的架構(gòu)來產(chǎn)生褂微。


數(shù)字人制作通用結(jié)構(gòu).png(圖片來源于網(wǎng)絡(luò))

3. 虛擬數(shù)字人所依賴的通用技術(shù)

  1. CG建模:體現(xiàn)為虛擬數(shù)字人外觀和擬人程度功蜓,當(dāng)前主流的數(shù)字人模型格式為:3D、2D宠蚂、卡通式撼、動(dòng)漫、高保真等求厕。
  2. NLP技術(shù):核心體現(xiàn)的是對(duì)話能力著隆,通常包括文本對(duì)話,語音 AI 助手等等呀癣,這個(gè)模塊通趁榔郑可以視為虛擬數(shù)字人的大腦。
  3. CV技術(shù):體驗(yàn)在數(shù)字人的渲染顯示十艾,該部分受數(shù)據(jù)量抵代、計(jì)算框架腾节、關(guān)鍵特增點(diǎn)等因素影響忘嫉,能否呈現(xiàn)自然的面部表情驅(qū)動(dòng)、肢體動(dòng)作等案腺。
虛擬數(shù)字人角色分類
  1. 寫實(shí)/超寫實(shí)類角色虛擬人庆冕,比如:AYAYI、翎ling劈榨、柳夜熙等访递;


    超寫實(shí)數(shù)字人.png
  1. 二次元角色虛擬人,比如洛天依同辣、七海拷姿、星瞳等;


    二次元數(shù)字人.png
  1. 卡通/吉祥物角色虛擬人旱函,比如海爾兄弟响巢、京東狗、蘇格拉寧等棒妨。


    卡通數(shù)字人.png
虛擬數(shù)字人的驅(qū)動(dòng)技術(shù)分類
  1. 動(dòng)捕型驅(qū)動(dòng):原理是真人根據(jù)攝像頭傳來的用戶視頻踪古,與用戶實(shí)時(shí)語音,同時(shí)通過動(dòng)作捕捉采集系統(tǒng)將真人的表情券腔、動(dòng)作呈現(xiàn)在虛擬數(shù)字人形象上伏穆,從而與用戶進(jìn)行交互。它生成的往往是一個(gè)靜態(tài)模型纷纫,在綁定關(guān)鍵點(diǎn)之后枕扫,需要借助真人通過動(dòng)作捕捉設(shè)備進(jìn)行形體、眼神辱魁、動(dòng)作等的捕捉烟瞧,然后才能進(jìn)行驅(qū)動(dòng)和渲染偷厦。
  • 特點(diǎn):需真人進(jìn)行驅(qū)動(dòng),在動(dòng)作靈活度燕刻、互動(dòng)效果等方面有明顯優(yōu)勢(shì)只泼。
  • 技術(shù)流程:原畫設(shè)計(jì);建模+骨骼綁定卵洗;動(dòng)捕設(shè)備或攝像頭將基于真人的動(dòng)作/表情等驅(qū)動(dòng)虛擬數(shù)字人请唱;實(shí)時(shí)渲染-完成內(nèi)容錄制或者現(xiàn)場(chǎng)互動(dòng);
  • 技術(shù)突破:動(dòng)作捕捉環(huán)節(jié)过蹂,隨著圖像識(shí)別技術(shù)十绑,姿勢(shì)、表情等識(shí)別算法的進(jìn)步酷勺,昂貴的慣性或光學(xué)動(dòng)捕設(shè)備不再是驅(qū)動(dòng)的必備工具本橙。
  • 使用場(chǎng)景:降低影視行業(yè)門檻,推動(dòng)消費(fèi)及轉(zhuǎn)化脆诉,虛擬偶像甚亭、大型直播等。
  • 動(dòng)捕型驅(qū)動(dòng)示例如下:


    動(dòng)作捕捉驅(qū)動(dòng).gif
  1. AI型驅(qū)動(dòng):原理是通過智能系統(tǒng)自動(dòng)讀取并解析識(shí)別外界輸入信息击胜,根據(jù)解析結(jié)果決策虛擬數(shù)字人后續(xù)的輸出信息亏狰,然后驅(qū)動(dòng)人物模型生成相應(yīng)的語音與動(dòng)作來使虛擬數(shù)字人跟用戶互動(dòng)。該人物模型是預(yù)先通過AI技術(shù)訓(xùn)練得到的偶摔,可通過文本驅(qū)動(dòng)生成語音和對(duì)應(yīng)動(dòng)畫暇唾。它是基于深度學(xué)習(xí)模型的三維場(chǎng)景表達(dá)和對(duì)應(yīng)的神經(jīng)渲染管線,可以自驅(qū)動(dòng)學(xué)習(xí)模特說話時(shí)的唇動(dòng)辰斋、表情策州、語音以及姿態(tài)和動(dòng)作等。
  • 特點(diǎn):語音宫仗、表情够挂、動(dòng)作主要通過深度學(xué)習(xí)實(shí)時(shí)或離線生成驅(qū)動(dòng)。
  • 技術(shù)流程:設(shè)計(jì)形象或?qū)φ嫒诵蜗筮M(jìn)行打點(diǎn)掃描锰什,采集模型信息下硕;建模+骨骼綁定;訓(xùn)練各類驅(qū)動(dòng)的深度模型汁胆,學(xué)習(xí)角色的語音梭姓、唇形、表情參數(shù)間的潛在映射關(guān)系嫩码;內(nèi)容制作誉尖,基于輸入的語音(或由輸入文本轉(zhuǎn)化的語音),預(yù)測(cè)唇動(dòng)铸题、表情等參數(shù)铡恕,推理圖片并與時(shí)間戳結(jié)合琢感;渲染并生成內(nèi)容。
  • 技術(shù)突破:語音合成(語音表述在韻律探熔、情感驹针、流暢度等方面是否符合真人發(fā)聲的習(xí)慣)、NLP技術(shù)(與使用者的語言交互是否順暢诀艰、是否能夠理解使用者需求)柬甥、語音識(shí)別(能否準(zhǔn)確識(shí)別使用者需求)
  • 使用場(chǎng)景:虛擬人視頻內(nèi)容生成,虛擬客服其垄,虛擬助手等苛蒲。
  • AI型驅(qū)動(dòng)示例如下:


    AI型驅(qū)動(dòng).gif
虛擬數(shù)字人主流動(dòng)捕技術(shù)介紹
  1. 光學(xué)動(dòng)捕
  • 概念:光學(xué)動(dòng)作捕捉技術(shù)就是在人的身體上進(jìn)行標(biāo)記,標(biāo)記點(diǎn)的會(huì)反射到架設(shè)好的攝像機(jī)绿满,通過反射的不同位置的成像信息臂外,可以進(jìn)行測(cè)算出標(biāo)記點(diǎn)的空間運(yùn)動(dòng)信息,進(jìn)而將這些信息進(jìn)行定位或輸出實(shí)現(xiàn)不同行業(yè)的實(shí)際應(yīng)用喇颁。
  • 優(yōu)點(diǎn):1. 動(dòng)捕精度高漏健; 2. 保真程度高。
  • 缺點(diǎn):1. 技術(shù)復(fù)雜度和拍攝要求高 无牵;2. 造價(jià)成本高 漾肮;3. 應(yīng)用范圍小厂抖。
  1. 慣性動(dòng)捕
  • 概念:慣性動(dòng)作捕捉技術(shù)是在人的身上佩戴陀螺儀茎毁,人運(yùn)動(dòng)的過程陀螺儀會(huì)進(jìn)行旋轉(zhuǎn),通過感知陀螺儀的旋轉(zhuǎn)信息來推算出人的動(dòng)作行為實(shí)現(xiàn)動(dòng)作捕捉忱辅。
  • 優(yōu)點(diǎn):1. 價(jià)格相對(duì)較低七蜘;2. 不依賴場(chǎng)地環(huán)境。
  • 缺點(diǎn):1. 動(dòng)捕精度低墙懂; 2. 穩(wěn)定性低橡卤,容易發(fā)生位置漂移。
  1. AI視覺捕捉
  • 概念:AI視覺捕捉不需要進(jìn)行標(biāo)記和佩戴损搬,只需要在人的活動(dòng)范圍內(nèi)通過普通的攝像頭進(jìn)行動(dòng)作的錄制實(shí)現(xiàn)人體關(guān)鍵點(diǎn)信息的識(shí)別進(jìn)而采用特殊的算法來實(shí)現(xiàn)動(dòng)作捕捉碧库。該項(xiàng)技術(shù)對(duì)硬件幾乎沒有特殊的要求,更多的優(yōu)勢(shì)在算法上巧勤。
  • 優(yōu)點(diǎn):1. 簡(jiǎn)單上手嵌灰; 2. 成本較低。
  • 缺點(diǎn):1. 動(dòng)捕精度低颅悉; 2. 自由度較低 沽瞭;3. 視野固定。

實(shí)用上手簡(jiǎn)易程度:AI視覺動(dòng)捕 > 慣性動(dòng)捕 > 光學(xué)動(dòng)捕
保真程度和穩(wěn)定性:光學(xué)動(dòng)捕 > 慣性動(dòng)捕 > AI視覺動(dòng)捕
造價(jià)成本:光學(xué)動(dòng)捕 > 慣性動(dòng)捕 > AI視覺動(dòng)捕

4. 虛擬數(shù)字人的變現(xiàn)途徑分析

虛擬數(shù)字人目前市面上出現(xiàn)的變現(xiàn)途徑大致有三種:
  1. 第一種是幫助企業(yè)建立虛擬數(shù)字人剩瓶,為他們營(yíng)銷代言驹溃,由企業(yè)買單城丧。目前的合作形式包括定制、IP 授權(quán)和代運(yùn)營(yíng)豌鹤。經(jīng)網(wǎng)上數(shù)據(jù)搜集亡哄,現(xiàn)在市面上的價(jià)格都不太一樣,定制 Q 版大概在十幾萬布疙,而定制超寫實(shí)則可能需要上百萬磺平。IP 授權(quán)指的是與頭部虛擬人 IP 做 KV 合作和短視頻軟植入,收費(fèi)視具體情況而定拐辽,與粉絲的關(guān)系很大拣挪。
  2. 第二種向企業(yè)直接售賣直播工具,類似于 SaaS 服務(wù)俱诸。它的難點(diǎn)在于打通集成內(nèi)部的技術(shù)菠劝,以及積累的技術(shù)和樣本是否足夠多樣。當(dāng)實(shí)現(xiàn) SaaS 化后睁搭,企業(yè)品牌能夠用 SaaS 平臺(tái)建立數(shù)字人赶诊,操作系統(tǒng)簡(jiǎn)單,成本大幅度降低园骆。從市面上的報(bào)價(jià)來看舔痪,月費(fèi)在幾百元到幾千元區(qū)間不等。
  3. 第三種是 UGC 類的創(chuàng)作者經(jīng)濟(jì)锌唾,讓用戶參與到創(chuàng)作當(dāng)中與廠商利潤(rùn)共享锄码。數(shù)字人賽道的發(fā)展需要大量用戶進(jìn)入承擔(dān)不同的角色,不光是因?yàn)閿?shù)字人的創(chuàng)作者和服務(wù)對(duì)象都是人晌涕,還因?yàn)樵谖磥碓钪娴倪h(yuǎn)景當(dāng)中將出現(xiàn)更多數(shù)字人+數(shù)字空間的營(yíng)銷打法滋捶,以及更宏大的敘事,勢(shì)必會(huì)產(chǎn)生大量的內(nèi)容需求余黎。只有更多人共同建立生態(tài)重窟,才能讓平臺(tái)具有更強(qiáng)的生命力和想象空間。

在當(dāng)前很多企業(yè)的的變現(xiàn)思路中惧财,打造一個(gè)近乎完美的 IP 人設(shè)只是第一步巡扇,未來終將走向 SaaS 標(biāo)準(zhǔn)化和 UGC 規(guī)模化垮衷,但是中間過程是需要投入專業(yè)團(tuán)隊(duì)和技術(shù)人才進(jìn)行打造厅翔,尤其對(duì)于之前沒有數(shù)字人周邊產(chǎn)品和技術(shù)積累的公司,更是一個(gè)不小的挑戰(zhàn)帘靡。

5. 虛擬數(shù)字人當(dāng)前主流的SaaS平臺(tái)架構(gòu)

下圖是常見的按層劃分的虛擬數(shù)字人平臺(tái)架構(gòu)設(shè)計(jì)知给。從下往上依次是:服務(wù)層、協(xié)議層、化身層涩赢、應(yīng)用層戈次。
常見的虛擬數(shù)字人一站式平臺(tái)框架(圖片來源于網(wǎng)絡(luò))

其中服務(wù)層涉及一些底層技術(shù)框架,需搭建“AI能力支撐平臺(tái)”來承載所有功能筒扒,應(yīng)包括:語音識(shí)別怯邪、語音驅(qū)動(dòng)、文本驅(qū)動(dòng)花墩、語音轉(zhuǎn)化悬秉、手勢(shì)驅(qū)動(dòng)、圖像驅(qū)動(dòng)冰蘑、聲紋復(fù)刻和泌、人臉識(shí)別、動(dòng)作捕捉祠肥、OCR識(shí)別武氓、知識(shí)圖譜、智能推薦等能力仇箱;除技術(shù)能力外县恕,服務(wù)層還應(yīng)包含運(yùn)營(yíng)使用配置功能;

協(xié)議層包含語音交互協(xié)議剂桥、口型驅(qū)動(dòng)協(xié)議忠烛、表情驅(qū)動(dòng)協(xié)議、動(dòng)作驅(qū)動(dòng)協(xié)議权逗,作用是與服務(wù)層和化身層進(jìn)行對(duì)接美尸,將服務(wù)層獲取到的信息進(jìn)行運(yùn)算處理來傳遞給化身層,以便于模型的控制旬迹。

化身層包含對(duì)數(shù)字人資產(chǎn)的管理火惊,需搭建“角色資源平臺(tái)”來進(jìn)行管理,包含:3D/2D角色庫(kù)奔垦、角色配飾庫(kù)、動(dòng)作/表情庫(kù)尸疆、特效庫(kù)椿猎、背景環(huán)境庫(kù)、模板管理寿弱、音視頻頻管理等犯眠。

應(yīng)用層又稱為應(yīng)用場(chǎng)景層,該層平臺(tái)會(huì)打包成不同平臺(tái)SDK供應(yīng)用集成症革,應(yīng)包含:PC筐咧、Web、iOS、Android等量蕊。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末铺罢,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子残炮,更是在濱河造成了極大的恐慌韭赘,老刑警劉巖,帶你破解...
    沈念sama閱讀 217,509評(píng)論 6 504
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件势就,死亡現(xiàn)場(chǎng)離奇詭異泉瞻,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)苞冯,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,806評(píng)論 3 394
  • 文/潘曉璐 我一進(jìn)店門袖牙,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人舅锄,你說我怎么就攤上這事贼陶。” “怎么了巧娱?”我有些...
    開封第一講書人閱讀 163,875評(píng)論 0 354
  • 文/不壞的土叔 我叫張陵碉怔,是天一觀的道長(zhǎng)。 經(jīng)常有香客問我禁添,道長(zhǎng)撮胧,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,441評(píng)論 1 293
  • 正文 為了忘掉前任老翘,我火速辦了婚禮芹啥,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘铺峭。我一直安慰自己墓怀,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,488評(píng)論 6 392
  • 文/花漫 我一把揭開白布卫键。 她就那樣靜靜地躺著傀履,像睡著了一般。 火紅的嫁衣襯著肌膚如雪莉炉。 梳的紋絲不亂的頭發(fā)上钓账,一...
    開封第一講書人閱讀 51,365評(píng)論 1 302
  • 那天,我揣著相機(jī)與錄音絮宁,去河邊找鬼梆暮。 笑死,一個(gè)胖子當(dāng)著我的面吹牛绍昂,可吹牛的內(nèi)容都是我干的啦粹。 我是一名探鬼主播偿荷,決...
    沈念sama閱讀 40,190評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼唠椭!你這毒婦竟也來了跳纳?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,062評(píng)論 0 276
  • 序言:老撾萬榮一對(duì)情侶失蹤泪蔫,失蹤者是張志新(化名)和其女友劉穎棒旗,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體撩荣,經(jīng)...
    沈念sama閱讀 45,500評(píng)論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡铣揉,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,706評(píng)論 3 335
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了餐曹。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片逛拱。...
    茶點(diǎn)故事閱讀 39,834評(píng)論 1 347
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖台猴,靈堂內(nèi)的尸體忽然破棺而出朽合,到底是詐尸還是另有隱情,我是刑警寧澤饱狂,帶...
    沈念sama閱讀 35,559評(píng)論 5 345
  • 正文 年R本政府宣布曹步,位于F島的核電站,受9級(jí)特大地震影響休讳,放射性物質(zhì)發(fā)生泄漏讲婚。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,167評(píng)論 3 328
  • 文/蒙蒙 一俊柔、第九天 我趴在偏房一處隱蔽的房頂上張望筹麸。 院中可真熱鬧,春花似錦雏婶、人聲如沸物赶。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,779評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽酵紫。三九已至,卻和暖如春倔丈,著一層夾襖步出監(jiān)牢的瞬間憨闰,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 32,912評(píng)論 1 269
  • 我被黑心中介騙來泰國(guó)打工需五, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人轧坎。 一個(gè)月前我還...
    沈念sama閱讀 47,958評(píng)論 2 370
  • 正文 我出身青樓宏邮,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子蜜氨,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,779評(píng)論 2 354

推薦閱讀更多精彩內(nèi)容