Metaverse-虛擬數(shù)字人技術(shù)篇

1. 虛擬數(shù)字人概念解析

虛擬數(shù)字人它是由三個(gè)部分組成：虛擬炭序、數(shù)字怠蹂、人。

虛擬：存在于非物理世界少态，多模態(tài)存在于各種介質(zhì)城侧；
數(shù)字：數(shù)字化，可復(fù)制多個(gè)分身彼妻，多技術(shù)綜合體嫌佑；
人：具備擬人化的外表和行為交互的能力豆茫。

具體說明如下：

虛擬：通常是指它是存在于非物理世界，可以是多模態(tài)的存在于各種介質(zhì)上屋摇，包括視頻揩魂、圖片，還有目前比較流行的VR炮温、 AR 等這些多種媒體的載體上火脉，它不是存在于真實(shí)的物理世界的，它是以一種虛擬的形態(tài)來存在的柒啤。

數(shù)字：數(shù)字指的是可以數(shù)字化倦挂，通常是指它可以復(fù)制多個(gè)分身，它是多種技術(shù)綜合而成的一類的技術(shù)担巩。目前所主流的虛擬數(shù)字人通常都是由 CG 建模方援，然后 CV 的生成，然后加上 NLP 涛癌、語音合成犯戏，以及一些知識(shí)圖譜等技術(shù)，來驅(qū)動(dòng)它生成一個(gè)數(shù)字人的形象拳话。

人：通常講的虛擬數(shù)字人是指那種偏擬人化的審美的外表先匪。它還有類似于人的行為交互。

虛擬數(shù)字人效果.png

2. 制作虛擬數(shù)字人的通用架構(gòu)

根據(jù)中國(guó)人工智能產(chǎn)業(yè)發(fā)展聯(lián)盟發(fā)布的《2020年虛擬數(shù)字人發(fā)展白皮書》中指出弃衍，虛擬數(shù)字人指具有數(shù)字化外形的虛擬人物呀非，除了擁有人的外觀、行為之外笨鸡，還擁有人的思想姜钳，具有識(shí)別外界環(huán)境、并能與人交流互動(dòng)的能力形耗。當(dāng)前在業(yè)界內(nèi)對(duì)數(shù)字人形成一些共識(shí)：即下圖中虛擬數(shù)字人的通用系統(tǒng)架構(gòu)哥桥，大概用這五個(gè)方面來總結(jié)：人物形象、語音生成模塊激涤、動(dòng)畫生成模塊拟糕、音視頻合成顯示模塊、交互模塊倦踢。

交互模塊是可以存在也可以不存在的送滞。因?yàn)橛幸环N虛擬人是單方面的輸出（視頻類鲸阻、海報(bào)類）躺坟，不存在跟人之間交互，但是其他的幾維基本上是具備的缔赠，所以一個(gè)通用的虛擬數(shù)字人晤碘，一般會(huì)依賴這樣的一個(gè)系統(tǒng)的架構(gòu)來產(chǎn)生褂微。

數(shù)字人制作通用結(jié)構(gòu).png（圖片來源于網(wǎng)絡(luò)）

3. 虛擬數(shù)字人所依賴的通用技術(shù)

CG建模：體現(xiàn)為虛擬數(shù)字人外觀和擬人程度功蜓，當(dāng)前主流的數(shù)字人模型格式為：3D、2D宠蚂、卡通式撼、動(dòng)漫、高保真等求厕。

NLP技術(shù)：核心體現(xiàn)的是對(duì)話能力著隆，通常包括文本對(duì)話，語音 AI 助手等等呀癣，這個(gè)模塊通趁榔郑可以視為虛擬數(shù)字人的大腦。

CV技術(shù)：體驗(yàn)在數(shù)字人的渲染顯示十艾，該部分受數(shù)據(jù)量抵代、計(jì)算框架腾节、關(guān)鍵特增點(diǎn)等因素影響忘嫉，能否呈現(xiàn)自然的面部表情驅(qū)動(dòng)、肢體動(dòng)作等案腺。

虛擬數(shù)字人角色分類

寫實(shí)/超寫實(shí)類角色虛擬人庆冕，比如：AYAYI、翎ling劈榨、柳夜熙等访递；

超寫實(shí)數(shù)字人.png

二次元角色虛擬人，比如洛天依同辣、七海拷姿、星瞳等；

二次元數(shù)字人.png

卡通/吉祥物角色虛擬人旱函，比如海爾兄弟响巢、京東狗、蘇格拉寧等棒妨。

卡通數(shù)字人.png

虛擬數(shù)字人的驅(qū)動(dòng)技術(shù)分類

動(dòng)捕型驅(qū)動(dòng)：原理是真人根據(jù)攝像頭傳來的用戶視頻踪古，與用戶實(shí)時(shí)語音，同時(shí)通過動(dòng)作捕捉采集系統(tǒng)將真人的表情券腔、動(dòng)作呈現(xiàn)在虛擬數(shù)字人形象上伏穆，從而與用戶進(jìn)行交互。它生成的往往是一個(gè)靜態(tài)模型纷纫，在綁定關(guān)鍵點(diǎn)之后枕扫，需要借助真人通過動(dòng)作捕捉設(shè)備進(jìn)行形體、眼神辱魁、動(dòng)作等的捕捉烟瞧，然后才能進(jìn)行驅(qū)動(dòng)和渲染偷厦。

特點(diǎn)：需真人進(jìn)行驅(qū)動(dòng)，在動(dòng)作靈活度燕刻、互動(dòng)效果等方面有明顯優(yōu)勢(shì)只泼。

技術(shù)流程：原畫設(shè)計(jì)；建模+骨骼綁定卵洗；動(dòng)捕設(shè)備或攝像頭將基于真人的動(dòng)作/表情等驅(qū)動(dòng)虛擬數(shù)字人请唱；實(shí)時(shí)渲染-完成內(nèi)容錄制或者現(xiàn)場(chǎng)互動(dòng)；

技術(shù)突破：動(dòng)作捕捉環(huán)節(jié)过蹂，隨著圖像識(shí)別技術(shù)十绑，姿勢(shì)、表情等識(shí)別算法的進(jìn)步酷勺，昂貴的慣性或光學(xué)動(dòng)捕設(shè)備不再是驅(qū)動(dòng)的必備工具本橙。

使用場(chǎng)景：降低影視行業(yè)門檻，推動(dòng)消費(fèi)及轉(zhuǎn)化脆诉，虛擬偶像甚亭、大型直播等。

動(dòng)捕型驅(qū)動(dòng)示例如下：

動(dòng)作捕捉驅(qū)動(dòng).gif

AI型驅(qū)動(dòng)：原理是通過智能系統(tǒng)自動(dòng)讀取并解析識(shí)別外界輸入信息击胜，根據(jù)解析結(jié)果決策虛擬數(shù)字人后續(xù)的輸出信息亏狰，然后驅(qū)動(dòng)人物模型生成相應(yīng)的語音與動(dòng)作來使虛擬數(shù)字人跟用戶互動(dòng)。該人物模型是預(yù)先通過AI技術(shù)訓(xùn)練得到的偶摔，可通過文本驅(qū)動(dòng)生成語音和對(duì)應(yīng)動(dòng)畫暇唾。它是基于深度學(xué)習(xí)模型的三維場(chǎng)景表達(dá)和對(duì)應(yīng)的神經(jīng)渲染管線，可以自驅(qū)動(dòng)學(xué)習(xí)模特說話時(shí)的唇動(dòng)辰斋、表情策州、語音以及姿態(tài)和動(dòng)作等。

特點(diǎn)：語音宫仗、表情够挂、動(dòng)作主要通過深度學(xué)習(xí)實(shí)時(shí)或離線生成驅(qū)動(dòng)。

技術(shù)流程：設(shè)計(jì)形象或?qū)φ嫒诵蜗筮M(jìn)行打點(diǎn)掃描锰什，采集模型信息下硕；建模+骨骼綁定；訓(xùn)練各類驅(qū)動(dòng)的深度模型汁胆，學(xué)習(xí)角色的語音梭姓、唇形、表情參數(shù)間的潛在映射關(guān)系嫩码；內(nèi)容制作誉尖，基于輸入的語音（或由輸入文本轉(zhuǎn)化的語音），預(yù)測(cè)唇動(dòng)铸题、表情等參數(shù)铡恕，推理圖片并與時(shí)間戳結(jié)合琢感；渲染并生成內(nèi)容。

技術(shù)突破：語音合成（語音表述在韻律探熔、情感驹针、流暢度等方面是否符合真人發(fā)聲的習(xí)慣）、NLP技術(shù)（與使用者的語言交互是否順暢诀艰、是否能夠理解使用者需求）柬甥、語音識(shí)別（能否準(zhǔn)確識(shí)別使用者需求）

使用場(chǎng)景：虛擬人視頻內(nèi)容生成，虛擬客服其垄，虛擬助手等苛蒲。

AI型驅(qū)動(dòng)示例如下：

AI型驅(qū)動(dòng).gif

虛擬數(shù)字人主流動(dòng)捕技術(shù)介紹

光學(xué)動(dòng)捕

概念：光學(xué)動(dòng)作捕捉技術(shù)就是在人的身體上進(jìn)行標(biāo)記，標(biāo)記點(diǎn)的會(huì)反射到架設(shè)好的攝像機(jī)绿满，通過反射的不同位置的成像信息臂外，可以進(jìn)行測(cè)算出標(biāo)記點(diǎn)的空間運(yùn)動(dòng)信息，進(jìn)而將這些信息進(jìn)行定位或輸出實(shí)現(xiàn)不同行業(yè)的實(shí)際應(yīng)用喇颁。

優(yōu)點(diǎn)：1. 動(dòng)捕精度高漏健； 2. 保真程度高。

缺點(diǎn)：1. 技術(shù)復(fù)雜度和拍攝要求高无牵；2. 造價(jià)成本高漾肮；3. 應(yīng)用范圍小厂抖。

慣性動(dòng)捕

概念：慣性動(dòng)作捕捉技術(shù)是在人的身上佩戴陀螺儀茎毁，人運(yùn)動(dòng)的過程陀螺儀會(huì)進(jìn)行旋轉(zhuǎn)，通過感知陀螺儀的旋轉(zhuǎn)信息來推算出人的動(dòng)作行為實(shí)現(xiàn)動(dòng)作捕捉忱辅。

優(yōu)點(diǎn)：1. 價(jià)格相對(duì)較低七蜘；2. 不依賴場(chǎng)地環(huán)境。

缺點(diǎn)：1. 動(dòng)捕精度低墙懂； 2. 穩(wěn)定性低橡卤，容易發(fā)生位置漂移。

AI視覺捕捉

概念：AI視覺捕捉不需要進(jìn)行標(biāo)記和佩戴损搬，只需要在人的活動(dòng)范圍內(nèi)通過普通的攝像頭進(jìn)行動(dòng)作的錄制實(shí)現(xiàn)人體關(guān)鍵點(diǎn)信息的識(shí)別進(jìn)而采用特殊的算法來實(shí)現(xiàn)動(dòng)作捕捉碧库。該項(xiàng)技術(shù)對(duì)硬件幾乎沒有特殊的要求，更多的優(yōu)勢(shì)在算法上巧勤。

優(yōu)點(diǎn)：1. 簡(jiǎn)單上手嵌灰； 2. 成本較低。

缺點(diǎn)：1. 動(dòng)捕精度低颅悉； 2. 自由度較低沽瞭；3. 視野固定。

實(shí)用上手簡(jiǎn)易程度：AI視覺動(dòng)捕 > 慣性動(dòng)捕 > 光學(xué)動(dòng)捕
保真程度和穩(wěn)定性：光學(xué)動(dòng)捕 > 慣性動(dòng)捕 > AI視覺動(dòng)捕
造價(jià)成本：光學(xué)動(dòng)捕 > 慣性動(dòng)捕 > AI視覺動(dòng)捕

4. 虛擬數(shù)字人的變現(xiàn)途徑分析

虛擬數(shù)字人目前市面上出現(xiàn)的變現(xiàn)途徑大致有三種：

第一種是幫助企業(yè)建立虛擬數(shù)字人剩瓶，為他們營(yíng)銷代言驹溃，由企業(yè)買單城丧。目前的合作形式包括定制、IP 授權(quán)和代運(yùn)營(yíng)豌鹤。經(jīng)網(wǎng)上數(shù)據(jù)搜集亡哄，現(xiàn)在市面上的價(jià)格都不太一樣，定制 Q 版大概在十幾萬布疙，而定制超寫實(shí)則可能需要上百萬磺平。IP 授權(quán)指的是與頭部虛擬人 IP 做 KV 合作和短視頻軟植入，收費(fèi)視具體情況而定拐辽，與粉絲的關(guān)系很大拣挪。

第二種向企業(yè)直接售賣直播工具，類似于 SaaS 服務(wù)俱诸。它的難點(diǎn)在于打通集成內(nèi)部的技術(shù)菠劝，以及積累的技術(shù)和樣本是否足夠多樣。當(dāng)實(shí)現(xiàn) SaaS 化后睁搭，企業(yè)品牌能夠用 SaaS 平臺(tái)建立數(shù)字人赶诊，操作系統(tǒng)簡(jiǎn)單，成本大幅度降低园骆。從市面上的報(bào)價(jià)來看舔痪，月費(fèi)在幾百元到幾千元區(qū)間不等。

第三種是 UGC 類的創(chuàng)作者經(jīng)濟(jì)锌唾，讓用戶參與到創(chuàng)作當(dāng)中與廠商利潤(rùn)共享锄码。數(shù)字人賽道的發(fā)展需要大量用戶進(jìn)入承擔(dān)不同的角色，不光是因?yàn)閿?shù)字人的創(chuàng)作者和服務(wù)對(duì)象都是人晌涕，還因?yàn)樵谖磥碓钪娴倪h(yuǎn)景當(dāng)中將出現(xiàn)更多數(shù)字人+數(shù)字空間的營(yíng)銷打法滋捶，以及更宏大的敘事，勢(shì)必會(huì)產(chǎn)生大量的內(nèi)容需求余黎。只有更多人共同建立生態(tài)重窟，才能讓平臺(tái)具有更強(qiáng)的生命力和想象空間。

在當(dāng)前很多企業(yè)的的變現(xiàn)思路中惧财，打造一個(gè)近乎完美的 IP 人設(shè)只是第一步巡扇，未來終將走向 SaaS 標(biāo)準(zhǔn)化和 UGC 規(guī)模化垮衷，但是中間過程是需要投入專業(yè)團(tuán)隊(duì)和技術(shù)人才進(jìn)行打造厅翔，尤其對(duì)于之前沒有數(shù)字人周邊產(chǎn)品和技術(shù)積累的公司，更是一個(gè)不小的挑戰(zhàn)帘靡。

5. 虛擬數(shù)字人當(dāng)前主流的SaaS平臺(tái)架構(gòu)

下圖是常見的按層劃分的虛擬數(shù)字人平臺(tái)架構(gòu)設(shè)計(jì)知给。從下往上依次是：服務(wù)層、協(xié)議層、化身層涩赢、應(yīng)用層戈次。

常見的虛擬數(shù)字人一站式平臺(tái)框架（圖片來源于網(wǎng)絡(luò)）

其中服務(wù)層涉及一些底層技術(shù)框架，需搭建“AI能力支撐平臺(tái)”來承載所有功能筒扒，應(yīng)包括：語音識(shí)別怯邪、語音驅(qū)動(dòng)、文本驅(qū)動(dòng)花墩、語音轉(zhuǎn)化悬秉、手勢(shì)驅(qū)動(dòng)、圖像驅(qū)動(dòng)冰蘑、聲紋復(fù)刻和泌、人臉識(shí)別、動(dòng)作捕捉祠肥、OCR識(shí)別武氓、知識(shí)圖譜、智能推薦等能力仇箱；除技術(shù)能力外县恕，服務(wù)層還應(yīng)包含運(yùn)營(yíng)使用配置功能；

協(xié)議層包含語音交互協(xié)議剂桥、口型驅(qū)動(dòng)協(xié)議忠烛、表情驅(qū)動(dòng)協(xié)議、動(dòng)作驅(qū)動(dòng)協(xié)議权逗，作用是與服務(wù)層和化身層進(jìn)行對(duì)接美尸，將服務(wù)層獲取到的信息進(jìn)行運(yùn)算處理來傳遞給化身層，以便于模型的控制旬迹。

化身層包含對(duì)數(shù)字人資產(chǎn)的管理火惊，需搭建“角色資源平臺(tái)”來進(jìn)行管理，包含：3D/2D角色庫(kù)奔垦、角色配飾庫(kù)、動(dòng)作/表情庫(kù)尸疆、特效庫(kù)椿猎、背景環(huán)境庫(kù)、模板管理寿弱、音視頻頻管理等犯眠。

應(yīng)用層又稱為應(yīng)用場(chǎng)景層，該層平臺(tái)會(huì)打包成不同平臺(tái)SDK供應(yīng)用集成症革，應(yīng)包含：PC筐咧、Web、iOS、Android等量蕊。

最后編輯于：2022.10.26 16:53:31

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末铺罢，一起剝皮案震驚了整個(gè)濱河市，隨后出現(xiàn)的幾起案子残炮，更是在濱河造成了極大的恐慌韭赘，老刑警劉巖，帶你破解...
沈念sama閱讀 217,509評(píng)論 6贊 504
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件势就，死亡現(xiàn)場(chǎng)離奇詭異泉瞻，居然都是意外死亡，警方通過查閱死者的電腦和手機(jī)苞冯，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 92,806評(píng)論 3贊 394
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門袖牙，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人舅锄，你說我怎么就攤上這事贼陶。” “怎么了巧娱？”我有些...
開封第一講書人閱讀 163,875評(píng)論 0贊 354
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵碉怔，是天一觀的道長(zhǎng)。經(jīng)常有香客問我禁添，道長(zhǎng)撮胧，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 58,441評(píng)論 1贊 293
?港島之戀（遺憾婚禮）
正文為了忘掉前任老翘，我火速辦了婚禮芹啥，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘铺峭。我一直安慰自己墓怀，他們只是感情好，可當(dāng)我...
茶點(diǎn)故事閱讀 67,488評(píng)論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布卫键。她就那樣靜靜地躺著傀履，像睡著了一般。火紅的嫁衣襯著肌膚如雪莉炉。梳的紋絲不亂的頭發(fā)上钓账，一...
開封第一講書人閱讀 51,365評(píng)論 1贊 302
城市分裂傳說
那天，我揣著相機(jī)與錄音絮宁，去河邊找鬼梆暮。笑死，一個(gè)胖子當(dāng)著我的面吹牛绍昂，可吹牛的內(nèi)容都是我干的啦粹。我是一名探鬼主播偿荷，決...
沈念sama閱讀 40,190評(píng)論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長(zhǎng)吁一口氣：“原來是場(chǎng)噩夢(mèng)啊……” “哼唠椭！你這毒婦竟也來了跳纳？” 一聲冷哼從身側(cè)響起，我...
開封第一講書人閱讀 39,062評(píng)論 0贊 276
萬榮殺人案實(shí)錄
序言：老撾萬榮一對(duì)情侶失蹤泪蔫，失蹤者是張志新（化名）和其女友劉穎棒旗，沒想到半個(gè)月后，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體撩荣，經(jīng)...
沈念sama閱讀 45,500評(píng)論 1贊 314
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡铣揉，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,706評(píng)論 3贊 335
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了餐曹。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片逛拱。...
茶點(diǎn)故事閱讀 39,834評(píng)論 1贊 347
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡，死狀恐怖台猴，靈堂內(nèi)的尸體忽然破棺而出朽合，到底是詐尸還是另有隱情，我是刑警寧澤饱狂，帶...
沈念sama閱讀 35,559評(píng)論 5贊 345
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布曹步，位于F島的核電站，受9級(jí)特大地震影響休讳，放射性物質(zhì)發(fā)生泄漏讲婚。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,167評(píng)論 3贊 328
男人毒藥：我在死后第九天來索命
文/蒙蒙一俊柔、第九天我趴在偏房一處隱蔽的房頂上張望筹麸。院中可真熱鬧，春花似錦雏婶、人聲如沸物赶。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,779評(píng)論 0贊 22
一樁弒父案留晚，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽酵紫。三九已至，卻和暖如春倔丈，著一層夾襖步出監(jiān)牢的瞬間憨闰，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 32,912評(píng)論 1贊 269
情欲美人皮
我被黑心中介騙來泰國(guó)打工需五，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留，地道東北人轧坎。一個(gè)月前我還...
沈念sama閱讀 47,958評(píng)論 2贊 370
代替公主和親
正文我出身青樓宏邮，卻偏偏與公主長(zhǎng)得像，于是被迫代替她去往敵國(guó)和親。傳聞我的和親對(duì)象是個(gè)殘疾皇子蜜氨，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 44,779評(píng)論 2贊 354