https://github.com/verlab/Learning2Dance_CAG_2020
https://www.verlab.dcc.ufmg.br/motion-analysis/cag2020/
通過(guò)學(xué)習(xí)技術(shù)合成人體運(yùn)動(dòng)正在成為一種越來(lái)越流行的方法棘钞,以減輕新的數(shù)據(jù)采集需求缠借,以產(chǎn)生動(dòng)畫。學(xué)會(huì)從音樂(lè)中自然地移動(dòng)宜猜,也就是說(shuō)泼返,跳舞,是十個(gè)人中最復(fù)雜的動(dòng)作之一宝恶。每一個(gè)舞蹈動(dòng)作都是獨(dú)一無(wú)二的符隙,但這些動(dòng)作保持了舞蹈風(fēng)格的核心特征趴捅。由于運(yùn)動(dòng)流形結(jié)構(gòu)的非歐幾里德幾何結(jié)構(gòu),用經(jīng)典的卷積和遞歸神經(jīng)模型來(lái)解決這個(gè)問(wèn)題的大多數(shù)方法都要經(jīng)歷訓(xùn)練和可變性問(wèn)題霹疫。針對(duì)音頻信息自動(dòng)生成舞蹈的問(wèn)題拱绑,設(shè)計(jì)了一種基于圖卷積網(wǎng)絡(luò)的舞蹈自動(dòng)生成方法。我們的方法使用了一種基于輸入音樂(lè)音頻的對(duì)抗性學(xué)習(xí)方案來(lái)創(chuàng)建自然運(yùn)動(dòng)丽蝎,保留了不同音樂(lè)風(fēng)格的關(guān)鍵動(dòng)作猎拨。我們用生成方法的三個(gè)量化指標(biāo)和一個(gè)用戶研究來(lái)評(píng)估我們的方法。結(jié)果表明屠阻,在不同的實(shí)驗(yàn)中红省,所提出的GCN模型優(yōu)于基于音樂(lè)的最新舞蹈生成方法。此外国觉,我們的圖形卷積方法更簡(jiǎn)單吧恃,更容易訓(xùn)練,能夠產(chǎn)生更真實(shí)的運(yùn)動(dòng)風(fēng)格麻诀,關(guān)于定性和不同的定量指標(biāo)痕寓。它還提出了一個(gè)視覺(jué)運(yùn)動(dòng)知覺(jué)質(zhì)量可與真實(shí)運(yùn)動(dòng)數(shù)據(jù)相媲美。數(shù)據(jù)集和項(xiàng)目可在以下網(wǎng)站公開獲扔铡:https://www.verlab.dcc.ufmg.br/motion-analysis/cag2020呻率。
1
計(jì)算機(jī)圖形學(xué)中持久的重大挑戰(zhàn)之一是為虛擬化身提供可信的動(dòng)畫。人類在進(jìn)行諸如行走呻引、跑步礼仗、跳躍或跳舞等活動(dòng)時(shí)有一系列不同的動(dòng)作。在過(guò)去的幾十年里逻悠,這種運(yùn)動(dòng)的建模已經(jīng)委托給運(yùn)動(dòng)捕捉系統(tǒng)元践。盡管高技能的藝術(shù)家利用捕捉到的運(yùn)動(dòng)數(shù)據(jù)取得了顯著的成果,但人類的運(yùn)動(dòng)具有豐富的時(shí)空分布童谒,各種不同的運(yùn)動(dòng)形式層出不窮卢厂。此外,人的運(yùn)動(dòng)還受到復(fù)雜的情境感知因素的影響惠啄,包括聽覺(jué)感知慎恒、人的年齡和性別等身體條件以及文化背景。
通過(guò)學(xué)習(xí)技術(shù)合成運(yùn)動(dòng)正在成為一種越來(lái)越流行的方法撵渡,以減輕捕捉新的真實(shí)運(yùn)動(dòng)數(shù)據(jù)以生成動(dòng)畫的需求融柬。運(yùn)動(dòng)合成已經(jīng)被應(yīng)用到許多應(yīng)用中,比如娛樂(lè)用的圖形動(dòng)畫趋距、機(jī)器人技術(shù)和帶有人群的多模態(tài)圖形渲染引擎[21]粒氧,僅舉幾個(gè)例子。每個(gè)人的動(dòng)作都有其特殊性节腐,但這些動(dòng)作保留了動(dòng)作風(fēng)格的特征(如行走外盯、跳躍或跳舞)摘盆,我們通常能夠毫不費(fèi)力地識(shí)別出這種風(fēng)格。當(dāng)設(shè)置虛擬化身的動(dòng)畫時(shí)饱苟,最終目標(biāo)不僅是將一個(gè)運(yùn)動(dòng)從一個(gè)真實(shí)的人類重新定位到一個(gè)虛擬角色孩擂,而且體現(xiàn)出與原始人類運(yùn)動(dòng)相似的運(yùn)動(dòng)。換言之箱熬,實(shí)現(xiàn)逼真動(dòng)畫的關(guān)鍵步驟是學(xué)習(xí)運(yùn)動(dòng)分布类垦,然后從中提取樣本(即新運(yùn)動(dòng))。例如城须,一個(gè)具有挑戰(zhàn)性的人體運(yùn)動(dòng)是舞蹈蚤认,動(dòng)畫師的目標(biāo)不是創(chuàng)造模仿真實(shí)姿勢(shì)的化身,而是制作一組與音樂(lè)編排相匹配的姿勢(shì)糕伐,同時(shí)保持個(gè)人的品質(zhì)砰琢。
在這篇論文中,我們提出使用對(duì)抗性訓(xùn)練和卷積圖網(wǎng)路架構(gòu)(GCN)來(lái)合成舞蹈動(dòng)作的問(wèn)題良瞧。舞蹈是一種具有代表性和挑戰(zhàn)性的人體運(yùn)動(dòng)氯析。舞蹈不僅僅是表演預(yù)先定義好的、有組織的運(yùn)動(dòng)動(dòng)作莺褒,它還包括自我表達(dá)的步驟和序列。在舞蹈動(dòng)作中雪情,舞者的特殊性和動(dòng)作的特點(diǎn)對(duì)舞蹈風(fēng)格的識(shí)別起著至關(guān)重要的作用遵岩。因此,我們工作中的一個(gè)中心挑戰(zhàn)是綜合考慮以下三個(gè)主要方面的一組姿勢(shì):首先巡通,運(yùn)動(dòng)必須是可信的尘执,即與真實(shí)運(yùn)動(dòng)相比,盲目評(píng)估應(yīng)該呈現(xiàn)出相似的結(jié)果宴凉;其次誊锭,合成的動(dòng)作必須保留音樂(lè)編排典型表演中的所有特征;第三弥锄,每一組新的姿勢(shì)不應(yīng)該嚴(yán)格等同于另一組丧靡,換句話說(shuō),當(dāng)為一個(gè)新的化身生成一個(gè)動(dòng)作時(shí)籽暇,我們必須保持個(gè)體的品質(zhì)温治。圖1說(shuō)明了我們的方法。
從聲音中創(chuàng)造動(dòng)作與具體的音樂(lè)認(rèn)知范式有關(guān)戒悠。它將感知和行為熬荆、物理環(huán)境條件和主觀用戶體驗(yàn)(文化遺產(chǎn))結(jié)合起來(lái)[30]。因此绸狐,如何將真實(shí)的人體運(yùn)動(dòng)合成為包含運(yùn)動(dòng)方面的運(yùn)動(dòng)仍然是一個(gè)富有挑戰(zhàn)性和活躍的研究領(lǐng)域[13,55]卤恳。對(duì)運(yùn)動(dòng)進(jìn)行分布建模是一個(gè)強(qiáng)大的工具累盗,它可以提供各種各樣的運(yùn)動(dòng),同時(shí)又不會(huì)消除所繪制的每個(gè)樣本的單獨(dú)特征突琳。此外若债,通過(guò)調(diào)節(jié)這些分布,例如本今,使用像音樂(lè)這樣的音頻信號(hào)拆座,我們可以選擇與輸入信號(hào)相匹配的運(yùn)動(dòng)子群體。生成模型在學(xué)習(xí)數(shù)據(jù)分布方面已顯示出令人印象深刻的結(jié)果冠息。幾十年來(lái)挪凑,通過(guò)機(jī)器學(xué)習(xí)的進(jìn)步,這些模型得到了改進(jìn)逛艰,拓寬了對(duì)數(shù)據(jù)學(xué)習(xí)模型的理解躏碳。特別是,深度學(xué)習(xí)技術(shù)的進(jìn)步產(chǎn)生了前所未有的有效和豐富的技術(shù)相結(jié)合散怖,能夠預(yù)測(cè)和生成數(shù)據(jù)菇绵。結(jié)果是,在不同領(lǐng)域的任務(wù)中獲得了高度精確的結(jié)果镇眷。爆炸首先是在計(jì)算機(jī)視覺(jué)界感受到的咬最。從使用卷積神經(jīng)網(wǎng)絡(luò)(CNN)在圖像分類中獲得高精度分?jǐn)?shù)到使用生成對(duì)抗性網(wǎng)絡(luò)(GAN)[16],計(jì)算機(jī)視覺(jué)領(lǐng)域已經(jīng)受益于深度學(xué)習(xí)方法的一些改進(jìn)欠动。計(jì)算機(jī)視覺(jué)和計(jì)算機(jī)圖形學(xué)領(lǐng)域也取得了重大進(jìn)展永乌,通過(guò)使用幾種類型的傳感器處理場(chǎng)景中的多模態(tài)數(shù)據(jù)。這些進(jìn)展歸因于最近興起的學(xué)習(xí)方法具伍,特別是卷積神經(jīng)網(wǎng)絡(luò)翅雏。此外,這些方法已經(jīng)被用于從多模態(tài)源合成數(shù)據(jù)人芽,并且音頻數(shù)據(jù)是實(shí)現(xiàn)最令人印象深刻的結(jié)果之一望几,如[9]所述。
最近萤厅,基于圖的網(wǎng)絡(luò)作為一種有前途和有效的方法來(lái)處理結(jié)構(gòu)已知的問(wèn)題橄抹。一個(gè)典型的方法是Kipf和Welling[26]的工作,其中在半監(jiān)督分類任務(wù)中使用了直接對(duì)圖結(jié)構(gòu)數(shù)據(jù)進(jìn)行操作的卷積體系結(jié)構(gòu)惕味。由于圖形是人體骨骼的自然表示害碾,文獻(xiàn)中提出了幾種利用GCN來(lái)估計(jì)和生成人體運(yùn)動(dòng)的方法。例如赦拘,Yanet al.[55]提出了一種基于GCNs的框架結(jié)構(gòu)慌随,它通過(guò)從高斯過(guò)程(GP)中抽樣隨機(jī)向量來(lái)生成一組骨架姿態(tài)。盡管該框架能夠創(chuàng)建一組模仿每個(gè)孩子的動(dòng)作的姿勢(shì),但該框架不提供對(duì)運(yùn)動(dòng)生成的任何控制阁猜。如前所述丸逸,我們的方法也使用GCN來(lái)合成人體運(yùn)動(dòng),但與Yanet al.的工作不同剃袍,我們可以使用音頻數(shù)據(jù)控制運(yùn)動(dòng)的風(fēng)格黄刚,同時(shí)保持最后動(dòng)作的合理性。我們認(rèn)為民效,人的骨骼具有圖結(jié)構(gòu)模型憔维,其運(yùn)動(dòng)遵循與時(shí)間相關(guān)的復(fù)雜姿勢(shì)序列,并且使用使用對(duì)抗性訓(xùn)練的卷積圖網(wǎng)絡(luò)可以更好地模擬定義和組織的運(yùn)動(dòng)集畏邢。
在這種背景下业扒,我們提出了一種人工老化音頻數(shù)據(jù)來(lái)合成運(yùn)動(dòng)的架構(gòu)。我們的方法開始編碼一個(gè)聲音信號(hào)來(lái)提取音樂(lè)風(fēng)格使用CNN架構(gòu)舒萎。音樂(lè)風(fēng)格和時(shí)空潛在向量被用來(lái)調(diào)節(jié)一個(gè)GCN架構(gòu)程储,該架構(gòu)在對(duì)抗?fàn)顟B(tài)下訓(xùn)練,以預(yù)測(cè)隨時(shí)間變化的2D人體關(guān)節(jié)位置臂寝。用戶研究和量化指標(biāo)的實(shí)驗(yàn)表明章鲤,我們的方法輸出者形成了最先進(jìn)的方法,并提供了合理的動(dòng)作咆贬,同時(shí)保持了不同舞蹈風(fēng)格的特點(diǎn)败徊。
本文的貢獻(xiàn)可概括如下:
一種新的基于聽覺(jué)數(shù)據(jù)的條件GCN結(jié)構(gòu)。在我們的方法中掏缎,我們進(jìn)一步推進(jìn)了對(duì)抗式學(xué)習(xí)皱蹦,以提供具有時(shí)間依賴性的多模態(tài)數(shù)據(jù)學(xué)習(xí);
一個(gè)新穎的多模態(tài)數(shù)據(jù)集御毅,包含了人們跳舞時(shí)不同音樂(lè)風(fēng)格的音頻、運(yùn)動(dòng)數(shù)據(jù)和視頻
2相關(guān)工作
聲音和運(yùn)動(dòng)
最近怜珍,我們見證了從動(dòng)畫片到新的建筑風(fēng)格的轉(zhuǎn)變端蛆。例如,Bregleret al.[4]通過(guò)重新排列訓(xùn)練輸入視頻中的嘴圖像以匹配新音軌的音素序列酥泛,來(lái)創(chuàng)建一個(gè)受試者說(shuō)出他們最初不說(shuō)的短語(yǔ)的視頻今豆。在同一方向上,Weiss[52]應(yīng)用數(shù)據(jù)驅(qū)動(dòng)的多模態(tài)方法來(lái)生成二維視頻逼真的視聽“談話頭”柔袁,使用F0和Mel倒譜系數(shù)作為聲學(xué)特征來(lái)建模語(yǔ)音呆躲。為了根據(jù)節(jié)奏、速度和強(qiáng)度等音樂(lè)特征合成人體運(yùn)動(dòng)捶索,Shiratri和Ikeuchi[42]根據(jù)節(jié)奏和表演者的手插掂、腳和重心的變化建立了關(guān)鍵姿勢(shì)。然后,他們使用音樂(lè)和運(yùn)動(dòng)特征向量來(lái)選擇與音樂(lè)和運(yùn)動(dòng)強(qiáng)度相匹配的候選運(yùn)動(dòng)片段辅甥。盡管取得了令人印象深刻的結(jié)果酝润,但當(dāng)關(guān)鍵幀位于音樂(lè)的快速片段時(shí),該方法失敗了璃弄。
Cudeiroet al.[9]提出了一種編碼-解碼網(wǎng)絡(luò)要销,它使用從深度語(yǔ)音中提取的音頻特征[19]。該網(wǎng)絡(luò)根據(jù)主題標(biāo)簽生成逼真的三維面部動(dòng)畫夏块,以學(xué)習(xí)不同的個(gè)人說(shuō)話風(fēng)格疏咐。為了使人臉網(wǎng)格變形,Cudeiro等人在低維嵌入空間中對(duì)音頻特征進(jìn)行編碼脐供。盡管他們的模型能夠概括出看不見的對(duì)象的面部網(wǎng)格結(jié)果浑塞,但他們報(bào)告說(shuō),最終的動(dòng)畫與自然捕捉到的真實(shí)序列相距甚遠(yuǎn)患民。此外缩举,引入一種新的風(fēng)格是很麻煩的,因?yàn)樗枰唤M4D掃描與音頻配對(duì)匹颤。Ginosaret al.[13]通過(guò)將音頻映射到姿勢(shì)仅孩,實(shí)現(xiàn)從語(yǔ)音到手勢(shì)的轉(zhuǎn)換,從而產(chǎn)生手臂和手的運(yùn)動(dòng)印蓖。他們使用了一種對(duì)抗性訓(xùn)練辽慕,在這種訓(xùn)練中,U-Net體系結(jié)構(gòu)將編碼的音頻輸入轉(zhuǎn)換為2D姿勢(shì)的時(shí)間序列赦肃。為了產(chǎn)生更真實(shí)的結(jié)果溅蛉,鑒別器根據(jù)每對(duì)隨后生成的姿勢(shì)之間的差異進(jìn)行條件化處理。然而他宛,他們的方法是特定于主題的船侧,不能推廣到其他演講者。
與我們更相關(guān)的工作是Lee等人提出的方法[29]厅各。作者使用一個(gè)復(fù)雜的架構(gòu)來(lái)合成舞蹈動(dòng)作(表現(xiàn)為一系列2D姿勢(shì))镜撩,給出一段輸入音樂(lè)。他們的體系結(jié)構(gòu)是基于一個(gè)精心設(shè)計(jì)的分解到合成的框架队塘,并經(jīng)過(guò)了對(duì)抗性學(xué)習(xí)計(jì)劃的訓(xùn)練袁梗。我們的基于圖形卷積的方法,反過(guò)來(lái)憔古,更簡(jiǎn)單遮怜,更容易訓(xùn)練,并產(chǎn)生更真實(shí)的運(yùn)動(dòng)風(fēng)格鸿市,關(guān)于定性和不同的定量指標(biāo)锯梁。
生成圖卷積網(wǎng)絡(luò)
自從Goodfellow等人[16]的開創(chuàng)性工作以來(lái)即碗,生成性對(duì)抗網(wǎng)絡(luò)(generative atterial networks,GAN)已經(jīng)成功地應(yīng)用于許多難題涝桅,尤其是在合成新信息方面拜姿,例如圖像[25]、運(yùn)動(dòng)[6]和姿勢(shì)估計(jì)[7]冯遂,等等蕊肥。Mirza和Osindero[36]提出了條件GANs(cGAN),為數(shù)據(jù)生成提供了一些指導(dǎo)蛤肌。Reedet al.[41]從文本中合成真實(shí)的圖像壁却,證明cANS也可以用于解決多模態(tài)問(wèn)題。圖卷積網(wǎng)絡(luò)(GCN)是近年來(lái)興起的一種強(qiáng)大的數(shù)據(jù)學(xué)習(xí)工具裸准,它利用嵌入在n維歐幾里德向量空間之外的幾何特性展东,如圖和簡(jiǎn)單復(fù)形。在我們的上下文中炒俱,與經(jīng)典cnn相反盐肃,GCNs可以模擬運(yùn)動(dòng)流形空間結(jié)構(gòu)[22,56,55]。Yanet al.[56]應(yīng)用GCNs來(lái)模擬人體運(yùn)動(dòng)并對(duì)行為進(jìn)行分類权悟。在從輸入視頻中提取每個(gè)幀的二維人體姿態(tài)后砸王,利用時(shí)空?qǐng)D卷積網(wǎng)絡(luò)(ST-GCN)對(duì)骨骼進(jìn)行處理。Yanet al.繼續(xù)利用GCNs的表示能力峦阁,提出了卷積序列生成網(wǎng)絡(luò)(CSGN)[55]谦铃。通過(guò)對(duì)高斯過(guò)程中的相關(guān)潛在向量進(jìn)行采樣并使用時(shí)間卷積,CSGN結(jié)構(gòu)能夠生成時(shí)間相干的長(zhǎng)人體動(dòng)作序列作為骨架圖榔昔。我們的方法比[56驹闰,55]更進(jìn)一步。它根據(jù)聲學(xué)數(shù)據(jù)(即音樂(lè))生成基于人體骨骼的圖形運(yùn)動(dòng)序列撒会。通過(guò)對(duì)運(yùn)動(dòng)分布的調(diào)節(jié)嘹朗,我們的方法不僅可以學(xué)習(xí)創(chuàng)造出合理的人體運(yùn)動(dòng),而且可以從不同的領(lǐng)域?qū)W習(xí)音樂(lè)風(fēng)格的特征動(dòng)作诵肛。
人體姿勢(shì)估計(jì)與預(yù)測(cè)
運(yùn)動(dòng)合成和運(yùn)動(dòng)分析問(wèn)題得益于人體姿勢(shì)估計(jì)方法的精度提高屹培。從圖像中進(jìn)行人體姿勢(shì)估計(jì),則得益于最近出現(xiàn)的大數(shù)據(jù)集[32,1,18]曾掂,這些數(shù)據(jù)集具有注釋關(guān)節(jié)的位置惫谤,以及從二維圖像到三維人體形狀的密集對(duì)應(yīng)[5,31,54,18,28,24,27]壁顶。大量的注釋數(shù)據(jù)使得預(yù)測(cè)和模擬人體運(yùn)動(dòng)的重要里程碑成為可能[51,17,12,11,48]珠洗。最近,使用遞歸神經(jīng)網(wǎng)絡(luò)(RNN)進(jìn)行時(shí)間序列預(yù)測(cè)的趨勢(shì)在幾種人體運(yùn)動(dòng)預(yù)測(cè)框架中變得流行起來(lái)[11若专,35许蓖,12]。然而,預(yù)測(cè)中的位姿誤差累積允許在有限的未來(lái)幀范圍內(nèi)進(jìn)行預(yù)測(cè)[17]膊爪。Guiet al.[17]建議通過(guò)使用兩個(gè)全局遞歸鑒別器應(yīng)用對(duì)抗性訓(xùn)練來(lái)克服這個(gè)問(wèn)題自阱,這兩個(gè)全局遞歸鑒別器同時(shí)驗(yàn)證預(yù)測(cè)的序列級(jí)合理性及其與輸入序列的一致性。Wanget al.[48]提出了一種網(wǎng)絡(luò)體系結(jié)構(gòu)米酬,通過(guò)空間分量對(duì)運(yùn)動(dòng)的時(shí)空變異性進(jìn)行建模沛豌,以進(jìn)行特征提取。然而赃额,眾所周知加派,這些RNN模型難以訓(xùn)練,且計(jì)算繁瑣[37]跳芳。正如[29]所指出的芍锦,無(wú)論輸入如何,RNN產(chǎn)生的運(yùn)動(dòng)趨向于以特定姿勢(shì)運(yùn)動(dòng)飞盆。
轉(zhuǎn)移與人體動(dòng)作
已有大量的前人研究工作[44,39,50,6,15]研究了具有特定運(yùn)動(dòng)風(fēng)格的合成運(yùn)動(dòng)娄琉。大多數(shù)方法將問(wèn)題表述為將特定的運(yùn)動(dòng)樣式傳輸?shù)捷斎脒\(yùn)動(dòng)[53,44]吓歇,或?qū)⑦\(yùn)動(dòng)從一個(gè)字符傳輸?shù)搅硪粋€(gè)字符孽水,通常稱為運(yùn)動(dòng)重定目標(biāo)[14,8照瘾,46]匈棘。最近的方法探索了深度強(qiáng)化學(xué)習(xí),以模擬特定風(fēng)格的基于物理的運(yùn)動(dòng)[38析命,33主卫,39]。另一個(gè)活躍的研究方向是將運(yùn)動(dòng)從視頻傳輸?shù)揭曨l[50,6,15]鹃愤。然而簇搅,從音頻中產(chǎn)生文體運(yùn)動(dòng)的研究還不多見,仍然是一個(gè)富有挑戰(zhàn)性的研究領(lǐng)域软吐。Villegaset al.[47]提出了一種基于高層結(jié)構(gòu)提取的視頻生成方法瘩将,根據(jù)這種結(jié)構(gòu)如何及時(shí)演化來(lái)調(diào)整新幀的創(chuàng)建,從而防止像素級(jí)誤差預(yù)測(cè)累積凹耙。他們的方法被用于長(zhǎng)期視頻預(yù)測(cè)人類的行為姿现,使用二維人體姿勢(shì)作為高級(jí)結(jié)構(gòu)。
Wang等人[49]討論了如何通過(guò)使用一系列自動(dòng)編碼器來(lái)使用對(duì)抗性學(xué)習(xí)來(lái)產(chǎn)生人體運(yùn)動(dòng)肖抱。作者主要研究了三個(gè)任務(wù):運(yùn)動(dòng)合成备典、條件運(yùn)動(dòng)合成和運(yùn)動(dòng)風(fēng)格轉(zhuǎn)換。作為我們的工作意述,他們的框架能夠根據(jù)樣式標(biāo)簽參數(shù)化生成條件運(yùn)動(dòng)提佣,但是沒(méi)有與之相關(guān)的多模態(tài)吮蛹。Janget al.[23]提出了一種受序列到序列模型啟發(fā)的生成運(yùn)動(dòng)流形的方法。作為一個(gè)顯著的缺點(diǎn)拌屏,他們的方法在創(chuàng)建超過(guò)10秒的運(yùn)動(dòng)時(shí)性能下降潮针,這使得該方法不適合生成長(zhǎng)序列。另一方面倚喂,我們的方法可以根據(jù)不同的音樂(lè)風(fēng)格創(chuàng)建長(zhǎng)的動(dòng)作序列每篷,利用對(duì)手GCN的能力生成新的長(zhǎng)的,但可以識(shí)別的動(dòng)作序列端圈。
三雳攘。方法論
我們的方法被設(shè)計(jì)用來(lái)根據(jù)音樂(lè)風(fēng)格合成一系列類似人類舞蹈的二維人體姿勢(shì)。具體地說(shuō)枫笛,我們的目標(biāo)是估計(jì)一個(gè)運(yùn)動(dòng)M吨灭,它為給定的輸入音樂(lè)音頻提供了最佳匹配。M是N個(gè)人體姿勢(shì)的序列刑巧,定義如下:
我們的方法由三個(gè)主要組件組成喧兄,如圖3所示。我們開始訓(xùn)練一個(gè)1D-CNN分類器來(lái)定義輸入的音樂(lè)風(fēng)格啊楚。然后吠冤,將分類結(jié)果與高斯過(guò)程(GP)生成的時(shí)空相關(guān)latent向量相結(jié)合。GP允許我們從分布在函數(shù)上的高斯噪聲采樣點(diǎn)恭理,每個(gè)函數(shù)的采樣點(diǎn)之間具有相關(guān)性拯辙。因此,我們可以從不同頻率的函數(shù)中得到點(diǎn)颜价。這種信號(hào)頻率的變化使我們的模型能夠推斷出哪個(gè)骨骼關(guān)節(jié)負(fù)責(zé)更長(zhǎng)時(shí)間的運(yùn)動(dòng)涯保,并探索各種各樣的姿勢(shì)。潛矢量的目的是保持每個(gè)關(guān)節(jié)超時(shí)運(yùn)動(dòng)的空間一致性周伦。最后夕春,我們利用潛矢量進(jìn)行人體運(yùn)動(dòng)生成。在生成器的訓(xùn)練階段专挪,我們使用潛在向量來(lái)輸入一個(gè)圖卷積網(wǎng)絡(luò)及志,該網(wǎng)絡(luò)在對(duì)抗性的環(huán)境下訓(xùn)練,并由oracle算法定義舞蹈風(fēng)格寨腔。在測(cè)試階段速侈,我們用1D-CNN分類器代替oracle。因此迫卢,我們的方法有兩個(gè)訓(xùn)練階段:i)在測(cè)試階段使用的音頻分類器的訓(xùn)練倚搬,以及ii)使用音樂(lè)風(fēng)格來(lái)調(diào)節(jié)動(dòng)作生成的對(duì)抗機(jī)制的GCN訓(xùn)練。
3.1條靖避。聲音處理與風(fēng)格特征提取
我們的運(yùn)動(dòng)生成是由一個(gè)潛在的矢量控制的潭枣,這個(gè)向量編碼來(lái)自音樂(lè)風(fēng)格的信息。在本文中幻捏,我們使用聲音網(wǎng)絡(luò)[3]架構(gòu)作為一維CNN的主干盆犁。1D-CNN接收波形的聲音并輸出最有可能的音樂(lè)風(fēng)格,考慮三個(gè)等級(jí)篡九。分類器在由107個(gè)音樂(lè)文件組成的數(shù)據(jù)集中訓(xùn)練谐岁,并分為三個(gè)音樂(lè)舞蹈風(fēng)格:芭蕾舞薩爾薩和邁克爾·杰克遜(MJ)。
為了找到最佳的超參數(shù)榛臼,我們進(jìn)行了10次交叉驗(yàn)證伊佃,并保留了最佳模型來(lái)預(yù)測(cè)音樂(lè)風(fēng)格以調(diào)節(jié)生成器。與需要2D預(yù)處理聲譜圖的作品[2,20]不同沛善,我們的架構(gòu)是一維的航揉,直接在波形中工作。
3.2條金刁。用于運(yùn)動(dòng)生成的潛空間編碼
為了創(chuàng)建跟隨音樂(lè)風(fēng)格的動(dòng)作帅涂,同時(shí)保持運(yùn)動(dòng)的特殊性和時(shí)間上的連貫性,我們構(gòu)建了一個(gè)潛在向量尤蛮,將提取的音樂(lè)風(fēng)格與來(lái)自高斯過(guò)程的時(shí)空相關(guān)信號(hào)相結(jié)合媳友。值得注意的是,我們的潛在向量不同于Yan等人[55]的工作产捞,因?yàn)槲覀兪褂靡纛l分類提供的信息來(lái)調(diào)節(jié)我們的潛在空間醇锚。用于約束運(yùn)動(dòng)生成的信息,以及用于創(chuàng)建我們的潛在空間的信息坯临,是每種mu-sic風(fēng)格的可訓(xùn)練的密集特征向量表示焊唬。稠密的音樂(lè)風(fēng)格向量表示就像一個(gè)范疇詞典,它將一個(gè)舞蹈風(fēng)格類映射到一個(gè)更高維度的空間看靠。
然后求晶,我們將時(shí)間相干隨機(jī)噪聲與音樂(lè)風(fēng)格表現(xiàn)相結(jié)合,以產(chǎn)生隨時(shí)間變化的相干運(yùn)動(dòng)衷笋。因此芳杏,最終的潛在向量是將音頻類的密集可訓(xùn)練表示與在特征維數(shù)上的相干時(shí)間信號(hào)連接的結(jié)果。當(dāng)音頻是不同音樂(lè)風(fēng)格的混合時(shí)辟宗,這種連接在我們的方法生成具有多種舞蹈風(fēng)格的合成動(dòng)作的能力中起著關(guān)鍵作用爵赵。換言之,與一般的條件生成模型不同泊脐,條件作用僅限于一個(gè)類空幻,我們可以隨著時(shí)間的推移對(duì)多個(gè)類進(jìn)行條件化。
表示潛在向量的最終張量的大小為(2C容客;T秕铛;V)约郁,其中燭光的大小與相干時(shí)間信號(hào)相同。在最后一個(gè)音符中但两,T的生成與這個(gè)向量的生成成正比鬓梅。在運(yùn)動(dòng)生成器中傳播后的最終運(yùn)動(dòng)將有16T=N幀;因此谨湘,我們可以通過(guò)改變潛在向量的維數(shù)來(lái)生成任意FPS和長(zhǎng)度的樣本绽快。此外,由于通道的維度限制了學(xué)習(xí)紧阔,我們可以隨著時(shí)間的推移改變調(diào)節(jié)舞蹈的風(fēng)格坊罢。
高斯過(guò)程產(chǎn)生我們的隨機(jī)噪聲z和舞蹈風(fēng)格的密集表示是用于條件我們的模型。兩個(gè)數(shù)據(jù)的組合用作發(fā)電機(jī)的輸入擅耽。
3.3條活孩。運(yùn)動(dòng)合成論文的條件對(duì)抗GCN
為了產(chǎn)生逼真的動(dòng)作,我們使用一個(gè)經(jīng)過(guò)對(duì)抗策略訓(xùn)練的圖形卷積神經(jīng)網(wǎng)絡(luò)(GCN)乖仇。對(duì)抗性條件訓(xùn)練的核心思想是在mini-max博弈中诱鞠,學(xué)習(xí)兩個(gè)網(wǎng)絡(luò)相互競(jìng)爭(zhēng)時(shí)的數(shù)據(jù)分布。在我們的例子中这敬,運(yùn)動(dòng)生成器G試圖創(chuàng)建與運(yùn)動(dòng)訓(xùn)練集中的運(yùn)動(dòng)樣本相似的運(yùn)動(dòng)樣本航夺,而運(yùn)動(dòng)鑒別器D試圖將生成的運(yùn)動(dòng)樣本(假)與訓(xùn)練數(shù)據(jù)集的真實(shí)運(yùn)動(dòng)(真實(shí))區(qū)分開來(lái)。圖3說(shuō)明了培訓(xùn)方案崔涂。
發(fā)電機(jī)
我們的generator-Gis體系結(jié)構(gòu)主要由三種類型的層組成:時(shí)間和空間上采樣操作和圖形卷積阳掐。當(dāng)使用GCNs時(shí),對(duì)抗訓(xùn)練中出現(xiàn)的一個(gè)挑戰(zhàn)是需要在空間和時(shí)間維度上對(duì)潛在向量進(jìn)行上采樣冷蚂,以適應(yīng)運(yùn)動(dòng)空間M(方程1)
時(shí)間上采樣層由兩倍于時(shí)間維的轉(zhuǎn)置2D卷積組成缭保,忽略每個(gè)層的輸入形狀。受Yan等人[55]的啟發(fā)蝙茶,我們還在我們的架構(gòu)中加入了一個(gè)空間上采樣層艺骂。該層使用鄰接矩陣A定義的聚合函數(shù)來(lái)操作,該函數(shù)將具有V頂點(diǎn)和E邊的圖S(V隆夯;E)映射到更大的圖S上
在生成器的第一層钳恕,我們有一個(gè)節(jié)點(diǎn)包含總共N個(gè)特征;這些特征表示我們的潛在空間(一半來(lái)自高斯過(guò)程蹄衷,一半來(lái)自音頻表示)忧额。后續(xù)層的特征通過(guò)上采樣和聚集運(yùn)算來(lái)計(jì)算。最后一層輸出一個(gè)包含25個(gè)節(jié)點(diǎn)的圖形愧口,其中包含每個(gè)骨骼關(guān)節(jié)的(x睦番;y)坐標(biāo)。例如,在圖4中托嚣,從右到左巩检,我們可以看到上采樣操作,從一個(gè)有一個(gè)頂點(diǎn)的圖移動(dòng)到一個(gè)包含三個(gè)頂點(diǎn)的新圖
在應(yīng)用了時(shí)間和空間上采樣操作后示启,我們的生成器使用Yanet al.[56]定義的圖形卷積層兢哭。這些層負(fù)責(zé)創(chuàng)建圖之間的時(shí)空關(guān)系。首先對(duì)一個(gè)時(shí)間點(diǎn)進(jìn)行采樣丑搔,然后對(duì)一個(gè)頂點(diǎn)進(jìn)行空間采樣,然后對(duì)三個(gè)頂點(diǎn)進(jìn)行卷積運(yùn)算提揍。我們重復(fù)這三個(gè)操作啤月,從3個(gè)頂點(diǎn)上采樣到11個(gè)頂點(diǎn),最后從11個(gè)頂點(diǎn)上采樣到25個(gè)頂點(diǎn)劳跃,這表示最后的姿勢(shì)舅逸。圖3-(a)顯示了這個(gè)GCN架構(gòu)狡蝶。
鑒別器
鑒別器D具有與生成器使用的相同的體系結(jié)構(gòu),但是使用下采樣層而不是上采樣層。因此港柜,所有轉(zhuǎn)置的2D卷積被轉(zhuǎn)換為標(biāo)準(zhǔn)2D卷積,并且空間下采樣層遵循相同的上采樣操作過(guò)程伐蒂,但是使用具有可訓(xùn)練權(quán)重的聚集矩陣B褪子,不同于生成器學(xué)習(xí)的權(quán)重。由于聚集是從一個(gè)大的圖G到一個(gè)較小的圖G轻抱,最終的聚集由
在鑒別器網(wǎng)絡(luò)中飞涂,特征向量被符號(hào)化到每個(gè)節(jié)點(diǎn):第一層包含一個(gè)有25個(gè)節(jié)點(diǎn)的圖,其特征向量由歸一化空間上的(x祈搜;y)坐標(biāo)和輸入運(yùn)動(dòng)的類別組成较店。在隨后的層中,每個(gè)節(jié)點(diǎn)的特征通過(guò)下采樣和聚集操作來(lái)計(jì)算容燕。最后一層只包含一個(gè)節(jié)點(diǎn)梁呈,該節(jié)點(diǎn)輸出的輸入數(shù)據(jù)是假的還是真的。圖3-(b)說(shuō)明了鑒別器架構(gòu)蘸秘。
對(duì)抗訓(xùn)練
考慮到運(yùn)動(dòng)生成器和鑒別器官卡,我們的條件對(duì)抗網(wǎng)絡(luò)旨在最小化二進(jìn)制交叉熵?fù)p失:
其中,生成器的目標(biāo)是使鑒別器的誤差最大化醋虏,而鑒別器的目標(biāo)是最小化等式5所示的分類偽真誤差味抖。
發(fā)生器G在訓(xùn)練階段使用的數(shù)據(jù)是一對(duì)時(shí)間相干潛在向量z,其中有一個(gè)真實(shí)的運(yùn)動(dòng)樣本x灰粮,以及由音樂(lè)分類器給出的y值仔涩,該值可以推斷音頻的舞蹈風(fēng)格。
為了改進(jìn)生成的運(yùn)動(dòng)結(jié)果粘舟,我們使用一個(gè)運(yùn)動(dòng)重建損失項(xiàng)熔脂,在N個(gè)運(yùn)動(dòng)幀上的所有骨骼中應(yīng)用L1距離佩研,如下所示:
因此,我們的最終損失是運(yùn)動(dòng)重構(gòu)和c-GAN鑒別器損耗的加權(quán)和
其中l(wèi)amadb加權(quán)重建項(xiàng)霞揉。lamadb值是根據(jù)經(jīng)驗(yàn)選擇的旬薯,并且在整個(gè)訓(xùn)練階段都是固定的。關(guān)于lamadb大小的最初猜測(cè)遵循了Wang等人[50]選擇的值适秩。
我們?cè)谧詈蟮倪\(yùn)動(dòng)中應(yīng)用三次樣條插值來(lái)去除最終產(chǎn)生的運(yùn)動(dòng)幀M中的高頻偽影
4視聽舞蹈數(shù)據(jù)集
我們建立了一個(gè)新的數(shù)據(jù)集绊序,由人們跳舞不同音樂(lè)風(fēng)格的成對(duì)視頻組成。該數(shù)據(jù)集用于訓(xùn)練和評(píng)估音頻運(yùn)動(dòng)生成方法秽荞。我們將樣本分成訓(xùn)練集和評(píng)估集骤公,其中包含三種音樂(lè)/舞蹈風(fēng)格的多模態(tài)數(shù)據(jù):芭蕾舞、邁克爾杰克遜和莎莎舞扬跋。這兩組數(shù)據(jù)由兩種數(shù)據(jù)類型組成:從公開獲取的舞蹈演員視頻中精選出的視覺(jué)數(shù)據(jù)構(gòu)成音樂(lè)風(fēng)格的代表性動(dòng)作阶捆,以及來(lái)自我們訓(xùn)練的風(fēng)格的音頻數(shù)據(jù)。圖5顯示了我們數(shù)據(jù)集的一些數(shù)據(jù)示例钦听。
為了收集有意義的音頻信息洒试,我們從YouTube上選擇了幾個(gè)播放列表,并以伴奏/歌手的名字作為搜索查詢朴上。音頻是從搜索的結(jié)果視頻中提取出來(lái)的垒棋,并重新采樣為16KHz的標(biāo)準(zhǔn)音頻。對(duì)于視覺(jué)數(shù)據(jù)痪宰,我們從收集符合音樂(lè)風(fēng)格捕犬、有代表性動(dòng)作的視頻開始。每一段視頻都是通過(guò)為我們的數(shù)據(jù)集中的每一種舞蹈風(fēng)格選擇有代表性的動(dòng)作酵镜,在感興趣的部分進(jìn)行人工裁剪碉碉。然后,我們標(biāo)準(zhǔn)化整個(gè)數(shù)據(jù)集的運(yùn)動(dòng)速率淮韭,并將所有視頻轉(zhuǎn)換為每秒24幀(FPS)垢粮,保持幀數(shù)和演員移動(dòng)速度之間的恒定關(guān)系。我們用OpenPose估計(jì)每個(gè)視頻的25個(gè)2D人體關(guān)節(jié)姿勢(shì)靠粪。每個(gè)運(yùn)動(dòng)樣本被定義為一組64幀連續(xù)的二維人體姿勢(shì)蜡吧。
為了提高數(shù)據(jù)集中估計(jì)姿勢(shì)的質(zhì)量,我們利用視頻中的人體動(dòng)力學(xué)來(lái)處理關(guān)節(jié)缺失檢測(cè)占键。由于在短的幀間隔內(nèi)關(guān)節(jié)不會(huì)發(fā)生突變運(yùn)動(dòng)昔善,我們重新創(chuàng)建一個(gè)缺失的關(guān)節(jié),并應(yīng)用其父關(guān)節(jié)的變換鏈畔乙。換句話說(shuō)君仆,我們通過(guò)使子關(guān)節(jié)隨時(shí)間跟隨父關(guān)節(jié)的運(yùn)動(dòng)來(lái)推斷丟失的關(guān)節(jié)位置。因此,我們可以在我們的數(shù)據(jù)集中保留未檢測(cè)到關(guān)節(jié)的幀返咱。
.1條钥庇。運(yùn)動(dòng)增強(qiáng)
我們還進(jìn)行了運(yùn)動(dòng)數(shù)據(jù)增強(qiáng),以增加可變性和運(yùn)動(dòng)樣本的數(shù)量咖摹。我們使用第3.2節(jié)中描述的高斯過(guò)程评姨,在腿部和手臂的關(guān)節(jié)中隨時(shí)間增加時(shí)間相干噪聲。此外萤晴,我們還執(zhí)行了時(shí)間偏移(步幅)來(lái)創(chuàng)建新的運(yùn)動(dòng)樣本吐句。對(duì)于訓(xùn)練集,我們收集了69個(gè)樣本店读,并應(yīng)用了時(shí)間相干高斯噪聲和大小為32的時(shí)間偏移嗦枢。在評(píng)估數(shù)據(jù)集中,我們收集了229個(gè)樣本两入,由于樣本數(shù)量較少净宵,我們只對(duì)莎莎舞和芭蕾舞采用了32個(gè)大小的時(shí)間偏移敲才,而對(duì)邁克爾·杰克遜應(yīng)用了16個(gè)大小的時(shí)間偏移(見表1)裹纳。時(shí)間高斯噪聲不應(yīng)用于評(píng)估集中。我們數(shù)據(jù)集的統(tǒng)計(jì)數(shù)據(jù)如表1所示紧武。產(chǎn)生的視聽數(shù)據(jù)集包含數(shù)千個(gè)連貫的視頻剃氧、音頻和運(yùn)動(dòng)樣本,這些樣本代表了所考慮的舞蹈風(fēng)格的特征動(dòng)作阻星。1
我們使用相同的架構(gòu)和超參數(shù)進(jìn)行評(píng)估朋鞍,但在沒(méi)有數(shù)據(jù)擴(kuò)充的情況下,F(xiàn)r'echet初始距離(FID)度量的性能比使用數(shù)據(jù)擴(kuò)充時(shí)要差妥箕。此外滥酥,我們觀察到這些動(dòng)作并沒(méi)有表現(xiàn)出可變性,舞蹈風(fēng)格也沒(méi)有得到很好的描繪畦幢,在最糟糕的情況下坎吻,身體動(dòng)作很難被注意到。
5實(shí)驗(yàn)和結(jié)果
為了評(píng)估我們的方法宇葱,我們進(jìn)行了幾個(gè)實(shí)驗(yàn)瘦真,從音頻信息評(píng)估運(yùn)動(dòng)合成的不同方面。我們還將我們的方法與Lee等人[29]提出的最新技術(shù)(以下簡(jiǎn)稱D2M)進(jìn)行了比較黍瞧。我們選擇將我們的方法與D2M進(jìn)行比較诸尽,因?yàn)槠渌椒ǘ即嬖谝恍┲饕秉c(diǎn),使得與我們的方法進(jìn)行比較不合適印颤,例如[13]中的骨架結(jié)構(gòu)不同您机。不幸的是,由于D2M的公開實(shí)現(xiàn)中缺少一些組件,因此在音頻預(yù)處理步驟中幾乎不需要進(jìn)行調(diào)整往产。我們通過(guò)選擇可被28整除的音頻的最大長(zhǎng)度來(lái)標(biāo)準(zhǔn)化輸入音頻數(shù)據(jù)被碗,定義為asL,并將其重塑為一個(gè)維度張量仿村,以匹配其體系結(jié)構(gòu)的輸入維度锐朴。
實(shí)驗(yàn)是以下是:我)我們進(jìn)行了一個(gè)感性的用戶研究,使用一個(gè)盲的評(píng)估用戶試圖識(shí)別舞蹈動(dòng)作的舞蹈風(fēng)格蔼囊。除了我們對(duì)《盜夢(mèng)空間》和《盜夢(mèng)空間》中的《盜夢(mèng)空間》和《盜夢(mèng)空間》中的《盜夢(mèng)空間》這類視頻焚志,我們通常也會(huì)選擇《盜夢(mèng)空間》中的《盜夢(mèng)空間》和《盜夢(mèng)空間》中的用戶對(duì)《盜夢(mèng)空間》的評(píng)價(jià)方法(如《盜夢(mèng)空間》中的《盜夢(mèng)空間》和《盜夢(mèng)空間》中的《盜夢(mèng)空間》中的視頻,我們通常會(huì)選擇什么樣的方式來(lái)評(píng)價(jià)《盜夢(mèng)空間》中的《盜夢(mèng)空間》畏鼓,或者說(shuō)我們的酱酬,和GAN測(cè)試[43]。
5.2
我們對(duì)60名用戶進(jìn)行了一項(xiàng)感性研究云矫,收集了每個(gè)用戶的年齡膳沽、性別、計(jì)算機(jī)視覺(jué)/機(jī)器學(xué)習(xí)體驗(yàn)以及對(duì)不同舞蹈風(fēng)格的熟悉程度让禀。圖6顯示了參與者的配置文件挑社。
知覺(jué)研究由45個(gè)隨機(jī)排序的測(cè)試組成。對(duì)于每個(gè)測(cè)試巡揍,用戶觀看由vid2vid使用生成的一組姿勢(shì)合成的視頻(沒(méi)有聲音)痛阻。然后,我們讓他們把合成視頻中的動(dòng)作關(guān)聯(lián)起來(lái)腮敌,認(rèn)為它們屬于某個(gè)音頻類:芭蕾舞阱当、邁克爾·杰克遜或莎莎舞。在每一個(gè)問(wèn)題中糜工,用戶被要求聽每一類的一個(gè)音頻來(lái)幫助他們對(duì)視頻進(jìn)行分類弊添。這組問(wèn)題由15個(gè)由我們的方法生成的運(yùn)動(dòng)視頻,15個(gè)D2M生成的視頻[29]和15個(gè)從我們的訓(xùn)練數(shù)據(jù)集中提取的真實(shí)動(dòng)作視頻組成捌木。我們對(duì)所有數(shù)據(jù)應(yīng)用了相同的變換油坝,每個(gè)視頻都有一個(gè)化身,用一個(gè)尺寸大致相同的骨架來(lái)執(zhí)行運(yùn)動(dòng)钮莲。我們?cè)谌N舞蹈風(fēng)格中平均分配了15段視頻免钻。
從表2和圖6中,我們得出以下觀察結(jié)果:首先崔拥,我們的方法獲得了與實(shí)際數(shù)據(jù)相似的運(yùn)動(dòng)感知性能极舔。第二,我們的方法比D2M方法有很大的優(yōu)勢(shì)链瓦。因此拆魏,我們認(rèn)為我們的方法能夠生成真實(shí)的運(yùn)動(dòng)樣本盯桦,同時(shí)考慮到以下兩個(gè)因素方面:一)我們的表現(xiàn)類似于盲研究中真實(shí)運(yùn)動(dòng)數(shù)據(jù)的結(jié)果;ii)用戶在對(duì)我們生成的運(yùn)動(dòng)進(jìn)行分類時(shí)顯示出更高的準(zhǔn)確性渤刃。此外拥峦,就單個(gè)運(yùn)動(dòng)的質(zhì)量而言,圖7和圖8顯示卖子,我們的方法還能夠生成樣本之間具有運(yùn)動(dòng)可變性的樣本略号。
我們用難度指數(shù)和項(xiàng)目區(qū)分指數(shù)兩個(gè)統(tǒng)計(jì)檢驗(yàn)來(lái)檢驗(yàn)問(wèn)題的效度。難度指數(shù)通過(guò)確定正確回答問(wèn)題的用戶比例(即準(zhǔn)確性)來(lái)衡量回答一個(gè)項(xiàng)目的難易程度洋闽。另一方面玄柠,項(xiàng)目區(qū)分指數(shù)衡量一個(gè)給定的測(cè)試題如何區(qū)分掌握動(dòng)作風(fēng)格分類的用戶和沒(méi)有掌握動(dòng)作風(fēng)格分類的用戶。我們的方法分析是基于Luger和Bowles[34]描述的指導(dǎo)方針诫舅。表2顯示了研究中所有問(wèn)題的指數(shù)平均值羽利。我們可以清楚地看到,我們的方法的問(wèn)題具有更高的難度指標(biāo)值刊懈,這意味著參與者更容易正確回答問(wèn)題这弧,在某些情況下,甚至比真實(shí)的運(yùn)動(dòng)數(shù)據(jù)更容易回答虚汛。關(guān)于辨別指數(shù)匾浪,我們指出,這些問(wèn)題不足以區(qū)分參加測(cè)試者的能力水平泽疆,因?yàn)榕袆e指數(shù)值在0到0:29之間的項(xiàng)目不被認(rèn)為是好的選擇者[10]户矢。這些結(jié)果表明玲献,我們的方法和從真實(shí)序列中獲得的視頻對(duì)大多數(shù)用戶來(lái)說(shuō)是自然的殉疼,而由[29]生成的視頻是融合的。
5.3條捌年。定量評(píng)價(jià)
為了更詳細(xì)地評(píng)估學(xué)習(xí)分布和實(shí)際分布之間的相似性瓢娜,我們使用了常用的Fr'echet初始距離(FID)。我們使用從[56]中提出的動(dòng)作識(shí)別ST-GCN模型中提取的運(yùn)動(dòng)特征來(lái)計(jì)算FID值礼预,類似于[55眠砾,29]中使用的度量。我們使用相同的超參數(shù)集訓(xùn)練ST-GCN模型50次托酸。經(jīng)過(guò)訓(xùn)練的模型在幾乎所有50個(gè)訓(xùn)練試驗(yàn)中的準(zhǔn)確率得分都高于90%褒颈。用于訓(xùn)練特征向量抽取器的數(shù)據(jù)沒(méi)有用于訓(xùn)練本文中評(píng)估的任何方法。表3顯示了FID指標(biāo)的結(jié)果励堡。
我們還計(jì)算了GAN Train和GAN測(cè)試度量谷丸,這兩個(gè)著名的GAN評(píng)估度量[43]。為了計(jì)算GAN序列度量值应结,我們將ST-GCN模型訓(xùn)練到一個(gè)由我們的方法生成的舞蹈運(yùn)動(dòng)樣本集和另一個(gè)由D2M生成的運(yùn)動(dòng)樣本集組成的集合中刨疼,然后在評(píng)估集(真實(shí)樣本)中對(duì)模型進(jìn)行測(cè)試泉唁。在評(píng)價(jià)集中訓(xùn)練同一分類器得到GAN測(cè)試值,并在生成的運(yùn)動(dòng)集合中進(jìn)行測(cè)試揩慕。對(duì)于每個(gè)指標(biāo)亭畜,我們進(jìn)行了50輪訓(xùn)練,并報(bào)告了平均準(zhǔn)確度迎卤,標(biāo)準(zhǔn)差見表3拴鸵。與D2M相比,我們的方法獲得了更好的性能蜗搔。
我們還可以注意到生成器在某些舞蹈風(fēng)格中表現(xiàn)更好宝踪。由于有些動(dòng)作比其他動(dòng)作更復(fù)雜,我們的生成器的性能可以更好地合成與舞蹈風(fēng)格相關(guān)的特定音頻類相關(guān)的不太復(fù)雜的運(yùn)動(dòng)碍扔。例如瘩燥,Michael Jackson風(fēng)格包含了更豐富的運(yùn)動(dòng)集合,骨骼關(guān)節(jié)在各種配置中旋轉(zhuǎn)和平移不同。另一方面厉膀,芭蕾風(fēng)格由較少的姿勢(shì)組成,因此更容易合成二拐。
5.4條服鹅。定性評(píng)價(jià)
圖7、8和9顯示了一些定性結(jié)果百新。我們可以注意到企软,D2M生成的序列呈現(xiàn)出一些明顯的舞蹈風(fēng)格固有的特征,但它們并不是沿著整個(gè)序列呈現(xiàn)的饭望。例如仗哨,在圖7中,可以看到最后生成的骨架/幀看起來(lái)像旋轉(zhuǎn)铅辞,通常在芭蕾表演中看到厌漂,但是之前的姿勢(shì)并不表示與這種舞蹈風(fēng)格有任何關(guān)聯(lián)。相反斟珊,我們的方法生成通常與芭蕾動(dòng)作相關(guān)聯(lián)的姿勢(shì)苇倡,例如用伸展的手臂旋轉(zhuǎn)軀干。
圖8顯示囤踩,對(duì)于所有三種舞蹈風(fēng)格旨椒,動(dòng)作特征都被保留下來(lái)。此外堵漱,圖9中的實(shí)驗(yàn)1表明综慎,我們的方法對(duì)音頻風(fēng)格的變化有很高的響應(yīng),因?yàn)槲覀兊姆诸惼靼错樞蜃饔糜诤罄m(xù)的音樂(lè)部分怔锌。這使它能夠生成視頻寥粹,表演者在其中執(zhí)行不同風(fēng)格的動(dòng)作变过。綜上所述,這些結(jié)果表明涝涤,我們的方法有能力創(chuàng)造高度區(qū)分和合理的舞蹈動(dòng)作媚狰。請(qǐng)注意,在質(zhì)量上阔拳,我們?cè)谒形璧革L(fēng)格上都優(yōu)于D2M崭孤,包括芭蕾舞風(fēng)格,這是D2M精心打造的糊肠。圖9中的實(shí)驗(yàn)2還表明辨宠,我們的方法可以從給定的輸入音樂(lè)中生成不同的序列。由于我們的模型是以音頻分類管道中的音樂(lè)風(fēng)格為基礎(chǔ)货裹,而不是以音樂(lè)本身為基礎(chǔ)嗤形,因此我們的方法在保持每種舞蹈風(fēng)格的學(xué)習(xí)動(dòng)作特征的同時(shí),展示了產(chǎn)生各種動(dòng)作的能力弧圆。
6
本文提出了一種從音樂(lè)合成人體運(yùn)動(dòng)的新方法赋兵。與以前的方法不同,我們使用圖卷積網(wǎng)絡(luò)來(lái)解決這個(gè)問(wèn)題搔预。我們使用音頻數(shù)據(jù)來(lái)調(diào)節(jié)動(dòng)作生成霹期,并根據(jù)舞蹈風(fēng)格產(chǎn)生逼真的人體動(dòng)作。與最新技術(shù)相比拯田,我們?nèi)〉昧硕ㄐ院投康男阅芾臁T贔ID、GAN訓(xùn)練和GAN測(cè)試指標(biāo)方面船庇,我們的方法優(yōu)于隨音樂(lè)跳舞吭产。在我們的研究中,我們也觀察到了一個(gè)與我們的參賽者相似的舞蹈動(dòng)作溢十。
此外垮刹,我們提出了一個(gè)新的包含視聽數(shù)據(jù)的數(shù)據(jù)集达吞,這些數(shù)據(jù)集被精心收集來(lái)訓(xùn)練和評(píng)估設(shè)計(jì)用于在舞蹈場(chǎng)景中合成人體運(yùn)動(dòng)的算法张弛。我們的方法和數(shù)據(jù)集是培養(yǎng)產(chǎn)生人體運(yùn)動(dòng)的新方法的一步。作為未來(lái)的工作酪劫,我們打算將我們的方法擴(kuò)展到三維人體運(yùn)動(dòng)吞鸭,這將允許我們?cè)诓煌膭?dòng)畫框架中使用生成的運(yùn)動(dòng)。我們還計(jì)劃通過(guò)添加更多的舞蹈風(fēng)格來(lái)增加數(shù)據(jù)集的大小