在日常交流中,人類能夠通過聆聽語言和觀察表情以及姿態(tài)動作等捕捉對方的情感變化躁劣,識別情感狀態(tài)信息晃琳,進(jìn)而進(jìn)行情感交流。而如果想讓機器能夠像人一樣的感知和理解情感姆涩,那么就必須讓機器能夠?qū)θ祟愡@方面的能力進(jìn)行模擬挽拂,進(jìn)而讓機器具有捕捉多模態(tài)的情感特征,并對其進(jìn)行處理骨饿,最后表達(dá)出相應(yīng)人類情感的能力亏栈。
一、情感特征提取
1.1 語音信號
1.1.1 語音信號預(yù)處理
在情感交互系統(tǒng)中宏赘,進(jìn)行語音情感的識別首先需要實現(xiàn)語音信號的采集绒北,一般用麥克風(fēng)進(jìn)行語音采集。在實時采集完成后察署,需要對語音信號進(jìn)行預(yù)處理闷游,主要流程如下:
采樣過程是以一定的時間間隔 T 對連續(xù)的語音信號進(jìn)行取值,將連續(xù)信號變?yōu)殡x散信號的過程贴汪,其中 T 為采樣周期脐往,采樣頻率 F = 1 / T。其中扳埂,采樣頻率很關(guān)鍵业簿,若過高,就會包含冗余信號信息阳懂,而過低則產(chǎn)生不同程度的信號失真梅尤。一般來說柜思,采樣頻率大于所采集信號最高頻的兩倍時,就能較為完整地保留信息且可對原始信號進(jìn)行重構(gòu)巷燥。
采樣完成后的語音信號在幅度上并沒有離散化酝蜒,而量化就是將信號幅值進(jìn)行離散化,其過程是把幅值分為幾個有限區(qū)間矾湃,將落入同一區(qū)間的樣本點用該區(qū)間代表的幅值來統(tǒng)一表示
由于聲門激勵等對語音信號的影響亡脑, 其平均功率譜在800Hz以上的高頻部分按照6dB倍頻程衰減,就需要加入預(yù)加重處理來補償?shù)涞墓β恃尽R话闶怯靡粋€預(yù)加重濾波器處理信號霉咨,然后還需要再加上 -6dB 倍頻程的頻率特性來去除預(yù)加重以還原原來的信號特性。
加窗處理是用一個窗截取語音信號拍屑,實際上是進(jìn)行短時分析途戒。目前,常用的窗函數(shù)有矩形窗僵驰、海寧窗和漢明窗等喷斋。而語音信號進(jìn)過加窗后得到一幀一幀的短時信號,按照順序依次提取每一幀短時信號數(shù)據(jù)進(jìn)行分析處理得到相應(yīng)的參數(shù)蒜茴,再由每一幀所有的參數(shù)構(gòu)成語音情感特征參數(shù)的時間序列星爪。
一般來說,語音信號包括無聲和有聲的部分粉私,有聲部分又包含背景噪聲等非語音信號顽腾,端點檢測就是從中檢測出用于分析處理的有聲信號部分。常用的方法有短時能量分析诺核、短時過零率或基于短時能量和過零率的雙門限端點檢測法
1.1.2 聲學(xué)情感特征提取
一般語音情感特征分為語言學(xué)和非語言學(xué)特征抄肖,基于語言學(xué)的情感特征一般包含于語義信息中,如詞匯窖杀、語法漓摩、語境和句法等,非語言學(xué)特征就是基于聲學(xué)的情感特征入客,基于不同類型特征的語音情感識別流程如下:
其中聲學(xué)情感特征提取有基頻管毙、共振峰、Mel頻率倒數(shù)系數(shù)痊项、非個性化特征锅风、特征統(tǒng)計等方法。
1.2 視覺信號
面部表情是情感表達(dá)中最直觀的一種方式鞍泉,對視覺信號的處理即識別面部表情皱埠,主要是利用計算機對人臉的表情信息進(jìn)行特征提取分析,按照人的認(rèn)知和思維方式加以歸類和理解咖驮,結(jié)合現(xiàn)有情感信息方面的先驗知識對人臉信息中分析理解人的情緒和情感边器。
人臉表情識別系統(tǒng)框架將人臉表情識別分為三個過程训枢,即人臉檢測定位獲取、人臉特征提取忘巧、人臉表情特征分類恒界,具體框架圖如下:
1.2.1 人臉檢測與定位
目前人臉檢測方法有三種,即基于人臉幾何特征的方法砚嘴、基于人臉膚色模型的方法和基于人臉統(tǒng)計理論的方法十酣。
a、基于人臉幾何特征的方法
人的面部器官具有幾何運動變化的特點际长,會隨面部運動而產(chǎn)生一定的幾何改變耸采,這種在物理幾何上體現(xiàn)的輪廓變化即人臉的幾何特征。目前存在如下三種方法:
一是基于先驗知識的方法工育,該方法利用人類的灰度差異和對稱性來制定相應(yīng)準(zhǔn)則檢測人臉是否存在虾宇;
二是基于特征不變的方法,該方法主要是檢測如眼睛如绸、鼻子嘱朽、嘴巴等不變的特定特征來判斷人臉的存在。該方法具有識別率高和穩(wěn)定性好等優(yōu)點怔接,但易被噪聲和遮擋等因素的干擾搪泳,對檢測圖像要求較高;
三是基于模板的方法蜕提,該方法給定一個人臉模板森书,并確定其模板的值,通過對照的方法谎势,如果模板匹配則檢測出人臉,否則檢測錯誤杨名。該方法具有過程簡單脏榆、容易實現(xiàn)等優(yōu)點,但檢測精度不高台谍、效果不好须喂、檢測率低。
b趁蕊、基于人臉膚色模型的方法
由于膚色不依賴于面部其他器官坞生,相對來說具有較強的穩(wěn)定性,因此可以通過檢測膚色來進(jìn)行人臉檢測與定位掷伙。
人臉膚色特征一般通過建立相應(yīng)的模型來描述是己,檢測時首先根據(jù)被測圖像像素與膚色模型的相似程度,結(jié)合空間相關(guān)性將可能的人臉區(qū)域從背景中分割出來任柜;然后對分割出的區(qū)域進(jìn)行幾何特征分析卒废,確定與人臉特征的相關(guān)值沛厨,從而排除非人臉的似膚色區(qū)域,達(dá)到檢測人臉的目的摔认。
c逆皮、基于人臉統(tǒng)計理論的方法
該方法從整個人臉的角度出發(fā),利用統(tǒng)計的原理参袱,從眾多圖像中提出人臉共有的一些規(guī)律來進(jìn)行人臉檢測电谣。因人臉圖像的復(fù)雜性,描述人臉特征具有一定困難抹蚀,所以基于統(tǒng)計的方法更加受到重視剿牺。主要的方法有子空間、支持向量機况鸣、隱馬爾可夫模型牢贸、神經(jīng)網(wǎng)絡(luò)和Adaboost。
1.2.2 人臉表情特征提取
人臉表情特征提取的核心目標(biāo)是提取人臉圖像中可分性好的表情信息镐捧,同時達(dá)到數(shù)據(jù)降維的目的潜索。目前,在表情識別中懂酱,提取的特征包括原始特征竹习、形變特征和運動特征。主要存在兩種提取表情特征的方法:基于形變的表情特征提取和基于運動的表情特征提取列牺。
a整陌、基于形變的表情特征提取
該方法主要包括基于子空間、幾何特征瞎领、模型泌辫、Gabor小波變換等方法。
基于子空間的方法包括主成分分析PCA九默、線性判別分析LDA震放。其特點是用一個正交維數(shù)空間來說明數(shù)據(jù)變化的主要方向。通過減少在表情識別中處理數(shù)據(jù)的時間進(jìn)而提高表情識別的速率甚至識別率驼修。
基于幾何特征的方法主要考慮了人臉表情跟人臉運動有較大的關(guān)聯(lián)殿遂,通過對顯著特征包括眼睛、眉毛乙各、嘴巴的位置變化進(jìn)行定位測量提取表情特征墨礁。在本身質(zhì)量較差或復(fù)雜環(huán)境中,以及不能精確定位到表情信息區(qū)域時耳峦,特征提取效果不佳恩静。
基于模型的方法可以在一定條件下提取人臉幾何形變特征和紋理特征信息,但需要人工干預(yù)妇萄,處理信息量較大蜕企,計算復(fù)雜咬荷。
基于Gabor小波變換的方法在模式識別領(lǐng)域有著廣泛應(yīng)用,它通過一組具有不同時頻特性的濾波器轻掩,可多方向幸乒、多尺度地提取原始圖像在每個通道下的局部特征,具有良好的空間位置以及方向選擇性唇牧。
b罕扎、基于運動的表情特征提取
該方法將表情看成一個運動場,通過面部運動的變化信息來分析丐重、識別面部表情腔召,主要核心是將運動變化作為識別特征。目前扮惦,主要有光流法臀蛛、特征點跟蹤法。
光流是一種表達(dá)方式崖蜜,通過點的速度在視覺傳感器的成像來表現(xiàn)浊仆,其針對的是空間物體表面的某一點。光流法就是通過將器官變化以及變化趨勢用表情特征點的光流表示出來豫领,以此表示表情的變化抡柿。
特征點跟蹤法是將人臉中各個部分的特征點隨人臉變化而變化的位置改變作為一個要提取的特征向量。在提取時等恐,主要集中在表情變化幅度較大的區(qū)域洲劣,其他部分忽略,這樣減少計算量课蔬,解決了在表情識別過程中 處理數(shù)據(jù)量大的問題囱稽。不足的是需要人工標(biāo)定,因此可能忽略某些重要的表情信息二跋,對識別結(jié)果有一定的不利影響粗悯。
二、情感信息融合
當(dāng)進(jìn)行多模態(tài)情感交互時同欠,通過多通道傳感器獲取交互者當(dāng)前情感狀態(tài)下不同模態(tài)的情感信號,再進(jìn)行數(shù)據(jù)融合與決策横缔。其關(guān)鍵在于將各通道的情感特征數(shù)據(jù)融合铺遂,并按一定規(guī)則判別出對應(yīng)的情感類別屬性。多模態(tài)情感信息融合分為特征級融合與決策融合兩種方式茎刚,整體框架如下:
2.1 特征級融合
特征級融合包括兩部分:首先對來自傳感器的原始信息進(jìn)行特征處理襟锐,然后對特征信息進(jìn)行綜合分析和處理。
特征級融合的優(yōu)點在于實現(xiàn)了可觀的信息壓縮膛锭,有利于實時處理粮坞,且所提取的特征直接與決策分析有關(guān)蚊荣,因此融合結(jié)果能最大限度地給出決策分析所需要的特征信息。這種方法對通信帶寬的要求低莫杈,但數(shù)據(jù)丟失使其準(zhǔn)確性有所下降互例。
當(dāng)多模態(tài)信息來自緊密耦合的傳感器或是同步的模態(tài)信息,特別是當(dāng)這些信息針對同一內(nèi)容而又不相互包含時筝闹,特征級融合方法能最大限度地保留原始信息媳叨,理論上可以達(dá)到最佳識別效果。
在多模態(tài)信息融合中关顷,特征級融合策略是先將每個模態(tài)下的情感特征數(shù)據(jù)分別提取處理糊秆,然后將全部模態(tài)的特征數(shù)據(jù)級聯(lián)為一個特征向量用于情感識別,對于全部模態(tài)的情感特征數(shù)據(jù)僅設(shè)計一個情感分類器议双,該分類其的輸出即待測試樣本的情感類型預(yù)測結(jié)果痘番,其示意圖如下:
目前,這一層次的主要方法有特征串聯(lián)平痰、特征并聯(lián)和基于神經(jīng)網(wǎng)絡(luò)的方法等汞舱。
特征串聯(lián)即每一個傳感器接收前一級傳感器傳來的結(jié)果,然后將處理后的信息往后傳觉增,直至結(jié)果達(dá)到某個給定的可信度或最后一級融合兵拢。其優(yōu)點是融合效果好,缺點是對線路的故障非常敏感逾礁,若中間一級發(fā)生故障熊户,整個融合都將終止。
特征并聯(lián)是將所有傳感器把各自的信息數(shù)據(jù)傳輸給融合中心朋腋,融合中心按一定規(guī)則將各傳感器信息進(jìn)行融合轴脐,做出最終決策。優(yōu)點是對線路不敏感砾嫉,缺點是速度慢幼苛。
神經(jīng)網(wǎng)絡(luò)可根據(jù)當(dāng)前系統(tǒng)所接收的樣本相似性,確定分類標(biāo)準(zhǔn)焕刮。這種確定分類的方法主要表現(xiàn)在網(wǎng)絡(luò)權(quán)值分布上舶沿。同時,也可采用神經(jīng)網(wǎng)絡(luò)特定的學(xué)習(xí)算法來獲取知識配并,得到不確定性推理機制括荡。
2.2 決策級融合
決策級融合是在融合之前,每個局部傳感器相應(yīng)的處理部件已獨立完成了決策或分類任務(wù)溉旋,其實質(zhì)是按一定的準(zhǔn)則和每個傳感器的可信度進(jìn)行協(xié)調(diào)畸冲,做出全局最優(yōu)決策。決策級融合是一個聯(lián)合決策結(jié)果,在理論上比任何單傳感器決策更精確邑闲、更明確算行。同時,它也是一種高層次融合苫耸,其結(jié)果可為最終決策提供依據(jù)州邢。因此,決策級融合必須從具體決策問題的需求出發(fā)鲸阔,充分利用特征級融合所提取的測量對象的各種特征信息偷霉,采用適當(dāng)?shù)娜诤霞夹g(shù)來實現(xiàn)。決策級融合是直接針對具體決策目標(biāo)的褐筛,融合結(jié)果直接影響決策水平类少。
與特征級融合不同,決策級融合策略將不同模態(tài)的情感特征看出是相互獨立的渔扎,并考慮不同模態(tài)情感特征數(shù)據(jù)對情感識別的重要性硫狞。決策級融合策略首先為每個模態(tài)的情感特征數(shù)據(jù)設(shè)計相應(yīng)的情感分類器,然后根據(jù)一定的判決規(guī)則對每個分類器的輸出進(jìn)行決策合成最終的情感識別結(jié)果晃痴,其示意圖如下:
決策層融合所采用的方法有貝葉斯推理残吩、Dempster-Shafer證據(jù)理論和模糊推理等。
貝葉斯推理是融合靜態(tài)環(huán)境中多傳感器底層數(shù)據(jù)的一種常用方法倘核,其信息描述為概率分布泣侮,適用于具有可加高斯噪聲的不確定性。
Dempster-Shafer證據(jù)理論是基于證據(jù)理論的一種推理方法紧唱,其中證據(jù)分為支持證據(jù)活尊、拒絕證據(jù)和中性證據(jù)。當(dāng)用于多傳感器數(shù)據(jù)融合時漏益,從傳感器獲得的相關(guān)數(shù)值就是該理論中的證據(jù)蛹锰,構(gòu)成待識別目標(biāo)模式的信度函數(shù)分配,每個傳感器形成一個證據(jù)組绰疤。當(dāng)融合時铜犬,即按一定規(guī)則聯(lián)合每個傳感器的信度函數(shù)分配形成融合的信度函數(shù)分配,從而為目標(biāo)模式的決策提供綜合準(zhǔn)確的信息轻庆。
由于各信息源提供的環(huán)境信息具有一定的不確定性癣猾,對這些不確定信息的融合過程實際上就是一個不確定性推理過程,模糊推理就可以處理這種不確定性余爆,綜合利用多種傳感器信息來獲得有關(guān)目標(biāo)的知識煎谍,可以避免單一傳感器的局限性,減少不確定性誤差的影響龙屉。
三、情感表達(dá)
3.1語音合成
實現(xiàn)語音的情感表達(dá),最主要的是語音合成转捕,但語音合成著重于語音詞匯的準(zhǔn)確表達(dá)作岖,因此聽起來比較單調(diào)乏味、不自然五芝,而情感語音合成就是在語音合成過程加入情感因素痘儡,就會使語音表達(dá)的質(zhì)量和自然度提高很多。常用方法包括基于波形拼接的合成方法枢步、基于韻律特征的合成方法和基于統(tǒng)計參數(shù)特征的合成方法沉删。
基于波形拼接的合成方法首先要建立一個情感語音語料庫,然后對輸入進(jìn)行文本分析和韻律分析醉途,得到基本單元信息矾瑰,如半音節(jié)、音節(jié)隘擎、音素殴穴、字等,按一定的規(guī)則在語料庫中尋找合適的語音單元货葬,根據(jù)需求進(jìn)行一定的修改和調(diào)整采幌,然后進(jìn)行拼接處理得到想要的情感語音。該方法合成語音的自然度高震桶、清晰且可描述性高休傍。但只能得到語料庫中有限的情感語音,擴展性較差蹲姐。
基于韻律特征的合成方法主要是通過改變韻律特征來表達(dá)特定的情感磨取,其主要特征是基頻、時長和能量淤堵。這三個韻律特征在不同的情感表達(dá)中是不同的寝衫。基頻是反映情感的重要特征拐邪,是提高合成自然度的關(guān)鍵因素慰毅;時長表達(dá)的是語速特征,當(dāng)人處于不同情感狀態(tài)時扎阶,語速會有相應(yīng)的變化汹胃;能量表現(xiàn)在語音信號的振幅上,例如對于高興东臀、害怕等情感着饥,信號振幅的幅度值往往較高,而悲傷情感的幅度值較低惰赋。
基于統(tǒng)計參數(shù)特征的合成方法是通過提取基因頻率宰掉、共振峰等語音特征呵哨,運用隱馬爾可夫模型對特征進(jìn)行訓(xùn)練得到模型參數(shù)。該方法主要分為兩個階段:模型訓(xùn)練和語音合成轨奄。模型訓(xùn)練需要根據(jù)經(jīng)驗先進(jìn)行參數(shù)設(shè)置孟害,然后進(jìn)行數(shù)據(jù)準(zhǔn)備,包括聲學(xué)數(shù)據(jù)和標(biāo)注數(shù)據(jù)挪拟。語音合成階段是對輸入文本進(jìn)行文本分析得到上下文屬性挨务,然后根據(jù)上下文屬性及頻譜、基頻和時長的決策樹得到相應(yīng)的模型序列玉组,接著利用參數(shù)生成算法生成相應(yīng)的普參數(shù)和基頻谎柄,利用合成器合成最終情感語音。
3.2 面部表情合成與表達(dá)
面部表情作為人體語言的一部分惯雳,在人機交流中有著重要意義朝巫,其合成一般是利用計算機技術(shù)在屏幕上合成一張帶有表情的人臉圖像。常用方法有基于偽肌肉模型的方法吨凑、基于運動向量分析的方法和基于統(tǒng)計學(xué)分析的方法捍歪。
基于偽肌肉模型的方法是采用樣條曲線、張量鸵钝、自由曲面變形等方法模擬肌肉彈性糙臼。主要建立三種肌肉數(shù)學(xué)模型:線性肌模型、括約肌模型和扁平肌模型恩商,在偽肌肉表情合成時变逃,真正受力且能夠控制的是這三種肌肉模型,把其合成在一起完成面部表情的表達(dá)怠堪。
基于運動向量分析的方法主要是對面部表情向量進(jìn)行分析得到基向量揽乱,再對基向量進(jìn)行線性組合得到合成的表情。而面部表情主要是由眉毛粟矿、眼睛凰棉、鼻子、下頜陌粹、嘴巴的運動來實現(xiàn)撒犀,因此該方法就通過描述各個部分運動情況,得到面部各運動點示意圖掏秩,建立運動學(xué)模型或舞,通過控制機構(gòu)運動完成情感表達(dá)。
基于統(tǒng)計學(xué)分析的方法合成人臉的基本思想是利用訓(xùn)練樣本庫中的人臉圖像以線性組合或其他組合方式來表示新的人臉蒙幻,這需要先從照片或視頻中提取人臉特征點映凳,將不同特征點進(jìn)行計算得到空間坐標(biāo),然后進(jìn)行插值變形邮破,從而重構(gòu)出三維人臉模型诈豌。其中需要額外注意的是兩個人臉圖像的屬性仆救,一是形狀,可有從真實圖像中進(jìn)行特征提榷友派桩;二是紋理,不能直接利用原始圖像輪廓區(qū)域內(nèi)的紋理來建立模型蚌斩,需要一組具有相同維數(shù)和相同對應(yīng)關(guān)系的紋理向量來建模。該方法的優(yōu)點是合成效果真實感強范嘱,具有和照片一樣的真實度送膳。但訓(xùn)練模型需要大量數(shù)據(jù),當(dāng)訓(xùn)練樣本數(shù)較少時丑蛤,訓(xùn)練結(jié)果也對訓(xùn)練集有一定的依賴性叠聋。
附:學(xué)習(xí)書目
《情感計算與情感機器人系統(tǒng)》吳敏 劉振燾 陳略峰