語音情感識別總綱

姓名：成杰? ? ?學號：21021210653? ? 學院：電子工程學院

轉自：https://zhuanlan.zhihu.com/p/496818604

【嵌牛導讀】

語音作為語言的第一屬性岛蚤，在語言中起決定性的支撐作用芹扭，不僅包含說話人所要表達的文本內容蜻展，也包含說話人所要表達的情感信息卖陵。情感與人態(tài)度中的內向感受唐责、意向具有協(xié)調一致性瞒爬，是態(tài)度在生理上一種較復雜而又穩(wěn)定的評價和體驗。

情感是一種綜合了人類行為蜀变、思想和感覺的現(xiàn)象悄谐，語音情感是指從語音信號中獲取相應情感信息。心理學把情感定義為人對客觀現(xiàn)實的一種特殊反映库北，是人對于客觀事物是否符合人的需要而產(chǎn)生的態(tài)度體驗尊沸，其本質就是人腦對于客觀事物價值的主觀反映。

人類之所以能夠通過聆聽語音捕捉對方情感狀態(tài)的變化贤惯，是因為人腦具備了感知和理解語音信號中的能夠反映說話人情感狀態(tài)的信息(如特殊的語氣詞、語調的變化等)的能力棒掠。但人類的語音情感變化是一個抽象的動態(tài)過程孵构，難以使用靜態(tài)信息對其情感交互進行描述，而人工智能的興起為語音情感識別的發(fā)展帶來了新的契機烟很。

語音情感識別是人機情感交互的關鍵颈墅，對語音情感的有效識別能夠提升語音可懂度，使各種智能設備最大限度理解用戶意圖雾袱，提高機器人性化水平恤筛，從而更好地為人類服務。

【嵌牛鼻子】

語音情感識別芹橡、人機交互毒坛、語音可懂度

【嵌牛提問】

哪些語音特征信息對情感識別有效？如何提取煎殷？特征提取之后如何進行融合與預處理屯伞？

【嵌牛正文】?
1. 重要性

情感信息主要表現(xiàn)在內、外兩個層面：

內在情感信息指心率豪直、脈搏劣摇、血壓等無法通過外表觀察到的信息；

外在情感信息指面部表情弓乙、聲音末融、語氣、眉頭暇韧、姿勢等通過外表能觀察到的信息勾习。

語音情感識別是計算機對人類上述情感感知和理解過程的模擬，利用計算機分析情感锨咙，提取出情感特征值语卤，并利用這些參數(shù)進行相應的建模和識別，建立特征值與情感的映射關系酪刀，最終對情感分類粹舵。

即：從采集到的語音信號中提取表達情感的聲學特征，并找出這些特征與人類情感的映射關系骂倘。

語音情感識別是人機情感交互的關鍵眼滤，對語音情感的有效識別能夠提升語音可懂度，使各種智能設備最大限度理解用戶意圖历涝，提高機器人性化水平诅需，從而更好地為人類服務。

2. 情感描述模型

情感描述方式大致可分為離散和連續(xù)兩種形式荧库。

離散形式：將情感描述為離散的堰塌、形容詞標簽的形式，如高興分衫、憤怒等场刑。

在人們的日常交流過程中被廣泛使用，同時還被普遍運用于早期的情感相關研究中．豐富的語言標簽描述了大量的情感狀態(tài)蚪战，一般認為牵现，那些能夠跨越不同人類文化，甚至能夠為人類和具有社會性的哺乳動物所共有的情感類別為基本情感．下表列舉了不同學者對基本情感的定義和劃分邀桑，其中瞎疼，美國心理學家Ekman提出的6大基本情感(又稱為big six)在當今情感相關研究領域的使用較為廣泛。

連續(xù)形式：即維度形式壁畸，將情感狀態(tài)描述為多維情感空間中的點贼急。

這里的情感空間實際上是一個笛卡爾空間茅茂，空間的每一維對應著情感的一個心理學屬性(例如，表示情感激烈程度的激活度屬性以及表明情感正負面程度的效價屬性)．理論上竿裂，該空間的情感描述能力能夠涵蓋所有的情感狀態(tài)．換句話說玉吁，任意的、現(xiàn)實中存在的情感狀態(tài)都可以在情感空間中找到相應的映射點腻异，并且各維坐標值的數(shù)值大小反映了情感狀態(tài)在相應維度上所表現(xiàn)出來的強弱程度进副。

維度情感模型可以在二維或多維空間中構造，用以描述連續(xù)情感悔常∮鞍撸可利用效價?喚醒二維模型(valence-arousal, VA) 描述情感的極性和度量情感程度，能夠表示大部分情感机打；愉悅?喚醒?支配三維模型(pleasure-arousal-dominance, PAD) 在VA 模型上添加支配維矫户，用以描述周圍環(huán)境對自身的影響，如高支配度是一種主宰感残邀，低支配度是一種軟弱感皆辽，理論上可以表示無窮多種情感，但難以表述驚訝芥挣。在PAD 模型基礎上添加期望維驱闷，度量個體對情感出現(xiàn)的準備性，可以描述驚訝空免。維度情感模型表征情感能力強(情感類別多空另、精確性高)，可連續(xù)表征情感變化蹋砚，但維度情感理解困難且操作復雜扼菠，目前研究者較少。

二維度情感描述模型：效價?喚醒二維模型(valence-arousal, VA) （即：激活度效價空間理論）如下圖所示：

垂直軸是激活度維坝咐，是對情感激烈程度的描述循榆；

水平軸是效價維，是對情感正負面程度的評價．

情感狀態(tài)的日常語音標簽和該坐標空間可以進行相互轉化墨坚，通過對情感狀態(tài)語言描述的理解和估計冯痢，就可以找到它在情感空間中的映射位置。

三維度情感描述模型：PAD情感空間模型

兩種表達模型各有千秋：

模型復雜度：離散描述模型較為簡潔框杜、易懂，有利于相關研究工作的著手和開展袖肥，而維度模型卻要面對定性情感狀態(tài)到定量空間坐標之間如何相互轉換的問題咪辱；

情感描述能力：離散情感模型的情感描述能力則顯示出較大的局限性，多數(shù)情況下椎组，它只能刻畫單一的油狂、有限種類的情感類型，然而人們在日常生活中所體驗的情感卻是微妙而多變的，甚至是復雜而模糊的(例如专筷，人們在受到驚嚇時所表現(xiàn)出來的情感不僅有吃驚弱贼，往往還包含害怕甚至恐懼的成分；又比如磷蛹，人們對愉悅的表達可以呈現(xiàn)出若干的程度吮旅，可以從喜上眉梢，到眉飛色舞味咳，再到手舞足蹈)庇勃。

可以說，離散描述方式和自發(fā)情感的描述之間還存在著較大的障礙槽驶，然而維度情感模型從多側面责嚷、連續(xù)的角度進行情感的描述，很好地化解了自發(fā)情感的描述問題掂铐，并且以精確的數(shù)值很大程度上回避了離散情感標簽的模糊性問題．

3. 情感語音數(shù)據(jù)庫

以語言標簽進行標注的情感語料庫為離散情感語料庫罕拂，而以情感空間坐標值進行標注的語料庫為維度情感語料庫。目前全陨，就國內外整個研究領域而言爆班，以離散情感語料庫居多，而維度情感語料庫還有待豐富烤镐。

常見分類匯總：

離散情感語料庫

維度情感語料庫

4. 語音情感特征

語音情感特征可分為語言特征和聲學特征蛋济。

語言特征即語音所要表達的言語信息；

聲學特征則包含了說話人的語氣、語調，蘊含感情色彩肃廓；

提取關聯(lián)度高的情感聲學特征有助于確定說話人情感狀態(tài)蕾羊，通常以幀為單位提取聲學特征，但這些特征一般以全局統(tǒng)計的方式作為模型的輸入?yún)⑴c情感識別奥帘。全局統(tǒng)計指聽覺上獨立的語句或單詞，常用的統(tǒng)計指標有極值、方差旧困、中值、均值稼锅、偏度吼具、最小值、最大值矩距、峰度等拗盒。目前，常用的聲學特征包括韻律特征锥债、譜特征和音質特征等陡蝇。

基于語音情感的聲學特征分類

語音情感與聲學特征參數(shù)之間的關系表

4.1 韻律特征

韻律是指語音中凌駕于語義符號之上的音高痊臭、音長、快慢和輕重等方面的變化登夫，是對語音流表達方式的一種結構性安排．它的存在與否并不影響我們對字广匙、詞、句的聽辨恼策，卻決定著一句話是否聽起來自然順耳鸦致、抑揚頓挫．韻律學特征又被稱為“超音段特征”或“超語言學特征”，它的情感區(qū)分能力已得到語音情感識別領域研究者們的廣泛認可戏蔑，使用非常普遍蹋凝。

韻律特征并不影響對語音語義信息的識別，但決定著語音流暢度总棵、自然度和清晰度鳍寂。

最常用的韻律特征有：

時長相關特征：如語速、短時平均過零率等

基頻相關特征：如基因頻率及其均值情龄、變化范圍迄汛、變化率、均方差等

能量相關特征：短時平均能量骤视、短時能量變化率鞍爱、短時平均振幅等

常見韻律特征

在聲學信號中，韻律特征對不同語言的語音情感識別具有較好的泛化性能专酗，其中使用最廣泛的韻律特征是基頻睹逃、語音能量和持續(xù)時間。

基頻即基音的頻率祷肯，決定整段語音的音高沉填，它的生理學定義是一段復雜語音中最低且通常情況下最強的頻率∮铀瘢基頻是由聲帶的振動產(chǎn)生的翼闹，其在語音變化過程中產(chǎn)生的基頻等值線的統(tǒng)計特征可作為情感特征。除此之外蒋纬，基頻中還包含了大量表征語音情感的特征猎荠，在語音情感識別中起著至關重要的作用。其中自相關函數(shù)法蜀备、平均幅度差法和小波法為常用的基頻特征提取方法关摇。

語音能量又稱音強，反映了語音信號的振幅隨時間的變化強弱碾阁。振幅能量是一種重要的韻律特征拒垃，包括短時能量和平均幅度。研究表明瓷蛙，不同情感的聲音信號的振幅能量不盡相同悼瓮，驚訝横堡、高興等情緒會導致能量增加食听，而悲傷葬项、厭惡等情緒會導致能量減少盗飒。

語音持續(xù)時間是表征語音信號時間的物理量逆趣，使用最廣泛的持續(xù)時間特征有語音速率、清濁音持續(xù)時間等。

4.1.1 語速

情緒高漲（高興、憤怒）時語速快抹腿，情緒消沉（傷心盅称、難過）時語速較慢。

語速定義：文本中元音持續(xù)時間與元音數(shù)目的比值

其中贡避，m表示語音中所包含的元音數(shù)目，i代表第i個元音，ti代表第i個元音的持續(xù)時間水醋。

4.1.2 短時平均能量

短時平均能量與聲音震動的幅值相關惶桐，描述的是語音信號的能量值姚糊，且發(fā)生在相對短的時間內。在一般情況下授舟，如果講話人講話的聲音大救恨，則消耗的能量就比較大；如果講話人的聲音較小聲释树，代表消耗的能量比較小肠槽。對應到不同情感中時，一般在生氣驚訝等發(fā)出的音量很大奢啥，即語音的能量變大秸仙，在傷心失落或平靜時，語音的音量變低桩盲，即語音的能量變小寂纪。所以，語音的短時能量特征對語音情感識別分類有很大的幫助。

其中捞蛋，Em代表第m幀語音信號的短時能量值孝冒， w(m)表示窗函數(shù)，窗長為N 拟杉，x(n)代表語音信號迈倍。

以下以“集團進行改革”且情感類別為生氣時的語音樣本作為例子，進行多種特征的提取捣域。

語音信號波形

語音信號短時平均能量圖

4.1.3 短時平均過零率

短時平均過零率代表的是每一個分幀內語音信號幅度值為零的次數(shù)。語音信號的短時平均過零率特征一定程度地能夠描述信號的頻率譜特性宴合，因此能夠大致估算譜的特性焕梅。短時平均過零率的計算如下：

4.1.4 基音頻率

人在講話時聲帶會對基音頻率產(chǎn)生很大影響。一般來說基音頻率低卦洽，代表聲帶牽拉的程度姓暄浴；基音頻率高阀蒂，那就代表聲帶被牽拉的程度大该窗，此時聲帶將變得比較長、薄且比較緊蚤霞，聲門的形狀為細長酗失。基音頻率包含了許多和語音情感激活度有關聯(lián)的有價值的信息昧绣，因此能夠體現(xiàn)情感的變動规肴。

基音頻率提取的倒譜法流程圖

語音信號基音頻率圖

4.2 基于譜的特征

基于譜的相關特征體現(xiàn)了聲道形狀變化與發(fā)聲運動間的相關性。

譜特征參數(shù)反映信號在頻域的特性夜畴，不同情感在各個頻譜間的能量是有差異的(如表達歡快的語音在高頻區(qū)間能量較高拖刃，表達哀愁的語音在同樣的頻段能量較低)。

基于譜的相關特征主要分為：

線性頻譜特征：線性預測系數(shù)(Linear Prediction Coffcients贪绘，LPC)兑牡、對數(shù)頻率功率系數(shù)(Log Frequency Power Coefficients，LFPC)及單邊自相關線性預測系數(shù)(One—sided Auto correlation Linear Predictor Coefficient税灌，OSALPC)等

倒譜特征：常用的倒譜特征有：線性預測倒譜系數(shù)(Linear Prediction Cepstrum Cofficiems均函，LPCC)、單邊自相關線性預測倒譜系數(shù)(One—sided Autocorrelation Linear Predictor Cepstral·—based Coefficient垄琐，OSALPCC)以及梅爾頻率倒譜系數(shù)(Mel—FrequencyCepstrum Cofficients边酒，MFCC)等

構造的語音情感特征

4.3 音質特征

音質特征是語音的一種主觀評價指標，描述了聲門激勵信號的性質狸窘，包括發(fā)聲者語態(tài)墩朦、喘息、顫音及哽咽翻擒，用來衡量語音純凈度氓涣、清晰度和辨識度牛哺。對聲音質量產(chǎn)生影響的聲學表現(xiàn)有喘息、顫音劳吠、哽咽等引润，并且常常出現(xiàn)在說話者情緒激動、難以抑制的情形之下痒玩，語音情感的聽辨實驗中淳附，聲音質量的變化被聽辨者們一致認定為與語音情感的表達有著密切的關系。通過對聲音質量的評價蠢古，可獲得說話人的生理奴曙、心理信息并對其情感狀態(tài)進行區(qū)分。

用于衡量聲音質量的聲學特征一般有：共振峰頻率草讶、帶寬洽糟、頻率擾動、振幅擾動堕战、諧波噪聲比坤溃、閃光及聲門參數(shù)等

4.4 個性化與非個性化特征

根據(jù)語音情感聲學特征是否受說話人自身說話特征影響，將其分為個性化和非個性化特征嘱丢。個性化特征反映數(shù)值大小薪介，包含大量反映說話人語音特點的情感信息；非個性化特征反映說話過程中情感的變化情況屿讽，包含一定情感信息且不易受說話人影響昭灵，具有很好的相通性和穩(wěn)定性。

有文章提取基頻伐谈、短時能量烂完、共振峰的變化率及它們的變化范圍、方差等統(tǒng)計值作為非個性化特征诵棵，同時提取了傳統(tǒng)基頻抠蚣、共振峰等個性化特征，并用這兩類特征進行實驗履澳，結果表明非個性化特征對SER有著很大的作用嘶窄，且這類特征受不同說話者的影響更小。

個性化語音情感特征

非個性化語音情感特征

4.5 基于人耳聽覺特性的特征

過零峰值幅度特征(Zero Crossings with Peak Amplitudes距贷，ZCPA)使用過零率和峰值的非線性壓縮表示語音信號的頻率及幅度信息柄冲，是一種基于人耳聽覺特性的特征。有文章將其引入SER領域分析了分幀時長對ZCPA特征的影響忠蝗，提出了一種將Teager能量算子與ZCPA特征相結合的過零最大Teager能量算子特征现横。該特征保留了人耳聽覺特性，同時也將最能表征情感狀態(tài)的特征融入系統(tǒng)，實驗結果表明戒祠，該特征取得了較好的識別性能骇两。

4.6 i—vector特征

i—vector是一種將GMM超向量空間映射到低維總變異空間的技術。有文章首先提取1584維的聲學特征訓練語音情感狀態(tài)識別的通用模型姜盈，然后在該模型基礎上為每類情感狀態(tài)生成用于i—vector的GMM超向量并將其串聯(lián)低千，最后使用SVM來識別4類語音情感，結果表明馏颂，該特征取得了較好的識別性能示血。

4.7 融合特征

單一特征僅從某個側面對語音情感信息進行表達，不能很好地表示語音情感救拉，為此矾芙，研究者通常將多個單特征融合以進一步提升SER性能。

多模態(tài)融合的目的是通過對多種特征進行聚合近上，提高語音情感的識別率和魯棒性。

4.8 深度學習特征

深度學習方法在處理復雜的海量數(shù)據(jù)建模上有很大優(yōu)勢拂铡，可以直接從原始數(shù)據(jù)中自動學習最佳特征表示壹无，通過組合低層特征形成更加抽象的高層特征以表示屬性的類別或特征，從而有效捕獲隱藏于數(shù)據(jù)內部的特征感帅，近年來部分研究者將其應用于語音情感特征提取斗锭，并取得了一定成果。

5. 語音情感識別流程

流程圖

不同類型的情感識別方法綜合性能分析

目前失球，語音情感識別算法根據(jù)模式識別分為模板匹配法岖是、概率統(tǒng)計法和辨別分類器；還可劃分為以隱馬爾可夫模型（Hidden Markov Model实苞，HMM）豺撑、高斯混合模型（Gaussian Mixed Model，GMM）和K 近鄰法（K-Nearst Neighbors黔牵，KNN）為代表的基于統(tǒng)計的分類器和以人工神經(jīng)網(wǎng)絡聪轿、決策樹和支持向量機（Support Vector Machine，SVM）為代表的基于判別的分類器猾浦。

HMM適合于時序序列的識別且系統(tǒng)的擴展性好陆错，只需對新樣本進行訓練，但HMM對語音情感數(shù)據(jù)的擬合功能一般金赦，受音位信息的影響較大且對鄰近情感的區(qū)分性差音瓷。

GMM是一種將一個事物分解為若干的基于高斯概率密度函數(shù)來描述語音特征矢量的模型，該模型已經(jīng)在語音識別等領域取得了巨大的成功夹抗。GMM的優(yōu)點是對語音情感數(shù)據(jù)的擬合能力較高且其魯棒性高于HMM绳慎，缺點是模型的價數(shù)過高、對訓練數(shù)據(jù)的依賴性強。

KNN是數(shù)據(jù)挖掘分類技術中最簡單的機器學習算法之一偷线，其核心思想是如果一個樣本在特征空間中的k個最相鄰的樣本中的大多數(shù)屬于某一個類別磨确，則該樣本也屬于這個類別且具有這個類別上樣本的特性。KNN 算法易于實現(xiàn)声邦，較符合語音情感數(shù)據(jù)的分布特性乏奥，對語音情感數(shù)據(jù)的擬合能力較高，但其計算量較大亥曹。

SVM是建立在結構風險最小化準則的基礎上對數(shù)據(jù)進行二元分類的廣義線性分類器邓了，其決策邊界是對學習樣本求解的最大邊距超平面。SVM適合于小樣本訓練集媳瞪，對語音情感數(shù)據(jù)的擬合能力較高骗炉，能較好地解決局部值問題以實現(xiàn)全局最優(yōu)，但SVM在多分類問題中存在不足蛇受。

CNN 是一類包含卷積計算且具有稀疏連接句葵、參數(shù)共享和相等表示特性的前饋神經(jīng)網(wǎng)絡，能夠按其階層結構對輸入信息進行平移不變分類兢仰，是模式識別中應用最多乍丈、最成功的一種前饋神經(jīng)網(wǎng)絡。CNN有很強的泛化能力把将、特征分類效果好轻专，但其容易出現(xiàn)梯度消散問題。

RNN 的研究始于20 世紀80 到90 年代察蹲，并在21 世紀發(fā)展為深度學習算法之一请垛，具有良好的記憶性和參數(shù)共享性。除此之外洽议，RNN 對非線性特征學習時具有一定的優(yōu)勢宗收，在處理時序數(shù)據(jù)時比CNN 有更好的表達能力，但普通的RNN 隨著時間的延長可能會出現(xiàn)梯度消失問題亚兄。

6. 研究前景及意義

教育領域：可以通過語音情感識別系統(tǒng)實時掌握學生的情感狀態(tài)镜雨，利用其對情感特有的分析辨別能力，實時分析系統(tǒng)接收到的學生回復儿捧，及時地了解和把握學生的真實情感狀態(tài)荚坞，從而迅速做出反饋并進行調整，大大增強了課堂效果和提高了學生的學習效率菲盾。語音情感識別系統(tǒng)可以通過學生在課堂回答問題時的語音情感推斷出其處于積極颓影、自信、消極或者緊張等情感狀態(tài)并將其進行情感分類懒鉴，然后教師可針對其情感狀態(tài)進行一對一的情感互動诡挂，鼓勵并促進學生進行高效的學習碎浇。

醫(yī)學領域：面對諸多醫(yī)患之間無法溝通交流的現(xiàn)象，語音情感識別系統(tǒng)發(fā)揮了極其重要的作用璃俗。當遇到情緒波動奴璃、抗拒交談或是精神受創(chuàng)、難以溝通的患者城豁，語音情感識別系統(tǒng)將會迅速做出反應并分析患者此刻的心理狀態(tài)苟穆，與患者進行情感的互動，平復患者的情緒唱星；對于獨自居家的老人雳旅，語音情感系統(tǒng)同樣會自動識別老人的情緒波動，與其進行有效地溝通间聊，通過精神的慰藉和力所能及的幫助攒盈，盡量為老人們營造健康的生活環(huán)境。

服務領域：普通的人工客服只會機械性哎榴、重復性地回答客戶的問題和需求型豁，不能做到靈活變通，從而致使部分客戶產(chǎn)生抵觸的情緒尚蝌，導致客源的損失偷遗。而語音情感識別將會對此采取針對性的分析，當監(jiān)測出客戶情緒有負面波動時驼壶，則及時切換人工客服進行協(xié)調，有效地減少了客源損失量喉酌。

除上述領域外热凹，語音情感識別在智能娛樂、電子商務泪电、汽車駕駛般妙、輔助測謊和人機交互[等應用程序非常重要。

7. 挑戰(zhàn)

從語音情感識別的預處理階段到特征提取階段相速，再到情感識別階段碟渺，每個階段都面臨著一些全新的挑戰(zhàn)。

數(shù)據(jù)庫：不足且缺少廣泛認可的數(shù)據(jù)庫突诬。

預處理階段：語音情感識別系統(tǒng)的數(shù)據(jù)采集系統(tǒng)還不夠完善苫拍，帶有噪聲的語音信號會極大地改變聲學特征的分布規(guī)律且無法長期精準地對情緒狀態(tài)進行追蹤，不同性別旺隙、不同年齡的說話者以及不同的采集方式帶來的聲學變異均會對特征選擇的結果造成一定的影響绒极。人類的情感是通過多種形式同時進行的，單模態(tài)的數(shù)據(jù)采集會影響最終的情感識別率蔬捷，而多模態(tài)的數(shù)據(jù)采集又會造成維度的“爆炸式”增長垄提，對下一步的特征提取帶來麻煩榔袋。

特征提取階段：語音信號中含有豐富的情感信息，目前還不清楚什么種類的特征對情感的差異性最具有區(qū)分性且特征提取手段極其局限铡俐；其次凰兑，無法找到與識別目標有明確相關的、深層次的情感特征审丘；此外吏够，由于不同國家的文化和語言特色的差異等，情感的表達特征也不盡相同备恤，對于樣本較少的數(shù)據(jù)集稿饰，其提取到的特征數(shù)量有限，最終導致無法達到滿意的識別效果露泊。

情感識別階段：同樣無法明確地找到有效的情感識別方法喉镰。除了缺乏統(tǒng)一規(guī)范的漢語情感語料庫，如何有效地對語言障礙惭笑、方言障礙以及遠程通話中的語音情感進行識別也是情感識別領域面臨的一大挑戰(zhàn)侣姆，當被觀察者意識到自己正在接受語音情感識別的實驗時，往往會因為各種因素或隱私問題沉噩，刻意調整或試圖抑制自己的真實情緒捺宗，從而在一定程度上影響識別的真實有效性。

情感識別建模階段：由于語言符號和語言思維之間具有一種天然的不對稱性川蒙，建立一個高效合理的語言情感識別模型是研究的重點蚜厉。這個模型以語料庫為基礎進行大數(shù)據(jù)式的訓練，建立一種聯(lián)通聲學特征和情感狀態(tài)的映射通路畜眨，進而實現(xiàn)對語料情感狀態(tài)的判斷和識別昼牛。但是由于情感的復雜性，人類對大腦的情感處理機制認識有限康聂，尚未有一種高效可靠的情感識別模型被建立贰健。因而，腦學科和計算機的交融研究也就成為一種必然趨勢恬汁，沒有對人腦的高度認識就不可能有高效的情感識別建模伶椿。

8. 參考文獻

韓文靜,李海峰,阮華斌,等. 語音情感識別研究進展綜述[J]. 軟件學報,2014,25(1):37-50. DOI:10.13328/j.cnki.jos.004497.

李海峰,陳婧,馬琳,等. 維度語音情感識別研究綜述[J]. 軟件學報,2020,31(8):2465-2491. DOI:10.13328/j.cnki.jos.006078.

張會云,黃鶴鳴,李偉,等. 語音情感識別研究綜述[J]. 計算機仿真,2021,38(8):7-17. DOI:10.3969/j.issn.1006-9348.2021.08.002.

余伶俐,蔡自興,陳明義. 語音信號的情感特征分析與識別研究綜述[J]. 電路與系統(tǒng)學報,2007,12(4):76-84. DOI:10.3969/j.issn.1007-0249.2007.04.016.

趙臘生,張強,魏小鵬. 語音情感識別研究進展[J]. 計算機應用研究,2009,26(2):428-432. DOI:10.3969/j.issn.1001-3695.2009.02.008.

高慶吉,趙志華,徐達,等. 語音情感識別研究綜述[J]. 智能系統(tǒng)學報,2020,15(1):1-13. DOI:10.11992/tis.201904065.

喬文婷. 基于神經(jīng)網(wǎng)絡的語音情感識別算法研究[D]. 陜西:西安電子科技大學,2018.