摘要:
? ? ? ? 語言識(shí)別(LID)系統(tǒng)用于對(duì)給定音頻樣本中的口語進(jìn)行分類,并且通常是許多口語處理任務(wù)(如自動(dòng)語音識(shí)別(ASR)系統(tǒng))的第一步惫搏。 如果沒有自動(dòng)語言檢測逻恐,語音話語無法正確解析蜓耻,語法規(guī)則無法應(yīng)用而线,導(dǎo)致后續(xù)的語音識(shí)別步驟失敗壹罚。 我們提出一個(gè)LID系統(tǒng)來解決圖像域中的問題氛驮,而不是音頻域腕柜。 我們使用混合卷積循環(huán)神經(jīng)網(wǎng)絡(luò)(CRNN),它可以對(duì)提供的音頻片段的頻譜圖進(jìn)行操作矫废。 我們在廣泛的實(shí)驗(yàn)中證明了這一點(diǎn)我們的模型適用于一系列嘈雜的場景盏缤,并且很容易擴(kuò)展到以前未知的語言,同時(shí)保持其分類準(zhǔn)確性蓖扑。 我們發(fā)布我們的代碼和一個(gè)大規(guī)模的訓(xùn)練集LID系統(tǒng)給社區(qū)
引言:
? ? ? ? ?Siri1或Google Assistant2等智能助手依賴于ASR唉铜。目前的ASR系統(tǒng)要求用戶手動(dòng)指定系統(tǒng)的正確輸入語言才能正常工作。然而律杠,作為一個(gè)合理的預(yù)處理步驟潭流,我們可以使用自動(dòng)LID系統(tǒng)推斷口語柿赊。傳統(tǒng)的LID系統(tǒng)利用音頻信號(hào)處理領(lǐng)域的專業(yè)領(lǐng)域?qū)I(yè)知識(shí)從音頻樣本中提取手工制作的特征。最近幻枉,深度學(xué)習(xí)和人工神經(jīng)網(wǎng)絡(luò)已成為許多模式識(shí)別問題的最新技術(shù)碰声。深度神經(jīng)網(wǎng)絡(luò)(DNN)已經(jīng)成為計(jì)算機(jī)視覺任務(wù)范圍(如圖像分類[17,18]或物體檢測和識(shí)別[14,15])的最佳執(zhí)行方法。在本文中熬甫,我們從計(jì)算機(jī)視覺的角度來解決語言識(shí)別問題胰挑。我們通過利用由卷積神經(jīng)網(wǎng)絡(luò)(CNN)和遞歸神經(jīng)網(wǎng)絡(luò)(RNN)組成的混合網(wǎng)絡(luò)來提取給定音頻樣本的目標(biāo)語言。我們的貢獻(xiàn)可以總結(jié)如下:(1)我們提出一個(gè)混合CRNN椿肩,合并CNNs具有捕獲RNNs時(shí)間特征能力的描述能力瞻颂。 (2)我們對(duì)我們提出的網(wǎng)絡(luò)進(jìn)行了廣泛的實(shí)驗(yàn),并且展示了它適用于一系列場景及其對(duì)于新語言的可擴(kuò)展性郑象。(3)我們發(fā)布我們的代碼和LID系統(tǒng)的大規(guī)模訓(xùn)練集3
? ? ? ? 僅基于對(duì)MelFrequencyCepstral Coefficients(MFCC)等輸入特征應(yīng)用神經(jīng)網(wǎng)絡(luò)的方法表明贡这,它們達(dá)到了最先進(jìn)的結(jié)果,而不那么復(fù)雜厂榛。目前對(duì)使用DNN的語言識(shí)別系統(tǒng)的研究主要集中在使用不同形式的LSTM盖矫,關(guān)于變換音頻數(shù)據(jù)的輸入序列。 Zazo等人文獻(xiàn)[19]使用Mel頻率倒譜系數(shù)和增量Delta系數(shù)(MFCC-SDC)特征作為其單向LSTM的輸入击奶,該直接連接到softmax分類器辈双。 softmax分類器的最后預(yù)測包含預(yù)測的語言。 Gelly等人柜砾。 [5]使用BLSTM網(wǎng)絡(luò)從輸入中捕獲語言信息(音頻轉(zhuǎn)換為感知線性預(yù)測(PLP)系數(shù)及其一階和二階導(dǎo)數(shù))湃望。所得到的序列特征被融合在一起并用于分類輸入樣本的語言。兩種方法都只考慮功能序列作為其網(wǎng)絡(luò)的輸入痰驱。 Lozano-Diez等人[10]在CNN的幫助下進(jìn)行語言識(shí)別证芭。作者將輸入數(shù)據(jù)轉(zhuǎn)換為包含MFCC-SDC特征的圖像。該圖像的x軸表示時(shí)域担映,y軸表示單個(gè)頻率點(diǎn)废士。除了使用CNN對(duì)輸入語言進(jìn)行簡單分類之外,他們還使用CNN作為身份向量的特征提取器另萤。作者在結(jié)合CNN特征和身份向量時(shí)可獲得更好的性能湃密。我們的研究與以上提到的作品不同之處在于:(1)我們利用基于VGG [17]或Inception-v3 [18]架構(gòu)的強(qiáng)卷積特征提取器诅挑。 (2)我們使用提取的卷積特征
輸入到BLSTM并僅基于深度模型生成我們的預(yù)測四敞。
? ? ? ? 為了使我們收集的數(shù)據(jù)與我們的LID系統(tǒng)兼容,我們需要做一些預(yù)處理拔妥。作為第一步忿危,我們將所有音頻文件編碼為未壓縮的無損WAVE格式,因?yàn)檫@種格式允許進(jìn)行未經(jīng)處理的操作没龙,而不會(huì)使信號(hào)質(zhì)量出現(xiàn)任何劣化铺厨。為了將我們的音頻片段視為圖像缎玫,我們需要將數(shù)據(jù)傳輸?shù)綀D像域。我們將音頻數(shù)據(jù)轉(zhuǎn)換為光譜圖表示以訓(xùn)練我們的模型解滓。頻譜圖使用Hann [2]窗口和沿頻率軸(y軸)的129個(gè)頻率倉進(jìn)行離散化赃磨。由于大多數(shù)英語語音在對(duì)話語音中不超過3 kHz,因此我們只在頻譜圖中包含高達(dá)5 kHz的頻率洼裤。時(shí)間軸(x軸)呈現(xiàn)為每秒50個(gè)像素邻辉。我們將每個(gè)音頻序列分成不重疊的十秒段,并丟棄所有短于十秒的段腮鞍,因?yàn)槲覀儾幌胍胩畛渲岛В@可能類似于非自然的暫停或沉默移国。生成的圖像保存為灰度吱瘩,無損500×129 PNG文件,頻率強(qiáng)度映射到8位灰度范圍
結(jié)構(gòu):
? ? ? 對(duì)于我們的網(wǎng)絡(luò)架構(gòu)迹缀,我們遵循Shi等人提出的網(wǎng)絡(luò)的整體結(jié)構(gòu)使碾。 [16]在他們的現(xiàn)場文字識(shí)別工作。這個(gè)網(wǎng)絡(luò)體系結(jié)構(gòu)由兩部分組成祝懂。第一部分是卷積特征提取器部逮,它將音頻文件的光譜圖像表示作為輸入(參見第3.2節(jié))。該特征提取器分幾步卷積輸入圖像嫂易,并生成高度為1的特征圖兄朋。該特征映射沿著x軸切片,并且每個(gè)切片被用作隨后的BLSTM網(wǎng)絡(luò)的時(shí)間步驟怜械。卷積特征提取器的設(shè)計(jì)基于眾所周知的VGG體系結(jié)構(gòu)[17]颅和。我們的網(wǎng)絡(luò)使用5個(gè)卷積層,其中每個(gè)層次都跟隨著ReLU激活函數(shù)[12]缕允,BatchNormalization [8]和2×2最大匯集峡扩,步長為2.每個(gè)卷積層的內(nèi)核大小和濾波器數(shù)量分別為7×7,16)障本,(5×5,32),(3×3,64)驾霜,(3×3,128),(3×3,256)粪糙。 BLSTM由兩個(gè)單獨(dú)的LSTM組成,每個(gè)單元具有256個(gè)輸出單元蓉冈。我們將兩個(gè)輸出連接到一個(gè)512維矢量城舞,并將其輸入到具有4/6輸出單元作為分類器的完全連接層轩触。圖1提供了網(wǎng)絡(luò)架構(gòu)的示意圖
環(huán)境:
? ? ? ? ?我們使用Keras [3]和Tensorflow [1]實(shí)現(xiàn)了我們提出的模型,后端家夺。 我們將數(shù)據(jù)集分成培訓(xùn)(70%)脱柱,驗(yàn)證(20%)和一個(gè)測試集(10%),所有文件在語言之間平均分配拉馋。歐洲語音數(shù)據(jù)集共產(chǎn)生大約19 000個(gè)訓(xùn)練圖像褐捻,
這相當(dāng)于大約53個(gè)小時(shí)的語音音頻。 YouTube新聞數(shù)據(jù)集共產(chǎn)生約194 000個(gè)訓(xùn)練圖像椅邓,或540小時(shí)的語音音頻柠逞。
為了訓(xùn)練我們的網(wǎng)絡(luò),我們使用了Adam [9]的優(yōu)化器并使用在微調(diào)期間使用隨機(jī)梯度下降景馁。 我們觀察到以下情況
指標(biāo):準(zhǔn)確度板壮,召回率,精確度和F1分?jǐn)?shù)合住。 我們指出使用的網(wǎng)絡(luò)按照以下方式:(1)CNN - 僅由提議的網(wǎng)絡(luò)組成的網(wǎng)絡(luò)卷積特征提取器沒有經(jīng)常性部分绰精。 (2)CRNN - 從3.3節(jié)提出混合CRNN模型。
結(jié)論:
? ? 在本文中透葛,我們提出了一種語言識(shí)別系統(tǒng)笨使,它解決了圖像域中的語言識(shí)別問題,而不是音頻域僚害。 我們提出了一種由卷積特征提取器和RNN組成的混合CRNN硫椰,該RNN結(jié)合隨時(shí)間提取的特征。 使用這種架構(gòu)萨蚕,我們對(duì)不同的數(shù)據(jù)集進(jìn)行了多次實(shí)驗(yàn)靶草,以展示我們的模型對(duì)各種場景的廣泛適用性及其對(duì)新語言的可擴(kuò)展性。 為了彌補(bǔ)缺乏免費(fèi)提供的語言識(shí)別數(shù)據(jù)集岳遥,我們從中收集了超過1508個(gè)小時(shí)的音頻數(shù)據(jù)歐盟語音知識(shí)庫和YouTube,并將其提供給研究界
摘要:在這項(xiàng)工作中派继,我們設(shè)計(jì)了一個(gè)神經(jīng)網(wǎng)絡(luò)來識(shí)別語音中的情緒驾窟,使用標(biāo)準(zhǔn)的IEMOCAP數(shù)據(jù)集纫普。 在音頻分析的最新進(jìn)展之后好渠,我們使用了一個(gè)涉及卷積層的體系結(jié)構(gòu),從原始譜圖中提取高級(jí)特征拳锚,以及用于匯總長期相關(guān)性的經(jīng)常性特征。應(yīng)用數(shù)據(jù)增強(qiáng)技術(shù)匾荆,分層學(xué)習(xí)速率調(diào)整和批量歸一化杆烁, 競爭結(jié)果,對(duì)四種情緒具有64:5%的加權(quán)準(zhǔn)確性和61:7%的非加權(quán)準(zhǔn)確性烤芦。 此外析校,我們表明模型的表現(xiàn)與標(biāo)簽置信度密切相關(guān),這凸顯了情感識(shí)別的基本困難遂唧。
引言:
在人與機(jī)器之間提供高質(zhì)量的交互是一個(gè)非常具有挑戰(zhàn)性和活躍的研究領(lǐng)域吊奢,具有眾多應(yīng)用页滚。 這個(gè)領(lǐng)域的一個(gè)重要部分是通過計(jì)算機(jī)系統(tǒng)來識(shí)別人類的言語情緒。 在過去的幾年中掌实,通過深度學(xué)習(xí)(Amodei等,2015; Medennikov等贱鼻,2016; Saon等滋将,2016; Liptchinsky等,2017)在語音識(shí)別方面取得了令人矚目的進(jìn)展随闽。 這些成就還包括對(duì)語音情感識(shí)別(SER)的重要結(jié)果,參見例如 (Kim等蛾扇,2013; Lee&Tashev,2015; Sattet等坟漱,2017)更哄。
在這項(xiàng)工作中,我們?yōu)镮EMOCAP數(shù)據(jù)集上的SER構(gòu)建了一個(gè)神經(jīng)網(wǎng)絡(luò)(Busso et al觅捆。麻敌,2008),并取得了與現(xiàn)有技術(shù)水平極具競爭力的結(jié)果职辅。 1在深度學(xué)習(xí)中處理SER問題時(shí)聂示,可以創(chuàng)建用作神經(jīng)網(wǎng)絡(luò)輸入的手工聲學(xué)特征(MFCC,音高秀鞭,能量扛禽,ZCR ...),或者在一些預(yù)處理后發(fā)送數(shù)據(jù)(例如傅立葉變換)豆巨,直接到神經(jīng)網(wǎng)絡(luò)往扔。我們通過將音頻信號(hào)轉(zhuǎn)換為頻譜圖來應(yīng)用第二種策略熊户,該頻譜圖然后被用作卷積層的輸入,然后是經(jīng)常性的嚷堡。這種最近表現(xiàn)出非常有競爭力的表現(xiàn)的建筑學(xué)選擇(Amodei等,2015; Satt等串塑,2017),受到以下事實(shí)的啟發(fā):訓(xùn)練深長的短期記憶(LSTM刺桃,(Hochreiter&Schmidhuber吸祟, 1997))或門控線性單元(GRU桃移,(Cho et al。过吻,2014))網(wǎng)絡(luò)非常困難蔗衡。從這個(gè)意義上說绞惦,在網(wǎng)絡(luò)開始階段添加少量卷積層是降低數(shù)據(jù)維數(shù)的有效方法,并且可以顯著簡化訓(xùn)練過程杰刽。另一方面王滤,也可以使用深CNN來提取高級(jí)特征,然后將其饋送到RNN用于最終時(shí)間聚合第喳。我們針對(duì)卷積(1-6層)和復(fù)發(fā)模塊(1-4)測試了各種不同深度的體系結(jié)構(gòu)墩弯,在4 + 1場景中實(shí)現(xiàn)最佳分?jǐn)?shù)2寞射。為了解決類別失衡和數(shù)據(jù)稀缺的挑戰(zhàn),我們研究了數(shù)據(jù)增強(qiáng)的聲道長度擾動(dòng)引矩,并證明它改善了性能。根據(jù)(Laurent等氛谜,2016; Amodei等值漫,2015; Cooijmans等织盼,2016; Ba等,2016)危虱,我們將批量歸一化應(yīng)用于復(fù)發(fā)層并分析其對(duì)所考慮數(shù)據(jù)的作用唐全。我們證明,即使保守地應(yīng)用批量規(guī)范化弥雹,它仍可能導(dǎo)致數(shù)據(jù)失真延届,導(dǎo)致更快的過度擬合和性能下降。我們還使用軟標(biāo)簽來反映這樣一個(gè)事實(shí)窗宦,即可以將多個(gè)標(biāo)簽分配給IEMOCAP數(shù)據(jù)集的每個(gè)樣本塘装。雖然我們沒有設(shè)法通過考慮這些信息來獲得更好的結(jié)果订讼,但我們證明了該模型的明確依賴性
表現(xiàn)在數(shù)據(jù)標(biāo)簽上的信心。最后欺殿,我們的實(shí)驗(yàn)表明,每層學(xué)習(xí)速率調(diào)整似乎是模型性能的關(guān)鍵因素程拭,這可能與特定的體系結(jié)構(gòu)選擇或更一般的現(xiàn)象有關(guān)恃鞋。
數(shù)據(jù)集描述:
? ? ? ? 在南加州大學(xué)(USC)收集的IEMOCAP(交互式情緒二進(jìn)制動(dòng)作捕捉)(Busso等人,2008)是用于情緒識(shí)別的標(biāo)準(zhǔn)數(shù)據(jù)集之一恤浪。它由十名專業(yè)演員(五名女性和五名男性)進(jìn)行了十二小時(shí)的音頻和視頻錄制,并在不同性別的兩位演員之間進(jìn)行了五次對(duì)話荠呐,不論是演奏劇本還是即興演奏砂客。該數(shù)據(jù)集還提供文本對(duì)應(yīng)于記錄和臉部圖像。但是圾结,在這項(xiàng)工作中齿诉,我們只處理音頻數(shù)據(jù)粤剧。音頻集的每個(gè)樣本都是與情緒標(biāo)簽關(guān)聯(lián)的話語挥唠。標(biāo)記由USC的六名學(xué)生制作,每次三個(gè)弧关,每次發(fā)表一次世囊。如果有必要,注釋者被允許分配多個(gè)標(biāo)簽株憾。如果具有最高票數(shù)的情感類別是獨(dú)特的晒衩,則每個(gè)話語的最終真實(shí)標(biāo)簽由多數(shù)票選出。由于注釋者在標(biāo)注即興創(chuàng)作時(shí)(83.1%)比腳本創(chuàng)作者(66.9%)(Busso et al贝奇。靠胜,2008)更經(jīng)常達(dá)成共識(shí),因此我們只關(guān)注即興創(chuàng)作的數(shù)據(jù)集部分菠赚。為了與最先進(jìn)的方法進(jìn)行比較,我們預(yù)測了四種最具代表性的情緒:中性瘩欺,悲傷俱饿,憤怒和快樂塌忽,這給我們留下了2280個(gè)話語。
語譜圖:
? ? ??這里我們簡要討論我們使用的數(shù)據(jù)預(yù)處理枣购。 該信號(hào)通過具有16kHz上限截止頻率的短時(shí)傅里葉變換(STFT)和Hann開窗(這是用于右波段頻譜分析的標(biāo)準(zhǔn)選擇)被轉(zhuǎn)換為頻譜圖:
語音增強(qiáng):
? ? ? ?處理IEMOCAP數(shù)據(jù)集時(shí)遇到的主要困難之一是類別不平衡(見圖1)棉圈。最豐富的類對(duì)應(yīng)于中性情緒眷蜓。此外,假設(shè)情緒中性言語可以作為標(biāo)記情緒的背景出現(xiàn)在其他話語中是合理的吁系。這增強(qiáng)了區(qū)分中性和其他情緒的挑戰(zhàn)。 (Lee&Tashev上岗,2015)中提出了一個(gè)有趣的方法來解決這個(gè)問題液茎。根據(jù)連接主義時(shí)間分類(CTC)方法(Graves et al辞嗡。2006)的精神,作者為每個(gè)時(shí)間步長分配一個(gè)隨機(jī)標(biāo)簽栋烤,取值為話語或?qū)?yīng)于非情感框架的空標(biāo)簽挺狰,以這種方式建穆蚩撸可以出現(xiàn)在話語中的其他情緒始绍。通過期望最大化算法進(jìn)行訓(xùn)練话侄,作者將加權(quán)和未加權(quán)的精確度提高了2-3%。另一種方法已應(yīng)用于(Satt等吞杭,2017)变丧,其中預(yù)測程序分兩步實(shí)現(xiàn)。在主要模型預(yù)測中性情緒的情況下童擎,話語被引導(dǎo)至在中性和其他情緒之一之間執(zhí)行二元分類的另外三個(gè)模型柔昼。這種策略導(dǎo)致未加權(quán)準(zhǔn)確性增加2.5%炎辨,但反過來將加權(quán)準(zhǔn)確性降低了1.5%碴萧。除了類別失衡之外,IEMOCAP數(shù)據(jù)集還存在另一個(gè)主要缺點(diǎn):它比較小破喻,這使得驗(yàn)證過程不穩(wěn)定盟榴。為了應(yīng)對(duì)這兩種障礙,我們通過聲道長度擾動(dòng)(VTLP)檢查了數(shù)據(jù)增強(qiáng)羽德,同時(shí)對(duì)數(shù)據(jù)集中表現(xiàn)最差的類別 - 快樂和憤怒進(jìn)行了過采樣迅办。 VTLP基于(Lee&Rose,1998)中所考慮的說話人正規(guī)化技術(shù)姨夹,該技術(shù)的實(shí)施旨在減少說話者間的差異。人耳聲道長度的差異可以通過在頻率軸上重新定標(biāo)有效成分的峰值來進(jìn)行建模峭沦,其因子α取大概范圍內(nèi)的值(0:9; 1:1)熙侍。因此履磨,為了擺脫這種可變性,應(yīng)該估計(jì)每個(gè)說話者的因子并相應(yīng)地對(duì)譜圖進(jìn)行歸一化巷送。相反地??笑跛,相同的想法可以用于數(shù)據(jù)增強(qiáng)(Jaitly&Hinton飞蹂,2013; Cui等翻屈,2014; Harutyunyan&Sanogh,2016):為了產(chǎn)生新的樣本惊窖,人們必須執(zhí)行原始譜圖的重新縮放沿著頻率軸界酒,同時(shí)保持比例因子在范圍內(nèi)(0:9; 1:1)嘴秸。兩種方法,歸一化和增強(qiáng)凭疮,都追求相同的目標(biāo):強(qiáng)化模型對(duì)說話者相關(guān)特征的不變性哭尝,因?yàn)樗鼈兣c分類標(biāo)準(zhǔn)無關(guān)剖煌。然而逝淹,增強(qiáng)更容易實(shí)現(xiàn)栅葡,因?yàn)槲覀儾恍枰烙?jì)每個(gè)揚(yáng)聲器的縮放因子欣簇,因此我們堅(jiān)持這個(gè)選項(xiàng)坯约。頻率的重新調(diào)整如下進(jìn)行
我們嘗試了兩種數(shù)據(jù)增強(qiáng)策略闹丐。在第一種情況下,在每個(gè)時(shí)期對(duì)單個(gè)均勻分布的值α2(0:9; 1:1)進(jìn)行采樣衫仑,并用于對(duì)所有訓(xùn)練樣例進(jìn)行重新縮放文狱,并且沒有重新縮放應(yīng)用于驗(yàn)證集缘挽。在第二個(gè)策略中到踏,每個(gè)頻譜圖都重新調(diào)整了單獨(dú)生成的α值以用于訓(xùn)練以及驗(yàn)證集。為了評(píng)估,我們在α= 0:9的測試集的11個(gè)副本上使用了模型預(yù)測的多數(shù)票; 0:92; 0:94; :::; 1:1凿掂。我們介紹了第二次增強(qiáng)策略獲得的分?jǐn)?shù)庄萎,它提供了最好的結(jié)果糠涛。
模型的描述和實(shí)驗(yàn):
? ? ? ?如上所述,IEMOCAP數(shù)據(jù)集由五個(gè)會(huì)話組成集漾,每個(gè)會(huì)話是一個(gè)男人和一個(gè)女人之間的對(duì)話,共有10個(gè)發(fā)言者纬霞。 為了了解該模型對(duì)不同演講者的推廣情況驱显,我們將驗(yàn)證和測試集合對(duì)應(yīng)于其中一個(gè)會(huì)話的兩個(gè)不同發(fā)言人埃疫。 訓(xùn)練集由剩余的四場會(huì)議組成。 在實(shí)驗(yàn)過程中脐湾,我們觀察到性能在很大程度上取決于為測試集選擇了哪些揚(yáng)聲器(請(qǐng)參見表2)秤掌。 因此鹰霍,我們選擇10倍交叉驗(yàn)證策略茂洒,以平均測試集的所有可能選擇督勺。 有趣的是,據(jù)我們所知次询,在IEMOCAP數(shù)據(jù)集上報(bào)告的所有其他結(jié)果都是通過5倍交叉驗(yàn)證獲得的瓷叫。 在這種情況下,驗(yàn)證和測試集的選擇并不嚴(yán)格定義和分?jǐn)?shù)
? ? ??這樣得到的結(jié)果是不可能與之比較的盒卸。為了評(píng)估模型的性能蔽介,我們選擇了加權(quán)(WA)和未加權(quán)(UA)的精度。 WA是在整個(gè)測試集上計(jì)算的標(biāo)準(zhǔn)精度犀呼。 UA是分別針對(duì)每種情緒計(jì)算的平均精度圆凰。首先专钉,我們計(jì)算每個(gè)折疊的度量標(biāo)準(zhǔn),然后將所有折疊的平均值作為分?jǐn)?shù)跃须。由于對(duì)于不平衡的數(shù)據(jù)集菇民,UA是一個(gè)更相關(guān)的特征投储,我們相當(dāng)集中努力獲得高UA,與IEMOCAP上的大多數(shù)其他作品一致娇掏。我們考慮了具有1-6個(gè)卷積層婴梧,1-4個(gè)Bi-LSTM層和在網(wǎng)絡(luò)頂部具有softmax非線性的密集層的架構(gòu)(參見圖3)塞蹭。作為優(yōu)化程序番电,我們使用了Nesterov動(dòng)量的隨機(jī)梯度下降闽巩。對(duì)于權(quán)重的正則化涎跨,我們使用L2正則化隅很。由于在數(shù)據(jù)樣本中的重大變化時(shí)間長度(對(duì)于窗口大小N = 64ms和偏移S = 32ms叔营,從21到909個(gè)時(shí)間步長),我們沿時(shí)間軸執(zhí)行采樣的零填充畜挥。為了避免Bi-LSTM人工添加時(shí)間步驟的聚集蟹但,我們在卷積和BiLSTM模塊之間放置了一個(gè)掩模層谭羔。掩模的大小是從相應(yīng)頻譜圖的時(shí)間大小以及卷積步幅的作用導(dǎo)出的瘟裸。最后话告,我們根據(jù)數(shù)據(jù)集的一般統(tǒng)計(jì)數(shù)據(jù)對(duì)樣本進(jìn)行歸一化處理:
? ? ? ? 其中x ^和σ是在時(shí)間和頻率軸上的整個(gè)數(shù)據(jù)集上計(jì)算的頻譜圖像素的平均值和標(biāo)準(zhǔn)偏差。這種歸一化顯著地提高了模型的收斂時(shí)間佛呻。然而件相,應(yīng)用于小深度網(wǎng)絡(luò)(≤2個(gè)卷積層)夜矗,導(dǎo)致了較強(qiáng)的過擬合紊撕。如上所述赡突,我們進(jìn)行了各種不同深度的卷積和BiLSTM模塊的實(shí)驗(yàn)我們研究了不同的情景:“淺CNN +深Bi-LSTM”惭缰,“深CNN +淺Bi-LSTM”和“深CNN +深層”,并且在實(shí)驗(yàn)開始時(shí)被丟棄络凿。碧LSTM”摔踱。通過選擇4個(gè)卷積和1個(gè)Bi-LSTM層可以獲得最好的結(jié)果怨愤。在表1中派敷,我們給出了最佳模型的結(jié)果以及對(duì)所應(yīng)用技術(shù)性能的貢獻(xiàn)∽矗可以看出篮愉,過采樣允許UA增加0:9%,但是導(dǎo)致WA降低3:2%了赵。使用VTLP進(jìn)行數(shù)據(jù)增加會(huì)導(dǎo)致這兩個(gè)指標(biāo)的增加UA和WA相應(yīng)地分別為0:9%和1:7%潜支。我們在本節(jié)中討論,通過對(duì)網(wǎng)絡(luò)進(jìn)行逐層梯度分析柿汛,我們想出了明智調(diào)整學(xué)習(xí)率的思路冗酿。 這導(dǎo)致UA顯著提高1:4%。 最后弱判,考慮到更大范圍的頻率(8kHz),UA增加了0:9%遭商。 盡管使用了批次劫流,但更深的Bi-LSTM模塊的實(shí)驗(yàn)并沒有帶來任何改進(jìn)標(biāo)準(zhǔn)化(參見第3.1節(jié))
歸一化:
? ? ? ? ?不同類型的技術(shù)已被用于復(fù)發(fā)層的歸一化(Laurent等,2016; Amodei等可很,2015; Cooijmans等根穷,2016; Ba等屿良,2016)。在某些情況下喷橙,它們是成功的,在其他一些案例中(見Laurent et al疙剑。,2016)管挟,它們表現(xiàn)出加速了融合和更好的表現(xiàn),它們導(dǎo)致更強(qiáng)烈的過度擬合和結(jié)果退化穿铆。我們假設(shè)結(jié)果中的這種不確定性可能是由所考慮數(shù)據(jù)的特征造成的。當(dāng)應(yīng)用于圖像時(shí)讯檐,批量歸一化技術(shù)被證明是非常有效的,通常這些圖像的特征是存在非常清晰和強(qiáng)大的相關(guān)性挖垛。與圖像不同送矩,時(shí)間序列數(shù)據(jù)(如語音)更加脆弱栋荸,應(yīng)用標(biāo)準(zhǔn)化技術(shù)可能會(huì)導(dǎo)致重要信息的破壞晌块。最具潛在破壞性的歸一化是所謂的逐幀方式(參見例如(Laurent等身冀,2016))蝶怔,當(dāng)分別為每個(gè)特征和每個(gè)時(shí)間步驟累計(jì)統(tǒng)計(jì)數(shù)據(jù)時(shí):
? ? ? ? ? 如果隱藏部分和輸入部分按照(Cooijmans et al。沐悦,2016)分開處理。 在這里副签,BN代表標(biāo)準(zhǔn)批量規(guī)范化操作(Ioffe&Szegedy,2015)本砰,a(π)舔株,ht,xt是激活娃肿,隱藏狀態(tài)和輸入焙蹭,Wh,Wx是相應(yīng)的權(quán)重帖努。 由于平均僅沿批處理軸執(zhí)行污桦,因此逐幀歸一化可能會(huì)導(dǎo)致強(qiáng)烈的信號(hào)失真btf是bt和特征號(hào)的乘積凡橱。這里應(yīng)用批量標(biāo)準(zhǔn)化(12)。在這種情況下,歸一化按照層次進(jìn)行(如(Ba et al巡李。,2016))并同時(shí)分批執(zhí)行(此外阳谍,為了簡單起見,我們將此歸一化方法稱為分層批量歸一化)制肮。我們檢查了適用于具有4個(gè)卷積和1-4個(gè)Bi-LSTM層的模型的遞歸模塊的分層批處理歸一化款慨。小批量實(shí)驗(yàn)與基線相比桩了,b = 16表現(xiàn)出更快的過度擬合和性能下降整胃。批量標(biāo)準(zhǔn)化不僅適用于批處理欠啤,而且也適用于層面洁段,因此應(yīng)該減少批量大小的影響祠丝,這在使用批量標(biāo)準(zhǔn)化時(shí)非常重要。但是叠蝇,在實(shí)驗(yàn)批量較大的情況下铃慷,我們意識(shí)到馋缅,就我們而言萤悴,它是這樣仍然會(huì)嚴(yán)重影響性能(見表3)。因此怪嫌,這是可能的進(jìn)一步增大批量會(huì)導(dǎo)致更好的結(jié)果拌倍。不幸的是,由于GPU內(nèi)存限制,我們無法驗(yàn)證它
? ? ? ? ?當(dāng)加深基線模型的卷積模塊(從3-4個(gè)卷積層開始)時(shí),我們觀察到性能退化而不是改善。然后,通過分析對(duì)應(yīng)于不同層的梯度澎灸,我們注意到一個(gè)有趣的現(xiàn)象:關(guān)于卷積模塊權(quán)重的梯度顯著大于關(guān)于Bi-LSTM權(quán)重的梯度(見圖4)巩梢。因此忌警,為了使卷積模塊學(xué)得更好,我們增加了卷積層權(quán)重的學(xué)習(xí)率。為了補(bǔ)償這種行為可能的過度擬合效應(yīng),我們還增加了卷積權(quán)重的正則化。這種修改顯著改善了性能(見表1)枕屉,并且允許縮短收斂時(shí)間哥倔。有趣的是沃测,最近觀察到同樣的現(xiàn)象(Kwiatkowski&Chang馏谨,2017)喊儡。考慮到不同類型的神經(jīng)網(wǎng)絡(luò)匆赃,作者表明,通過網(wǎng)絡(luò)深度降低學(xué)習(xí)速率可以顯著提高收斂速度纸颜。因此稠鼻,這種觀察可能取決于更普遍的現(xiàn)象
標(biāo)注和軟標(biāo)簽
? ? ? ? ?自然人類言語的情感內(nèi)容是復(fù)雜的,是不同情緒交織在一起的。另外狞谱,對(duì)人類情緒的感知是相當(dāng)主觀的。這就是為什么IEMOCAP數(shù)據(jù)集的標(biāo)簽由多個(gè)注釋者執(zhí)行与斤,他們被允許分配多個(gè)情感標(biāo)簽(Busso et al。抵皱,2008)伤为。 (Mower等,2009)的作者考慮到了這種多標(biāo)簽分配位衩。他們根據(jù)彼此之間注釋者的同意將數(shù)據(jù)集分組。遵循這個(gè)想法抑诸,我們引入兩個(gè)數(shù)據(jù)子集。當(dāng)所有三位評(píng)估者就一個(gè)共同的標(biāo)簽達(dá)成一致時(shí)润绵,我們將標(biāo)簽稱為一致(原型(Mower et al。,2009))伪很。當(dāng)評(píng)估者對(duì)情緒不一致時(shí)贷笛,我們將標(biāo)簽稱為含糊不清(在Mower等人秕狰,2009)中的非原型多數(shù)贊成共識(shí))架忌。在IEMOCAP即興發(fā)音中,只有36:5%被一致標(biāo)記我衬,而63:5%構(gòu)成了不明確的子集叹放。特別是,對(duì)于被標(biāo)記為中性和幸福的話語挠羔,一致性樣本的百分比分別下降到30:1%和18%(見表4)井仰,這表明這些類別的標(biāo)簽含糊不清。
? ? ? ?在本節(jié)中破加,我們分析了我們最佳模型的每類績效俱恶,并根據(jù)樣本所屬的哪個(gè)子集(一致或模糊不清)來說明它如何變化。 表6總結(jié)了預(yù)測結(jié)果范舀。 人們可以看到合是,每班準(zhǔn)確率主要不是由可用樣本的數(shù)量決定的(例如,雖然悲傷被認(rèn)為比中性情緒好得多锭环,即使它在數(shù)據(jù)集中表現(xiàn)得少得多)聪全,但也涉及到注釋。 事實(shí)上辅辩,最好的預(yù)測情緒是具有最高標(biāo)準(zhǔn)樣本比例的情況(見表4)难礼。 雖然過度抽樣娃圆,但幸福是迄今為止最不被認(rèn)可的
? ? ? ? ?情感(28:9%),而憤怒(73%)和悲傷(83:2%)最常被正確預(yù)測蛾茉。最佳模型的UA為61:7%讼呢,在一致(+4:5%)和不明確(-3:5%)子集之間存在顯著差異。分別考慮每種情緒臀稚,每個(gè)類別的準(zhǔn)確性在一致子集上高于模糊子集(中性情感除外)吝岭,憤怒的最大差異為22:5%(見表6中的陰影列)。當(dāng)分類器未能正確預(yù)測時(shí)吧寺,我們檢查網(wǎng)絡(luò)排名第二的情緒(查看softmax輸出)是否正確(請(qǐng)參見表6中的第-2列)窜管。我們觀察到,對(duì)于快樂和中性情緒(類別預(yù)測最不自信)稚机,預(yù)測作為模型的第二選擇的標(biāo)簽通常與真實(shí)標(biāo)簽一致幕帆。在這種情況下,提高分?jǐn)?shù)的可能補(bǔ)充技術(shù)是已經(jīng)在Satt等人(2017)中測試過的兩步預(yù)測赖条。但是失乾,在這項(xiàng)工作中,我們探索了另一種改進(jìn)分類的方法纬乍。我們通過在培訓(xùn)期間引入軟標(biāo)簽來考慮可用的多標(biāo)簽注釋碱茁。為了反映給定標(biāo)簽的置信度,我們根據(jù)注釋者為相應(yīng)話語給出的多個(gè)標(biāo)簽分配一個(gè)概率(例如參見表5中的陰影列)仿贬。例如纽竣,如果一個(gè)話語被兩個(gè)注釋者標(biāo)記為中性情緒,而被第三個(gè)標(biāo)記為悲傷茧泪,那么它的硬標(biāo)簽是“中性”的(它可以用一個(gè)熱點(diǎn)向量編碼為(1,0,0,0 ))蜓氨,而它的軟標(biāo)簽是兩種情緒的混合物:中性情緒,67%的重量和33%的重量(可以編碼為(0.67,0,0.33,0))的悲傷队伟。有時(shí)候穴吹,注釋者會(huì)從我們正在考慮的集合中分配一個(gè)標(biāo)簽(例如“興奮”)。為了將其考慮在內(nèi)嗜侮,我們使用適當(dāng)?shù)臋?quán)重港令。當(dāng)分配給話語的所有多標(biāo)簽屬于所述感興趣的集合時(shí),話語具有權(quán)重1锈颗,而具有該組外的至少一個(gè)多標(biāo)簽的話語具有更小的權(quán)重(參見表5)缠借。訓(xùn)練過程的損失函數(shù)仍然是分類交叉熵,但軟標(biāo)簽取代了硬標(biāo)簽宜猜。結(jié)果顯示在表6中。查看每班課程性能硝逢,可以看出姨拥,唯一受益于軟標(biāo)簽的課程是中性情緒绅喉。其他班級(jí)的表現(xiàn)明顯更差。由于中性情緒類是豐富類叫乌,這導(dǎo)致了更高的WA柴罐,但UA下降。
結(jié)論:
? ? ? ?在這項(xiàng)工作中憨奸,我們研究了幾種技術(shù)來增強(qiáng)譜圖中的語音情感識(shí)別革屠,顯示出高度競爭的表現(xiàn)。此外排宰,對(duì)結(jié)果進(jìn)行仔細(xì)分析可以解釋每種應(yīng)用技術(shù)的貢獻(xiàn)似芝。我們的工作涉及超參數(shù)優(yōu)化以及數(shù)據(jù)的探索。遵循語音分析的現(xiàn)代趨勢板甘,我們使用混合CNN-LSTM架構(gòu)党瓮,利用卷積層的能力從原始輸入中提取高級(jí)表示。有趣的是盐类,我們注意到卷積和LSTM層的參數(shù)訓(xùn)練速度非常不同寞奸,這阻礙了模型潛能的開發(fā)。因此在跳,學(xué)習(xí)率調(diào)整對(duì)于充分利用這種架構(gòu)至關(guān)重要枪萄。這項(xiàng)技術(shù)占未加權(quán)準(zhǔn)確度的1.2-1.4%的改善。我們還調(diào)查了批量標(biāo)準(zhǔn)化的效果猫妙,這是大多數(shù)圖像識(shí)別任務(wù)中不可缺少的工具瓷翻。但是,并不總是建議將批量歸一化應(yīng)用于時(shí)間序列數(shù)據(jù)吐咳,并可能導(dǎo)致數(shù)據(jù)失真逻悠。為了盡可能地保留信號(hào)結(jié)構(gòu),我們按層進(jìn)行標(biāo)準(zhǔn)化以及批處理韭脊。盡管如此童谒,我們并沒有設(shè)法提高性能,這可能是由于我們必須使用小批量才能適應(yīng)可用的GPU內(nèi)存沪羔。收集和標(biāo)記與自動(dòng)情感識(shí)別相關(guān)的語音數(shù)據(jù)是困難的饥伊。盡管這項(xiàng)任務(wù)是標(biāo)準(zhǔn)和適當(dāng)?shù)臄?shù)據(jù)集之一IEMOCAP仍然存在缺陷和階級(jí)失衡的缺陷。因此蔫饰,正如前面的工作所指出的那樣琅豆,交叉驗(yàn)證對(duì)模型性能的無偏測量是至關(guān)重要的,因?yàn)楦鶕?jù)哪個(gè)揚(yáng)聲器支持測量精度篓吁,結(jié)果會(huì)有很大差異茫因。在這里,我們主張支持10倍而不是5倍交叉驗(yàn)證杖剪,這樣就不會(huì)導(dǎo)致結(jié)果模糊冻押。我們利用數(shù)據(jù)增強(qiáng)和次要類別過度抽樣驰贷,這證明可以成功地增強(qiáng)對(duì)代表不足的類別的檢測。這兩種技術(shù)的結(jié)合導(dǎo)致1.8%的增長相對(duì)于基線的未加權(quán)準(zhǔn)確度洛巢。最后括袒,除了數(shù)據(jù)集的局限性之外,任務(wù)本身也存在固有的困難稿茉,反映在大多數(shù)情況下锹锰,人類注釋者本身并不同意情緒。結(jié)果漓库,我們的神經(jīng)網(wǎng)絡(luò)經(jīng)常對(duì)模糊樣本錯(cuò)誤分類恃慧。為了克服這個(gè)問題,我們試圖通過引入軟標(biāo)簽來利用各個(gè)注釋器的可用信息米苹。然而糕伐,這對(duì)于未加權(quán)的準(zhǔn)確性是有害的,因?yàn)樗鼉H有利于檢測主要類蘸嘶。鑒于用于情感識(shí)別任務(wù)的混合CNN-LSTM架構(gòu)的成功良瞧,未來工作的可能方向?qū)⑹鞘褂镁矸eLSTM(Shi et al。2015)训唱,其中定義LSTM分量的矩陣乘積用卷積代替褥蚯。鑒于數(shù)據(jù)增強(qiáng)的重要性,另一個(gè)有希望的想法是使用生成對(duì)抗網(wǎng)絡(luò)(Goodfellow等况增,2014)來實(shí)現(xiàn)數(shù)據(jù)增強(qiáng)赞庶。這種方法在圖像分類(Shrivastava等,2017)中已被證明是成功的澳骤,它將成為VLTP的替代品歧强,用于合成新的現(xiàn)實(shí)樣本。
情緒識(shí)別Efficient Emotion Recognition from Speech Using Deep Learning on Spectrograms
基本參數(shù):
win:20ms? 40ms
幀:10ms
DFT: 800/1600
輸出:M*N矩陣
評(píng)估方法和模型:
我們使用了兩個(gè)通用評(píng)估標(biāo)準(zhǔn):
總體準(zhǔn)確度 - 數(shù)據(jù)集中的每個(gè)句子具有相同的權(quán)重为肮,AKA加權(quán)準(zhǔn)確度
類精度 - 首先評(píng)估每種情緒的準(zhǔn)確度摊册,然后進(jìn)行平均,即不加權(quán)的精度
為了比較以下四個(gè)情緒被使用:憤怒颊艳,幸福茅特,中立和悲傷。 我們測試了幾十種拓?fù)浜蛥?shù)的組合棋枕。 我們評(píng)估了卷積式拓?fù)浒仔蓿秶鷱?層到8層,具有時(shí)間窗口大小和頻率網(wǎng)格分辨率的不同組合重斑。 我們還評(píng)估了具有一至六個(gè)卷積層的拓?fù)浣Y(jié)構(gòu)有一個(gè)和兩個(gè)LSTM層兵睛。 下表總結(jié)了最佳拓?fù)浣Y(jié)構(gòu),僅與卷積和LSTM卷積。
實(shí)驗(yàn)結(jié)論:
關(guān)于上面的表1祖很,我們使用了以下內(nèi)容
參數(shù):
1累盗、窗口大小設(shè)置為40毫秒; 一個(gè)20毫秒的窗口產(chǎn)生了類似的結(jié)果,在不同的拓?fù)浣Y(jié)構(gòu)中降低0-2% 雙向LSTM包含128x2節(jié)點(diǎn); 使用64x2節(jié)點(diǎn)突琳,精度下降1-3%;
3、頻率網(wǎng)格分辨率設(shè)置為10Hz; 較低分辨率(20Hz)的精度降低1-3%;
4符相、發(fā)現(xiàn)卷積網(wǎng)絡(luò)的最佳拓?fù)浣Y(jié)構(gòu)包括5層(我們嘗試了2-8層)拆融,而最好的混合拓?fù)浣Y(jié)構(gòu)包括3個(gè)卷積層和一個(gè)LSTM層(我們嘗試了1-6個(gè)卷積層和 1-2層LSTM層);
5、對(duì)深度網(wǎng)絡(luò)進(jìn)行了優(yōu)化啊终,以最大限度地提高總體精度(這在下面進(jìn)行了討論)
IEMOCAP語料庫顯著不平衡;應(yīng)對(duì)對(duì)于不平衡的數(shù)據(jù)镜豹,我們嘗試了以下技術(shù):
1、訓(xùn)練網(wǎng)絡(luò)以最大化類精度而不是整體精度蓝牲,總體精度的懲罰使得它不太有用;
2趟脂、為隨機(jī)梯度賦予不同的權(quán)重,與類大小成反比例衍,它將整體和類別精度都提高了13%;
3昔期、使用統(tǒng)計(jì)過采樣來獲得同等規(guī)模的訓(xùn)練類增加了最小類準(zhǔn)確度(開心),但不是整體和班級(jí)準(zhǔn)確度佛玄。我們還嘗試了兩步預(yù)測硼一,基于:
? ? ? ? ? 演示了一個(gè)過濾器,傾向于了解聲譜圖中較不相關(guān)的區(qū)域梦抢,包括沉默和低能區(qū)般贼。這種激活解釋了深度網(wǎng)絡(luò)如何將光譜圖的相關(guān)部分與不太重要的區(qū)域分開。為了進(jìn)一步提高所提出的解決方案的識(shí)別精度奥吩,我們試圖在LSTM層中增加一個(gè)一維的關(guān)注機(jī)制哼蛆。基于圖像對(duì)象識(shí)別中二維注意機(jī)制的成功[25-26]霞赫,我們的動(dòng)機(jī)是找到與情感識(shí)別相關(guān)的語音信號(hào)的時(shí)間段腮介。不幸的是,我們還沒有獲得任何精度的改進(jìn)绩脆,因此得出結(jié)論萤厅,在我們的例子中,卷積和LSTM層似乎從對(duì)數(shù)譜圖中有效地檢測了相關(guān)的時(shí)間段靴迫。
結(jié)論:
? ? ? ? 我們在有限的延遲約束(<= 3秒)的情況下惕味,從語音中演示了一個(gè)情感識(shí)別系統(tǒng),與以前的作品相比玉锌,在無延遲約束的情況下名挥,通用基準(zhǔn)測試數(shù)據(jù)集IEMOACP具有最先進(jìn)的準(zhǔn)確性:其中一個(gè)測試網(wǎng)絡(luò)拓?fù)溥_(dá)到了67.3%和62.0%,與之前的工作相比主守,達(dá)到了63.9%和62.8% 禀倔, 分別榄融。 該系統(tǒng)基于端到端深度神經(jīng)網(wǎng)絡(luò),直接應(yīng)用于原始譜圖而無需特征提取步驟救湖。 使用原始譜圖使我們能夠輕松地組合基于諧波濾波的降噪解決方案愧杯,該解決方案可以處理高噪聲級(jí)別,如SNR = 0dB- 我們在背景非語音噪音的情況下證明了這個(gè)水平的穩(wěn)健性鞋既。