Deep Audio-Visual Speech Recognition
作者:Triantafyllos Afouras, Joon Son Chung, Andrew Senior, Oriol Vinyals, Andrew Zisserman
原文鏈接
0 摘要
? 這項(xiàng)工作的目的是識(shí)別有語音或無語音的說話人說的短語和句子哗蜈。不同于以前的工作(只能識(shí)別有限數(shù)量的單詞或短語)隘击,我們將唇語作為一個(gè)開放世界的問題來解決——視頻中無限制的自然語言句子。我們主要的貢獻(xiàn):1、我們比較了兩種讀唇語的模型,一種是用CTC損失,另一種是用sequence-to-sequence損失脾歧,這兩個(gè)模型都是基于transformer self-attention架構(gòu)。2演熟、我們研究唇語在多大程度上可與音頻語音識(shí)別相輔相成涨椒,特別是當(dāng)音頻信號(hào)嘈雜時(shí)。3、我們引入并公開發(fā)布了用于視聽語音識(shí)別的新數(shù)據(jù)集LRS2-BBC蚕冬,其中包括來自英國電視臺(tái)的數(shù)千個(gè)自然句子免猾。
我們訓(xùn)練的模型大大超過了唇讀基準(zhǔn)數(shù)據(jù)集上所有先前工作的性能。
1 介紹
? 唇語閱讀(“l(fā)ip reading”也翻譯為唇讀)在實(shí)際情況中往往會(huì)遇到一些問題囤热,比如說:“p”和“b”在嘴型上都是一樣的猎提,不過這種情況可以通過聯(lián)系上下文或者用語言模型,在一定程度上得到解決旁蔼。
唇讀機(jī)器會(huì)打開許多??應(yīng)用程序:在嘈雜的環(huán)境中發(fā)出“命令”锨苏,向電話發(fā)送指令或消息;轉(zhuǎn)錄和重新配音存檔的無聲電影棺聊;解決多人同時(shí)語音以及總體上改善自動(dòng)語音識(shí)別的性能伞租。
由于在計(jì)算機(jī)視覺任務(wù)中眾所周知的兩個(gè)發(fā)展,現(xiàn)在這種自動(dòng)化成為可能:使用深度神經(jīng)網(wǎng)絡(luò)模型[30限佩,44葵诈,47];以及大規(guī)模可用的訓(xùn)練數(shù)據(jù)集[41]祟同。在這種情況下作喘,唇讀模型基于最近開發(fā)的編碼器-解碼器體系結(jié)構(gòu),用于語音識(shí)別和機(jī)器翻譯[5晕城、7泞坦、22、23砖顷、46]贰锁。
本文的目的是開發(fā)用于唇讀句子的神經(jīng)轉(zhuǎn)錄體系結(jié)構(gòu)。我們比較了兩種模型:一種使用連接器時(shí)間分類(CTC)損失[22]滤蝠,另一種使用序列到序列(seq2seq)損失[9李根,46]。兩種模型都基于transformer self-attention架構(gòu)[49]几睛,因此可以將兩種損失的優(yōu)缺點(diǎn)進(jìn)行直接比較房轿,而其余的模塊則盡可能多。本文開發(fā)的用于訓(xùn)練和評(píng)估模型的數(shù)據(jù)集是基于數(shù)千小時(shí)的視頻所森,這些視頻中有說話人的臉以及說話的字幕囱持。
我們還研究了唇讀如何促進(jìn)基于音頻的語音識(shí)別。關(guān)于這種貢獻(xiàn)的文獻(xiàn)很多焕济,特別是在嘈雜的環(huán)境中纷妆,在某些相反的情況下,某些音頻的derived measure可能會(huì)導(dǎo)致耳聾或重聽的唇讀晴弃。為了研究這一方面掩幢,我們訓(xùn)練了一個(gè)模型來識(shí)別音頻和視覺輸入中的字符逊拍,然后系統(tǒng)地干擾音頻通道。
我們的模型在字符級(jí)別輸出际邻。對(duì)于CTC芯丧,這些輸出彼此獨(dú)立。在sequence-to-sequence損失世曾,將隱式學(xué)習(xí)語言模型缨恒,并且該體系結(jié)構(gòu)包含了一種新穎的雙重關(guān)注機(jī)制,該機(jī)制可以僅對(duì)視覺輸入轮听,僅對(duì)音頻輸入或?qū)Χ哌M(jìn)行操作骗露。第3節(jié)中描述了這些體系結(jié)構(gòu)。這兩種模型都通過beam search進(jìn)行解碼血巍,我們可以選擇在其中合并外部語言模型萧锉。
在第4節(jié)中,我們描述了用于訓(xùn)練和評(píng)估模型的大型數(shù)據(jù)集LRS2-BBC的生成和統(tǒng)計(jì)信息述寡。數(shù)據(jù)集包含說話的面孔以及所說的字幕柿隙。這些視頻包含“自然(in the wild)”面孔,這些面孔具有各種各樣的姿勢(shì)辨赐,表情,光線京办,背景和種族掀序。第5節(jié)介紹了網(wǎng)絡(luò)訓(xùn)練,我們?cè)谄渲袇R報(bào)了一種用于加速訓(xùn)練的課程學(xué)習(xí)形式惭婿。最后不恭,第6節(jié)評(píng)估模型的性能,包括僅用于視覺(嘴唇)輸入财饥,音頻和視覺輸入以及音頻和視覺流之間的同步誤差的模型换吧。
關(guān)于內(nèi)容:此呈件基于會(huì)議論文[12]。我們用基于Transformer的模型的兩個(gè)變體替換了原始論文中的WLAS模型[49]钥星。在[2]中發(fā)表了一個(gè)變體沾瓦,而第二個(gè)變體(使用CTC損失)是本文的原始貢獻(xiàn)。我們還用[45]提出的基于ResNet的可視化前端進(jìn)行了更新谦炒。 與[12]中提出的模型相比贯莺,新的前端和后端體系結(jié)構(gòu)對(duì)字誤碼率(WER)的絕對(duì)改進(jìn)貢獻(xiàn)超過22%。最后宁改,我們公開發(fā)布了一個(gè)新的數(shù)據(jù)集LRS2-BBC缕探,它將取代[12]中的原始LRS數(shù)據(jù)集,由于許可證限制还蹲,該數(shù)據(jù)集無法公開爹耗。
2 背景
2.1 CTC vs sequence-to-sequence 架構(gòu)
? 在大多數(shù)情況下耙考,用于序列預(yù)測(cè)的端到端深度學(xué)習(xí)方法可以分為兩種類型。
第一種使用神經(jīng)網(wǎng)絡(luò)作為發(fā)射(emission)模型倦始,其在給定輸入序列(例如音頻)的情況下輸出每個(gè)輸出符號(hào)(例如音素)的似然(likelihood)。 這些方法通常采用隱馬爾可夫模型[25]進(jìn)行解碼的第二階段讼溺。 這種變體的一個(gè)版本是連接主義者的時(shí)間分類(CTC)[22]楣号,其中模型預(yù)測(cè)逐幀標(biāo)簽,然后在逐幀預(yù)測(cè)和輸出序列之間尋找最佳對(duì)齊方式怒坯。 CTC的主要缺點(diǎn)是輸出標(biāo)簽彼此之間沒有條件(假定每個(gè)單元都是獨(dú)立的)炫狱,因此將語言模型用作后處理步驟。 注意剔猿,已經(jīng)提出了一些共同訓(xùn)練兩步過程的替代方法[21]视译。 該方法的另一個(gè)局限性在于它假定輸入和輸出序列之間的單調(diào)排序。 例如归敬,此假設(shè)適用于ASR和轉(zhuǎn)錄酷含,但不適用于機(jī)器翻譯。
第二種是序列到序列模型[9汪茧,46](seq2seq)椅亚,該模型先讀取所有輸入序列,然后再預(yù)測(cè)輸出句子舱污。 許多論文采用這種方法進(jìn)行語音識(shí)別[10呀舔,11]:例如,Chan等扩灯。 [7]提出了一種優(yōu)雅的序列到序列方法將音頻信號(hào)轉(zhuǎn)錄為字符媚赖。 序列到序列在時(shí)間 t 處以先前 1,...珠插,t ? 1 輸出為條件的輸出符號(hào)(例如字符或單詞)進(jìn)行解碼 惧磺。因此,與基于CTC的模型不同捻撑,該模型隱式地學(xué)習(xí)了基于輸出符號(hào)的語言模型磨隘,并且不需要進(jìn)一步的處理。 然而顾患,已經(jīng)證明[7琳拭、26],在序列到序列模型的解碼中并入外部語言模型也是有益的描验。這樣白嘁,可以利用較大的純文本語料庫,該語料庫包含的自然語言信息要比用于訓(xùn)練聲學(xué)模型的有限對(duì)齊數(shù)據(jù)要豐富得多膘流。
關(guān)于體系結(jié)構(gòu)絮缅,盡管傳統(tǒng)上基于CTC或seq2seq的方法依賴于循環(huán)網(wǎng)絡(luò)鲁沥,但最近已經(jīng)轉(zhuǎn)向了純粹的卷積模型[6]。 例如耕魄,全卷積網(wǎng)絡(luò)已用于帶有CTC的ASR [51画恰,55]或簡化的變體[16,32吸奴,54]允扇。
2.2 相關(guān)工作
? 唇讀(Lip reading)使用非深度學(xué)習(xí)方法進(jìn)行唇讀的工作量很大。 在[56]中對(duì)這些方法進(jìn)行了全面的回顧则奥,在此不再贅述考润。與識(shí)別完整的單詞或句子相反,許多論文已使用卷積神經(jīng)網(wǎng)絡(luò)(CNN)從靜止圖像預(yù)測(cè)音素(phonemes)[37]或視位素(visemes)[29]读处。 音素是共同構(gòu)成一個(gè)語音詞的最小的可分辨聲音單位糊治。視位素是其視覺等同物。
為了識(shí)別完整的單詞罚舱,Petridis等人[39]在離散余弦變換(discrete cosine transform井辜,DCT)和深度瓶頸特征(deep bottleneck features,DBF)上訓(xùn)練LSTM分類器管闷。同樣粥脚,Wand等[50]使用具有HOG輸入功能的LSTM來識(shí)別短語。唇讀中手工特征繼續(xù)使用的原因大概是缺乏訓(xùn)練數(shù)據(jù)包个。 現(xiàn)有的數(shù)據(jù)集僅具有少量主題的視頻刷允,以及有限的詞匯(少于60個(gè)單詞),這也是進(jìn)步的障礙赃蛛。Chung和Zisserman [13]通過在電視廣播中使用面孔來組合500字的詞匯量的LRW數(shù)據(jù)集來解決小詞典問題恃锉。 但是搀菩,與任何詞級(jí)分類任務(wù)一樣呕臂,鑒于必須預(yù)先知道詞的邊界,因此該情形仍與現(xiàn)實(shí)世界相去甚遠(yuǎn)肪跋。Assael等[4]使用基于CNN和LSTM的網(wǎng)絡(luò)和(CTC)[22]來計(jì)算標(biāo)簽歧蒋。 這匯報(bào)了GRID數(shù)據(jù)集的約束語法和51個(gè)單詞的詞匯具有很強(qiáng)的獨(dú)立于說話者的性能[17]。
在我們的早期工作中[12]州既,我們基于[7]的LAS ASR模型提出了WLAS序列到序列模型(WLAS的縮寫是Watch谜洽,Listen,Attend和Spell吴叶,而LAS則是Listen阐虚,Attend和Spell)。WLAS模型具有雙重attention機(jī)制——一種用于視覺(嘴唇)流蚌卤,另一種用于音頻(語音)流实束。它將語音句子轉(zhuǎn)錄為字符奥秆,并且可以僅處理視覺輸入,或者僅音頻輸入或者兩者兼有咸灿。
在獨(dú)立和并行的工作中构订,Shillingford等人[43],設(shè)計(jì)一個(gè)唇讀流水線(pipeline)避矢,該流水線使用一個(gè)輸出音素概率并經(jīng)過CTC損失訓(xùn)練的網(wǎng)絡(luò)悼瘾。 在inference時(shí),他們使用基于有限狀態(tài)換能器(transducers)的解碼器將音素分布轉(zhuǎn)換為單詞序列审胸。該網(wǎng)絡(luò)在由YouTube視頻構(gòu)成的超大規(guī)模唇讀數(shù)據(jù)集上進(jìn)行了訓(xùn)練亥宿,并實(shí)現(xiàn)了出色的40.9%詞錯(cuò)誤率。
視聽語音識(shí)別(Audio-visual speech recognition) 視聽語音識(shí)別(AVSR)和唇讀的問題緊密相關(guān)歹嘹。Mroueh等[36]使用前饋深度神經(jīng)網(wǎng)絡(luò)(DNN)在大型非公共視聽數(shù)據(jù)集上進(jìn)行音素分類箩绍。事實(shí)證明,將HMM與手工制作或預(yù)先訓(xùn)練的視覺功能結(jié)合使用很普遍——[48]使用DBF編碼輸入圖像尺上;[20]使用DCT材蛛;[38]使用經(jīng)過預(yù)訓(xùn)練的CNN對(duì)音素進(jìn)行分類;這三種功能都與HMM結(jié)合使用怎抛,可以對(duì)語音數(shù)字或孤立的單詞進(jìn)行分類卑吭。與唇讀一樣,幾乎沒有嘗試開發(fā)可推廣到實(shí)際環(huán)境的AVSR系統(tǒng)马绝。
Petridis等[40]使用的體系結(jié)構(gòu)的擴(kuò)展版本[45]從原始像素和波形中學(xué)習(xí)表示形式豆赏,然后將它們連接起來并饋入雙向循環(huán)網(wǎng)絡(luò),該雙向循環(huán)網(wǎng)絡(luò)共同對(duì)音頻和視頻序列進(jìn)行建模并輸出單詞標(biāo)簽富稻。
3 架構(gòu)
? 在本節(jié)中掷邦,我們描述用于視聽語音識(shí)別的模型架構(gòu),在此基礎(chǔ)上椭赋,我們基于最近提出的Transformer模型[49]探索了兩種變體:i)用于以seq2seq方式訓(xùn)練的 encoder-decoder 注意力結(jié)構(gòu)抚岗,以及用 CTC loss 訓(xùn)練的 self-attention 模塊。圖2概述了該體系結(jié)構(gòu)哪怔。通用模型接收兩個(gè)輸入流宣蔚,一個(gè)輸入流用于視頻(V),一個(gè)用于音頻(A)认境。
3.1 音頻特征
? 對(duì)于聲學(xué)表示(acoustic representation)距淫,我們使用321維頻譜幅度绞绒,該幅度是在40kHz窗口和10ms跳長(hop-length)下以16 kHz采樣率計(jì)算的。 由于視頻以25 fps(每幀40毫秒)采樣榕暇,因此每個(gè)視頻輸入幀對(duì)應(yīng)4個(gè)聲學(xué)特征幀蓬衡。 我們將音頻功能分為4組,以減少穩(wěn)定CTC訓(xùn)練常用的輸入序列長度[8彤枢,42]狰晚,同時(shí)為兩種模式實(shí)現(xiàn)相同的時(shí)間尺度。
3.2 視覺模塊
? 輸入圖像為224×224像素缴啡,以25 fps采樣壁晒,并包含說話者的臉部。 如圖3所示盟猖,我們裁剪了一個(gè)112×112的補(bǔ)丁讨衣,覆蓋了嘴周圍的區(qū)域换棚。要提取表示嘴唇運(yùn)動(dòng)的視覺特征式镐,我們使用基于[45]的時(shí)空視覺前端。 該網(wǎng)絡(luò)在輸入圖像序列上應(yīng)用3D卷積固蚤,其濾鏡寬度為5幀娘汞,然后是2D ResNet,可隨著深度逐漸減小空間尺寸夕玩。 附錄A中詳細(xì)列出了這些層你弦。對(duì)于幀的輸入序列惊豺,輸出為張量(即保留時(shí)間分辨率(temporal resolution)),其在空間維度上平均池化禽作,為每個(gè)輸入視頻幀生成512維特征向量尸昧。
3.3 普通self-attention編碼器
? 我們考慮的兩個(gè)變體都使用相同的基于self-attention的編碼器體系結(jié)構(gòu)。編碼器是多頭self-attention層的堆棧旷偿,其中輸入張量同時(shí)用作attention的查詢烹俗,鍵和值。 如圖2(a)所示萍程,每種模式都使用單獨(dú)的編碼器幢妄。輸入序列順序的信息以正弦函數(shù)形式的固定位置嵌入被饋送到模型。
3.4 Sequence-to-sequence Transformer (TM-seq2seq)
? 在此變體中茫负,使用單獨(dú)的attention heads來引入(attending on)視頻和音頻嵌入蕉鸳。 在每個(gè)解碼器層中,所得的視頻和音頻上下文在通道范圍內(nèi)連接在一起并傳播到前饋塊忍法。兩種模態(tài)的關(guān)注機(jī)制都將前一解碼層的輸出(或在第一層的情況下為解碼器輸入)作為查詢接收潮尝。解碼器產(chǎn)生的字符概率直接與標(biāo)準(zhǔn)答案標(biāo)簽(ground truth labels)匹配并經(jīng)過交叉熵?fù)p失訓(xùn)練。 附錄B中提供了有關(guān)多頭注意力(multi-head attention)和前饋構(gòu)建模塊的更多詳細(xì)信息饿序。
3.5 CTC Transformer (TM-CTC)
? TM-CTC模型將視頻和音頻編碼連接起來衍锚,并通過一堆self-attention/前饋模塊傳播結(jié)果,該模塊與編碼器中使用的模塊相同嗤堰。 網(wǎng)絡(luò)的輸出是每個(gè)輸入幀的CTC后驗(yàn)概率戴质,整個(gè)堆棧都經(jīng)過CTC損失訓(xùn)練。
3.6 外部(External) 語言模型(LM)
? 為了在推理中解碼這兩個(gè)變量踢匣,我們使用了字符級(jí)語言模型告匠。 它是一個(gè)遞歸網(wǎng)絡(luò),具有4個(gè)單向?qū)永牖#總€(gè)層有1024個(gè)LSTM單元后专。 語言模型經(jīng)過訓(xùn)練,可以一次預(yù)測(cè)一個(gè)字符输莺,僅接收前一個(gè)字符作為輸入戚哎。 兩種模型的解碼都是通過從左到右的波束搜索進(jìn)行的,其中LM對(duì)數(shù)概率通過淺融合[26]與模型的輸出組合在一起嫂用。 附錄C和D中提供了有關(guān)解碼的更多詳細(xì)信息型凳。
3.7 單模態(tài)模型(Single modality models)
? 當(dāng)僅存在兩種形式時(shí),可以使用本節(jié)中描述的視聽模型嘱函。代替使用TM-seq2seq的注意力向量或TM-CTC的編碼甘畅,僅使用來自可用模態(tài)的向量。
4 數(shù)據(jù)集
? 在本節(jié)中,我們描述了一種多級(jí)流水線(multi-stage pipeline)疏唾,這種多級(jí)流水線用于自動(dòng)生成視聽語音識(shí)別的大規(guī)模數(shù)據(jù)集LRS2-BBC蓄氧。 使用此流水線,我們已經(jīng)能夠收集數(shù)千小時(shí)的口頭句子和短語以及相應(yīng)的面部表情槐脏。我們使用了各種BBC程序喉童,從Dragon's Den到Top Gear和Countryfile。
圖4總結(jié)了處理流程顿天。大多數(shù)步驟都是基于[13]和[14]中描述的方法泄朴,不過我們?cè)诖撕喴攀隽嗽摲椒ā?br>
視頻準(zhǔn)備 一個(gè)基于Single Shot MultiBox Detector(SSD)[33]的CNN面部檢測(cè)器用于檢測(cè)各個(gè)幀中的面部外觀。 與先前工作中使用的基于HOG的檢測(cè)器[27]不同露氮,SSD可以從各個(gè)角度檢測(cè)人臉祖灰,并表現(xiàn)出更強(qiáng)大的性能,同時(shí)運(yùn)行速度更快畔规。
通過比較連續(xù)幀之間的顏色直方圖來確定鏡頭邊界[31]局扶。 在每次拍攝中,面部跟蹤都是根據(jù)面部檢測(cè)的位置從面部檢測(cè)生成的叁扫,因?yàn)楫?dāng)視點(diǎn)發(fā)生極端變化時(shí)三妈,基于特征的跟蹤器(例如KLT [34])通常會(huì)失敗。
音頻和文本準(zhǔn)備 電視中的字幕不會(huì)與音頻同步廣播莫绣。 Penn Phonetics Lab強(qiáng)制對(duì)齊器[53]用于將字幕與音頻信號(hào)強(qiáng)制對(duì)齊畴蒲。對(duì)齊方式中存在錯(cuò)誤,因?yàn)楣P錄不是逐字記錄的——因此对室,通過對(duì)照工業(yè)中IBM Watson語音轉(zhuǎn)文本服務(wù)進(jìn)行檢查模燥,可以過濾對(duì)齊的標(biāo)簽。
AV同步和揚(yáng)聲器檢測(cè) 在廣播視頻中掩宜,音頻和視頻流最多可能不同步一秒鐘左右蔫骂,這在提取與句子對(duì)應(yīng)的面部表情時(shí)可能會(huì)引起問題。 [14]中描述的兩流網(wǎng)絡(luò)(two-stream network)的多視圖適配(multi-view adaptation)[15]用于同步兩個(gè)流牺汤。同樣的網(wǎng)絡(luò)還可以用來確定哪些臉部的嘴唇運(yùn)動(dòng)與音頻相匹配辽旋,如果沒有匹配,則該剪輯將被視為畫外音檐迟。
句子提取 使用轉(zhuǎn)錄產(chǎn)物(transcript)中的標(biāo)點(diǎn)將視頻分為單個(gè)句子/短語补胚。 句子之間用句號(hào)、逗號(hào)和問號(hào)分隔追迟; 由于GPU內(nèi)存的限制而被裁剪為100個(gè)字符或10秒溶其。 對(duì)于詞匯量,我們沒有任何限制怔匣。
根據(jù)廣播日期(broadcast date)握联,LRS2-BBC數(shù)據(jù)集分為開發(fā)(訓(xùn)練/驗(yàn)證)和測(cè)試集。 數(shù)據(jù)集還具有一個(gè)“預(yù)訓(xùn)練”集每瞒,其中包含一些句子摘錄金闽,這些摘錄可能比開發(fā)集中包含的完整句子短或長避除,并有每個(gè)單詞的對(duì)齊邊界的注釋乖寒。 這些集合的統(tǒng)計(jì)信息在表1中給出。該表還將“唇讀句”(LRS)系列數(shù)據(jù)集與最大的現(xiàn)有公共數(shù)據(jù)集進(jìn)行了比較瘸味。 除了LRS2-BBC浓利,我們還使用MV-LRS和LRS3-TED進(jìn)行訓(xùn)練和評(píng)估挤庇。
用于訓(xùn)練外部語言模型的數(shù)據(jù)集 為了在每個(gè)視聽數(shù)據(jù)集上訓(xùn)練用于評(píng)估的語言模型,我們使用了一個(gè)文本語料庫贷掖,其中包含視頻的完整字幕嫡秕,并由此生成了數(shù)據(jù)集的訓(xùn)練集。 純文本語料庫包含2600萬個(gè)單詞苹威。
5 訓(xùn)練策略
? 在本節(jié)中昆咽,我們將描述有效地訓(xùn)練模型的策略,并充分利用有限的可用數(shù)據(jù)量牙甫。訓(xùn)練分為四個(gè)階段:i)對(duì)視覺前端模塊進(jìn)行了訓(xùn)練掷酗; ii)使用視覺模塊為所有訓(xùn)練數(shù)據(jù)生成視覺特征; iii)對(duì)序列處理模塊進(jìn)行冷凍視覺特征(frozen visual features)的訓(xùn)練窟哺; iv)整個(gè)網(wǎng)絡(luò)是端到端的訓(xùn)練泻轰。
5.1 預(yù)訓(xùn)練視覺特征
? 我們使用MVLRS [15]數(shù)據(jù)集的詞摘錄對(duì)視覺前端進(jìn)行預(yù)訓(xùn)練,使用2層時(shí)間卷積后端對(duì)每個(gè)片段進(jìn)行分類且轨,類似于[45]浮声。 我們以水平翻轉(zhuǎn),移除隨機(jī)幀[4旋奢、45]以及在空間維度上最多±5個(gè)像素和在時(shí)間維度上最多±2幀的隨機(jī)移位的形式執(zhí)行數(shù)據(jù)增強(qiáng)阿蝶。
5.2 課程式學(xué)習(xí)(Curriculum learning)
? 據(jù)報(bào)道,當(dāng)時(shí)間步長很大時(shí)黄绩,序列到序列學(xué)習(xí)收斂非常慢羡洁,因?yàn)榻獯a器最初很難從所有輸入步驟中提取相關(guān)信息[7]。 即使我們的模型不包含任何遞歸模塊爽丹,我們發(fā)現(xiàn)遵循課程設(shè)置而不是立即對(duì)完整句子進(jìn)行訓(xùn)練也很有幫助筑煮。
我們引入了一種新的策略,在該策略中粤蝎,我們僅在單個(gè)單詞示例上開始訓(xùn)練真仲,然后讓序列長度隨著網(wǎng)絡(luò)訓(xùn)練而增長。 這些短序列是數(shù)據(jù)集中較長句子的一部分初澎。 我們觀察到訓(xùn)練集上的收斂速度快了好幾倍秸应,而課程(curriculum)也顯著減少了過擬合虑凛,這大概是因?yàn)樗菙U(kuò)充數(shù)據(jù)的自然方式。
首先根據(jù)MV-LRS软啼,LRS2-BBC和LRS3-TED的預(yù)訓(xùn)練集的凍結(jié)特征對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練桑谍。 我們通過將序列零填充到最大長度來處理發(fā)聲長度的差異,然后逐漸增加最大長度祸挪。 然后锣披,我們根據(jù)要評(píng)估的集合,分別對(duì)LRS2BBC或LRS3-TED的訓(xùn)練評(píng)估(train-val)集進(jìn)行端到端微調(diào)贿条。
5.3 嘈雜音頻訓(xùn)練&多模式訓(xùn)練
? 最初含鳞,純音頻模型使用純凈的輸入音頻進(jìn)行訓(xùn)練。 具有多模式輸入的網(wǎng)絡(luò)通城畚瘢可以由以下模式之一控制[19]蝉绷。在我們的案例中,我們觀察到對(duì)于視聽模型來說枣抱,音頻信號(hào)占主導(dǎo)地位熔吗,因?yàn)檎Z音識(shí)別比唇讀要容易得多。 為了防止這種情況的發(fā)生佳晶,我們?cè)谟?xùn)練期間以的概率向音頻流中添加了SNR為0dB的babble噪聲桅狠。
為了評(píng)估和提高對(duì)音頻噪聲的泛化性(tolerance),我們隨后在始終將原始音頻中添加具有0dB SNR的babble噪聲的設(shè)置中轿秧,微調(diào)純音頻和視聽模型中跌。我們通過混合LRS2-BBC數(shù)據(jù)集中20種不同音頻樣本的信號(hào)來合成babble噪聲樣本。
5.4 實(shí)施細(xì)節(jié)
? 網(wǎng)絡(luò)的輸出大小為40菇篡,占字母表中的26個(gè)字符漩符,10個(gè)數(shù)字以及[space]和[pad]的標(biāo)記。 對(duì)于TM-seq2seq驱还,我們使用額外的[sos]令牌嗜暴,對(duì)于TM-CTC凸克,我們使用[blank]令牌。 我們不對(duì)標(biāo)點(diǎn)符號(hào)建模闷沥,因?yàn)閿?shù)據(jù)集的轉(zhuǎn)錄不包含任何標(biāo)點(diǎn)符號(hào)萎战。
TM-seq2seq用教師強(qiáng)制(teacher forcing )訓(xùn)練——我們將上一個(gè)解碼步驟的基本事實(shí)作為解碼器的輸入,而在推理過程中狐赡,我們會(huì)反饋解碼器預(yù)測(cè)撞鹉。
我們的實(shí)現(xiàn)基于TensorFlow庫[1]展蒂,并在具有11GB內(nèi)存的單個(gè)GeForce GTX 1080 Ti GPU上進(jìn)行了訓(xùn)練。 使用具有默認(rèn)參數(shù)和初始學(xué)習(xí)率的ADAM優(yōu)化器[28]對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練苔咪,每次驗(yàn)證誤差達(dá)到穩(wěn)定水平時(shí)锰悼,初始學(xué)習(xí)率將降低2倍,直至最終學(xué)習(xí)率達(dá)到 团赏。 對(duì)于所有模型箕般,我們使用的dropout和標(biāo)簽平滑。
6 實(shí)驗(yàn)內(nèi)容
? 在本節(jié)中舔清,我們?cè)u(píng)估和比較提出的體系結(jié)構(gòu)和訓(xùn)練策略丝里。 我們還將我們的方法與現(xiàn)有技術(shù)進(jìn)行了比較。
我們按照第5.2節(jié)所述進(jìn)行訓(xùn)練体谒,并在各個(gè)數(shù)據(jù)集的獨(dú)立測(cè)試集上評(píng)估LRS2-BBC和LRS3-TED的微調(diào)模型杯聚。推理和評(píng)估程序如下所述。
測(cè)試時(shí)間增加 在推論過程中抒痒,我們對(duì)每個(gè)視頻樣本執(zhí)行9個(gè)隨機(jī)變換(視頻幀的水平翻轉(zhuǎn)和最大±5像素的空間移位)幌绍,并將擾動(dòng)后的序列通過網(wǎng)絡(luò)。 對(duì)于TM-seq2seq故响,我們平均了對(duì)數(shù)結(jié)果纷捞,而對(duì)于TM-CTC,我們平均視覺特征被去。
光束搜索 對(duì)于TM-Seq2seq主儡,使用寬度為35的波束搜索來進(jìn)行解碼;對(duì)于TM-CTC惨缆,使用寬度為100的波束搜索來執(zhí)行解碼(這些值是根據(jù)LRS2-BBC的train-val分離的保留驗(yàn)證集確定的)糜值。
評(píng)估協(xié)議 對(duì)于所有實(shí)驗(yàn)丰捷,我們報(bào)告的單詞錯(cuò)誤率(WER)定義為,其中S寂汇,D和I分別是從中獲得的替換病往,刪除和插入的數(shù)量。 參考假設(shè)骄瓣,N是參考中的字?jǐn)?shù)停巷。
實(shí)驗(yàn)設(shè)置 本節(jié)的其余部分結(jié)構(gòu)如下:首先,我們以唇讀的方式呈現(xiàn)結(jié)果榕栏,其中僅將視頻用作輸入畔勤。 然后,我們將完整模型用于視聽語音識(shí)別扒磁,其中假定視頻和音頻已正確同步庆揪。 為了評(píng)估模型在嘈雜環(huán)境中的魯棒性,我們還在人為添加話語噪聲的環(huán)境中進(jìn)行了訓(xùn)練和測(cè)試妨托。 最后缸榛,我們提出了一些關(guān)于非同步視頻和音頻的實(shí)驗(yàn)。表2總結(jié)了所有實(shí)驗(yàn)的結(jié)果兰伤,其中我們報(bào)告了字誤碼率内颗,具體取決于是否在解碼過程中使用了語言模型。
6.1 只有唇語
? 結(jié)果 效果最佳的網(wǎng)絡(luò)是TM-seq2seq敦腔,使用語言模型進(jìn)行解碼時(shí)均澳,LRS2-BBC的WER達(dá)到48.3%,與之前最新的70.4%相比会烙,改善了22%以上[12]负懦。 該模型還將LRS3-TED的基準(zhǔn)設(shè)置為58.9%。
在圖5中柏腻,我們顯示了WER如何隨測(cè)試句子中單詞數(shù)量的變化而變化纸厉。圖6顯示了該模型在30個(gè)最常用詞上的性能。圖7顯示了在LRS2-BBC上進(jìn)行評(píng)估時(shí)五嫂,僅視頻TM-seq2seq模型增加波束寬度的效果颗品。值得注意的是,在使用外部語言模型(+ extLM)進(jìn)行解碼時(shí)沃缘,增加波束寬度會(huì)更加有益躯枢。
解碼示例 該模型將學(xué)習(xí)從各種內(nèi)容中正確預(yù)測(cè)復(fù)雜的看不見的句子——表3中顯示了示例。
6.2 視聽語音識(shí)別
? 視覺信息可用于改善ASR的性能锄蹂,特別是在具有背景噪音的環(huán)境中[36、38水慨、40]得糜。 在這里敬扛,我們分析了第3節(jié)中描述的視聽模型的性能。
結(jié)果 表2中的結(jié)果表明朝抖,當(dāng)音頻信號(hào)有噪聲時(shí)啥箭,嘴唇的運(yùn)動(dòng)為語音識(shí)別提供了重要的提示。 并且即使在音頻信號(hào)純凈的情況下也可以提高性能——例如治宣,使用視聽TM-CTC模型時(shí)急侥,單詞錯(cuò)誤率從僅音頻的10.1%降低到8.2%。與僅音頻模型相比侮邀,使用視聽TM-seq2seq時(shí)獲得的收益相似坏怪。
解碼示例 表4顯示了許多示例古瓤,其中該模型無法僅從嘴唇或音頻中預(yù)測(cè)正確的句子止剖,但在同時(shí)存在兩個(gè)流時(shí)成功地解密了單詞。
對(duì)齊和注意力可視化 TM-seq2seq模型的編碼器-解碼器注意力機(jī)制在輸入視頻幀和假定字符輸出之間生成顯式對(duì)齊落君。 圖9直觀顯示了“comes from one of the most beautiful parts of the world”字符和相應(yīng)視頻幀的對(duì)齊方式穿香。 由于該架構(gòu)包含多個(gè)關(guān)注頭,因此我們通過對(duì)對(duì)數(shù)域中所有解碼器層上的關(guān)注蒙版求平均來獲得對(duì)齊绎速。
嘈雜的音頻 我們使用嘈雜的音頻進(jìn)行純音頻和視聽實(shí)驗(yàn)君丁,這些噪聲是通過將原始聲音添加babble噪聲來合成的。 從嘈雜的環(huán)境中進(jìn)行語音識(shí)別非常具有挑戰(zhàn)性将宪,從現(xiàn)成的Google S2T ASR基準(zhǔn)的性能顯著降低(與純凈性能相比绘闷,性能下降60%以上)可以看出這一點(diǎn)。 這個(gè)困難也反映在我們純音頻模型的性能上较坛,即單詞錯(cuò)誤率類似于僅使用唇語時(shí)獲得的單詞錯(cuò)誤率印蔗。 但是,將這兩種方式結(jié)合起來可以帶來顯著的改進(jìn)丑勤,字錯(cuò)誤率下降高達(dá)30%华嘹。 值得注意的是,在背景聲音很大的情況下法竞,視聽模型的性能要比僅視頻或僅音頻的模型好得多耙厚。
AV注意可視化 在圖10中,我們比較了不同TM-seq2seq模型在音頻流中是否存在附加的babble噪聲的情況下的注意力蒙版岔霸。
6.3 音頻和視頻不同步
? 在這里薛躬,我們?cè)u(píng)估視聽模型在音頻和視頻輸入未在時(shí)間上對(duì)齊時(shí)的性能。 由于音頻和視頻已在我們的數(shù)據(jù)集中同步呆细,因此我們對(duì)視頻幀進(jìn)行綜合移位以實(shí)現(xiàn)不同步的效果型宝。 我們?cè)u(píng)估了LRS2-BBC數(shù)據(jù)集的非同步樣本的性能。 我們考慮TM-CTC和TMseq2seq體系結(jié)構(gòu)絮爷,對(duì)隨機(jī)移位的樣本進(jìn)行或不進(jìn)行微調(diào)趴酣。 結(jié)果如圖8所示。很明顯坑夯,TM-seq2seq體系結(jié)構(gòu)更能抵抗這些變化岖寞。 我們只需將模型校準(zhǔn)一個(gè)時(shí)期,以使不同步效果幾乎消失渊涝。 這展示了針對(duì)兩種模式采用獨(dú)立的編碼器-解碼器注意機(jī)制的優(yōu)勢(shì)慎璧。 相反,即使在經(jīng)過數(shù)次微調(diào)之后跨释,連接兩種編碼的TM-CTC仍難以應(yīng)對(duì)這種變化胸私。
6.4 關(guān)于seq2seq與CTC的討論
? 如果不提供音頻,則TM-seq2seq模型在WER方面的唇讀效果要好得多捷绒。 對(duì)于僅音頻或視聽任務(wù)瑰排,這兩種方法的執(zhí)行方式相似。但是暖侨,CTC模型似乎可以更好地處理背景噪聲椭住。 在很大的babble噪音的情況下,純音頻和視聽TM-seq2seq模型的性能都明顯差于它們的TM-CTC模型字逗。
訓(xùn)練時(shí)間 TM-seq2seq模型的架構(gòu)更復(fù)雜京郑,更難訓(xùn)練,完整的視聽模型大約需要8天才能在具有12GB內(nèi)存的單個(gè)GeForce Titan X GPU上完成兩個(gè)數(shù)據(jù)集的全部課程(curriculum)葫掉。 相反些举,視聽TM-CTC模型在相同的硬件上訓(xùn)練速度更快,即大約需要5天俭厚。 但是户魏,應(yīng)注意的是,由于兩種體系結(jié)構(gòu)均不包含遞歸模塊且不進(jìn)行批量歸一化挪挤,因此它們的實(shí)現(xiàn)可以高度并行化為多個(gè)GPU叼丑。
預(yù)測(cè)時(shí)間 TM-CTC模型的解碼不需要自回歸幢码,因此笤休,無論波束寬度W如何尖飞,僅需評(píng)估一次CTC概率。TM-seq2seq并非如此店雅,對(duì)于波束搜索的每一步政基, 解碼器子網(wǎng)需要評(píng)估W次。 這使得CTC模型的解碼更快闹啦,這可能是部署的重要因素沮明。
語言建模 當(dāng)在波束搜索中加入外部語言模型時(shí),這兩種模型的性能都更好窍奋,但是荐健,TM-CTC的收益要高得多,因?yàn)閱为?dú)的視覺模型并不能實(shí)現(xiàn)明確的語言一致性琳袄。
推廣到更長的序列 我們觀察到江场,隨著課程學(xué)習(xí)過程中序列長度的增加,TM-CTC模型的泛化效果更好窖逗,適應(yīng)速度更快址否。 我們認(rèn)為這也會(huì)影響訓(xùn)練時(shí)間,因?yàn)楹笳咝枰嗟臅r(shí)間才能收斂碎紊。
7 結(jié)論
? 在本文中佑附,我們介紹了一個(gè)大規(guī)模的不受限制的視聽數(shù)據(jù)集LRS2-BBC樊诺,它是通過收集和預(yù)處理來自英國電視臺(tái)的數(shù)千個(gè)視頻而形成的。
我們考慮了兩個(gè)可以將語音的音頻和視頻序列轉(zhuǎn)換為字符的模型音同,并表明當(dāng)僅存在一種模式時(shí)词爬,也可以使用相同的體系結(jié)構(gòu)。 我們的最佳純視覺模型在很大程度上超越了LRS2-BBC唇讀數(shù)據(jù)集上現(xiàn)有技術(shù)的性能权均,并為最近發(fā)布的LRS3-TED奠定了堅(jiān)實(shí)的基礎(chǔ)缸夹。我們最終證明,即使有干凈的音頻信號(hào)螺句,視覺信息也有助于提高語音識(shí)別性能虽惭。尤其是在音頻中存在噪聲的情況下,將兩種模態(tài)結(jié)合起來可帶來重大改進(jìn)蛇尚。
8 參考
[1] M. Abadi, A. Agarwal, P. Barham, E. Brevdo, Z. Chen, C. Citro, G. S. Corrado, A. Davis, J. Dean, M. Devin, et al. Tensorflow: Large-scale machine learning on heterogeneous distributed systems. arXiv preprint arXiv:1603.04467, 2016.
[2] T. Afouras, J. S. Chung, and A. Zisserman. Deep lip reading: A comparison of models and an online application. In INTERSPEECH, 2018.
[3] T. Afouras, J. S. Chung, and A. Zisserman. LRS3-TED: a large-scale dataset for visual speech recognition. arXiv preprint arXiv:1809.00496, 2018.
[4] Y. M. Assael, B. Shillingford, S. Whiteson, and N. de Freitas. Lipnet: Sentence-level lipreading. arXiv:1611.01599, 2016.
[5] D. Bahdanau, K. Cho, and Y. Bengio. Neural machine translation by jointly learning to align and translate. Proceedings of the International Conference on Learning Representations, 2015.
[6] S. Bai, J. Z. Kolter, and V. Koltun. An empirical evaluation of generic convolutional and recurrent networks for sequence modeling. arXiv preprint arXiv:1803.01271, 2018.
[7] W. Chan, N. Jaitly, Q. V. Le, and O. Vinyals. Listen, attend and spell. arXiv preprint arXiv:1508.01211, 2015.
[8] C. Chiu, T. N. Sainath, Y. Wu, R. Prabhavalkar, P. Nguyen, Z. Chen, A. Kannan, R. J. Weiss, K. Rao, K. Gonina, N. Jaitly, B. Li, J. Chorowski, and M. Bacchiani. State-ofthe-art speech recognition with sequence-to-sequence models. CoRR, abs/1712.01769, 2017.
[9] K. Cho, B. Van Merrienboer, C. Gulcehre, D. Bahdanau, F. Bougares, H. Schwenk, and Y. Bengio. Learning phrase representations using rnn encoder-decoder for statistical machine translation. In EMNLP, 2014.
[10] J. Chorowski, D. Bahdanau, K. Cho, and Y. Bengio. Endto-end continuous speech recognition using attention-based recurrent NN: first results. In NIPS 2014 Workshop on Deep Learning, 2014.
[11] J. K. Chorowski, D. Bahdanau, D. Serdyuk, K. Cho, and Y. Bengio. Attention-based models for speech recognition. In Advances in Neural Information Processing Systems, pages 577–585, 2015.
[12] J. S. Chung, A. Senior, O. Vinyals, and A. Zisserman. Lip reading sentences in the wild. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2017.
[13] J. S. Chung and A. Zisserman. Lip reading in the wild. In Proceedings of the Asian Conference on Computer Vision, 2016.
[14] J. S. Chung and A. Zisserman. Out of time: automated lip sync in the wild. In Workshop on Multi-view Lip-reading, ACCV, 2016.
[15] J. S. Chung and A. Zisserman. Lip reading in profile. In Proceedings of the British Machine Vision Conference, 2017.
[16] R. Collobert, C. Puhrsch, and G. Synnaeve. Wav2letter: An end-to-end convnet-based speech recognition system. CoRR, abs/1609.03193, 2016.
[17] M. Cooke, J. Barker, S. Cunningham, and X. Shao. An audio-visual corpus for speech perception and automatic speech recognition. The Journal of the Acoustical Society of America, 120(5):2421–2424, 2006.
[18] A. Czyzewski, B. Kostek, P. Bratoszewski, J. Kotus, and M. Szykulski. An audio-visual corpus for multimodal automatic speech recognition. Journal of Intelligent Information Systems, pages 1–26, 2017.
[19] C. Feichtenhofer, A. Pinz, and A. Zisserman. Convolutional two-stream network fusion for video action recognition. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2016.
[20] G. Galatas, G. Potamianos, and F. Makedon. Audio-visual speech recognition incorporating facial depth information captured by the kinect. In Signal Processing Conference (EUSIPCO), 2012 Proceedings of the 20th European, pages
2714–2717. IEEE, 2012.
[21] A. Graves. Sequence transduction with recurrent neural networks. arXiv preprint arXiv:1211.3711, 2012.
[22] A. Graves, S. Fernandez, F. Gomez, and J. Schmidhuber. Connectionist temporal classification: Labelling unsegmented sequence data with recurrent neural networks. In Proceedings of the International Conference on Machine Learning, pages 369–376. ACM, 2006.
[23] A. Graves and N. Jaitly. Towards end-to-end speech recognition with recurrent neural networks. In Proceedings of the International Conference on Machine Learning, pages 1764–1772, 2014.
[24] K. He, X. Zhang, S. Ren, and J. Sun. Deep residual learning for image recognition. arXiv preprint arXiv:1512.03385, 2015.
[25] G. Hinton, L. Deng, D. Yu, G. Dahl, A.-R. Mohamed, N. Jaitly, A. Senior, V. Vanhoucke, P. Nguyen, B. Kingsbury, and T. Sainath. Deep neural networks for acoustic modeling in speech recognition. IEEE Signal Processing Magazine, 29:82–97, November 2012.
[26] A. Kannan, Y. Wu, P. Nguyen, T. N. Sainath, Z. Chen, and R. Prabhavalkar. An analysis of incorporating an external language model into a sequence-to-sequence model. arXiv preprint arXiv:1712.01996, 2017.
[27] D. E. King. Dlib-ml: A machine learning toolkit. The Journal of Machine Learning Research, 10:1755–1758, 2009.
[28] D. P. Kingma and J. Ba. ADAM: A method for stochastic optimization. In Proceedings of the International Conference on Learning Representations, 2015.
[29] O. Koller, H. Ney, and R. Bowden. Deep learning of mouth shapes for sign language. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 85–91, 2015.
[30] A. Krizhevsky, I. Sutskever, and G. E. Hinton. ImageNet classification with deep convolutional neural networks. In Advances in Neural Information Processing Systems, pages 1106–1114, 2012.
[31] R. Lienhart. Reliable transition detection in videos: A survey and practitioner’s guide. International Journal of Image and Graphics, August 2001.
[32] V. Liptchinsky, G. Synnaeve, and R. Collobert. Letterbased speech recognition with gated convnets. CoRR, abs/1712.09444, 2017.
[33] W. Liu, D. Anguelov, D. Erhan, C. Szegedy, S. Reed, C.-Y. Fu, and A. C. Berg. SSD: Single shot multibox detector. In Proceedings of the European Conference on Computer Vision, pages 21–37. Springer, 2016.
[34] B. D. Lucas and T. Kanade. An iterative image registration technique with an application to stereo vision. In Proc. of the 7th International Joint Conference on Artificial Intelligence, pages 674–679, 1981.
[35] A. L. Maas, Z. Xie, D. Jurafsky, and A. Y. Ng. Lexicon-free conversational speech recognition with neural networks. In Proceedings the North American Chapter of the Association for Computational Linguistics (NAACL), 2015.
[36] Y. Mroueh, E. Marcheret, and V. Goel. Deep multimodal learning for audio-visual speech recognition. In 2015 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pages 2130–2134. IEEE, 2015.
[37] K. Noda, Y. Yamaguchi, K. Nakadai, H. G. Okuno, and T. Ogata. Lipreading using convolutional neural network. In INTERSPEECH, pages 1149–1153, 2014.
[38] K. Noda, Y. Yamaguchi, K. Nakadai, H. G. Okuno, and T. Ogata. Audio-visual speech recognition using deep learning. Applied Intelligence, 42(4):722–737, 2015.
[39] S. Petridis and M. Pantic. Deep complementary bottleneck features for visual speech recognition. ICASSP, pages 2304–2308, 2016.
[40] S. Petridis, T. Stafylakis, P. Ma, F. Cai, G. Tzimiropoulos, and M. Pantic. End-to-end audiovisual speech recognition. CoRR, abs/1802.06424, 2018.
[41] O. Russakovsky, J. Deng, H. Su, J. Krause, S. Satheesh, S. Ma, S. Huang, A. Karpathy, A. Khosla, M. Bernstein, A. Berg, and F. Li. Imagenet large scale visual recognition challenge. International Journal of Computer Vision, 2015.
[42] H. Sak, A. W. Senior, K. Rao, and F. Beaufays. Fast and accurate recurrent neural network acoustic models for speech recognition. In INTERSPEECH, 2015.
[43] B. Shillingford, Y. Assael, M. W. Hoffman, T. Paine, C. Hughes, U. Prabhu, H. Liao, H. Sak, K. Rao, L. Bennett, M. Mulville, B. Coppin, B. Laurie, A. Senior, and N. de Freitas. Large-Scale Visual Speech Recognition. arXiv preprint arXiv:1807.05162, 2018.
[44] K. Simonyan and A. Zisserman. Very deep convolutional networks for large-scale image recognition. In International Conference on Learning Representations, 2015.
[45] T. Stafylakis and G. Tzimiropoulos. Combining residual networks with LSTMs for lipreading. In Interspeech, 2017.
[46] I. Sutskever, O. Vinyals, and Q. Le. Sequence to sequence learning with neural networks. In Advances in neural information processing systems, pages 3104–3112, 2014.
[47] C. Szegedy, W. Liu, Y. Jia, P. Sermanet, S. Reed, D. Anguelov, D. Erhan, V. Vanhoucke, and A. Rabinovich. Going deeper with convolutions. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2015.
[48] S. Tamura, H. Ninomiya, N. Kitaoka, S. Osuga, Y. Iribe, K. Takeda, and S. Hayamizu. Audio-visual speech recognition using deep bottleneck features and high-performance lipreading. In 2015 Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA), pages 575–582. IEEE, 2015.
[49] A. Vaswani, N. Shazeer, N. Parmar, J. Uszkoreit, L. Jones, A. N. Gomez, L. Kaiser, and I. Polosukhin. Attention Is All You Need. In Advances in Neural Information Processing Systems, 2017.
[50] M. Wand, J. Koutn, and J. Schmidhuber. Lipreading with long short-term memory. In 2016 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pages 6115–6119. IEEE, 2016.
[51] Y. Wang, X. Deng, S. Pu, and Z. Huang. Residual Convolutional CTC Networks for Automatic Speech Recognition. arXiv preprint arXiv:1702.07793, 2017.
[52] Y. Wu, M. Schuster, Z. Chen, Q. V. Le, M. Norouzi, W. Macherey, M. Krikun, Y. Cao, Q. Gao, K. Macherey, J. Klingner, A. Shah, M. Johnson, X. Liu, L. Kaiser, S. Gouws, Y. Kato, T. Kudo, H. Kazawa, K. Stevens, G. Kurian, N. Patil, W. Wang, C. Young, J. Smith, J. Riesa, A. Rudnick, O. Vinyals, G. Corrado, M. Hughes, and
J. Dean. Google’s neural machine translation system: Bridging the gap between human and machine translation. CoRR, abs/1609.08144, 2016.
[53] J. Yuan and M. Liberman. Speaker identification on the scotus corpus. Journal of the Acoustical Society of America, 123(5):3878, 2008.
[54] N. Zeghidour, N. Usunier, I. Kokkinos, T. Schatz, G. Synnaeve, and E. Dupoux. Learning filterbanks from raw speech for phone recognition. CoRR, abs/1711.01161, 2017.
[55] Y. Zhang, M. Pezeshki, P. Brakel, S. Zhang, C. Laurent, Y. Bengio, and A. C. Courville. Towards end-to-end speech recognition with deep convolutional neural networks. CoRR, abs/1701.02720, 2017.
[56] Z. Zhou, G. Zhao, X. Hong, and M. Pietikainen. A review of recent advances in visual speech decoding. Image and vision computing, 32(9):590–605, 2014.