Keyword Spotting關(guān)鍵詞偵聽

Introduction

Keyword Spotting (KWS) aims at detecting predefined key-words in an audio stream, and it is a potential technique to provide the desired hands-free interface^[1].
A commonly used technique for keyword spotting is the Key-word/Filler Hidden Markov Model (HMM). Other recent work ex- plores discriminative models for keyword spotting based on large-margin formulation or recurrent neural networks. These systems show improvement over the HMM approach but require processing of the entire utterance to find the optimal keyword region or take information from a long time span to predict the entire keyword, increasing detection latency.

Deep Learning Method

Deep KWS^[1]

Framework of Deep KWS system, components from left to right: (i) Feature Extraction (ii) Deep Neural Network (iii) Posterior Handling

Honk^[2]

Convolutional neural network architecture for keyword spotting.

CNN^[3]

Structure of Convolutional network architecture.

ResNet with Dilated Convolutions^[4]

ResNet architecture.

RNN with Attention^[5]

Recurrent neural network with attention mechanism. Numbers between [brackets] are tensor dimensions. raw len is WAV audio length (16000 in this case). spec len is the sequence length of the generated mel-scale spectrogram. nMel is the number of mel bands. nClasses is the number of desired classes. The activation of the last Dense layer is softmax. The activation of the 64 and 32 dense classification layers is the rectified linear unit (relu).

文章^[6]比較分析了幾種基于CNN的KWS蒿褂，并給出了仿真出的最優(yōu)參數(shù)、復(fù)雜度等畜份。其中KWS里面的“state of the art”結(jié)果來自上面的RNN with Attention^[5]玄叠。

應(yīng)用Xception的depthwise separable convolution，提出適合移動設(shè)備的簡化運算版^[7]摆马。

Reference

Small-footprint keyword spotting using deep neural networks ? ?
Honk: A PyTorch Reimplementation of Convolutional Neural Networks for Keyword Spotting ?
Speech Command Recognition with Convolutional Neural Network ?
Deep residual learning for small-footprint keyword spotting ?
A neural attention model for speech command recognition ? ?
Comparison and Analysis of SampleCNN Architectures for Audio Classification ?
Temporal convolution for real-time keyword spotting on mobile devices ?

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末臼闻，一起剝皮案震驚了整個濱河市，隨后出現(xiàn)的幾起案子囤采，更是在濱河造成了極大的恐慌述呐，老刑警劉巖，帶你破解...
沈念sama閱讀 218,546評論 6贊 507
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件蕉毯，死亡現(xiàn)場離奇詭異乓搬，居然都是意外死亡，警方通過查閱死者的電腦和手機代虾，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 93,224評論 3贊 395
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門进肯，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人褐着，你說我怎么就攤上這事坷澡。” “怎么了含蓉？”我有些...
開封第一講書人閱讀 164,911評論 0贊 354
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵频敛，是天一觀的道長。經(jīng)常有香客問我馅扣，道長斟赚，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 58,737評論 1贊 294
?港島之戀（遺憾婚禮）
正文為了忘掉前任差油，我火速辦了婚禮拗军，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘蓄喇。我一直安慰自己发侵，他們只是感情好，可當(dāng)我...
茶點故事閱讀 67,753評論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布妆偏。她就那樣靜靜地躺著刃鳄，像睡著了一般。火紅的嫁衣襯著肌膚如雪钱骂。梳的紋絲不亂的頭發(fā)上叔锐，一...
開封第一講書人閱讀 51,598評論 1贊 305
城市分裂傳說
那天挪鹏，我揣著相機與錄音，去河邊找鬼愉烙。笑死讨盒，一個胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的步责。我是一名探鬼主播返顺，決...
沈念sama閱讀 40,338評論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼勺择！你這毒婦竟也來了创南？” 一聲冷哼從身側(cè)響起伦忠，我...
開封第一講書人閱讀 39,249評論 0贊 276
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤省核，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后昆码，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體气忠，經(jīng)...
沈念sama閱讀 45,696評論 1贊 314
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 37,888評論 3贊 336
?白月光啟示錄
正文我和宋清朗相戀三年赋咽，在試婚紗的時候發(fā)現(xiàn)自己被綠了旧噪。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點故事閱讀 40,013評論 1贊 348
活死人
序言：一個原本活蹦亂跳的男人離奇死亡脓匿，死狀恐怖淘钟，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情陪毡，我是刑警寧澤米母，帶...
沈念sama閱讀 35,731評論 5贊 346
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站毡琉，受9級特大地震影響铁瞒，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜桅滋，卻給世界環(huán)境...
茶點故事閱讀 41,348評論 3贊 330
男人毒藥：我在死后第九天來索命
文/蒙蒙一慧耍、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧丐谋，春花似錦芍碧、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,929評論 0贊 22
一樁弒父案泌豆，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至萧落，卻和暖如春践美，著一層夾襖步出監(jiān)牢的瞬間洗贰，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 33,048評論 1贊 270
情欲美人皮
我被黑心中介騙來泰國打工陨倡，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留敛滋，地道東北人。一個月前我還...
沈念sama閱讀 48,203評論 3贊 370
代替公主和親
正文我出身青樓兴革，卻偏偏與公主長得像绎晃，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子杂曲，可洞房花燭夜當(dāng)晚...
茶點故事閱讀 44,960評論 2贊 355

Keyword Spotting關(guān)鍵詞偵聽

Introduction

Deep Learning Method

Deep KWS[1]

Honk[2]

CNN[3]

ResNet with Dilated Convolutions[4]

RNN with Attention[5]