語音識別技術(shù)基礎(chǔ)理解

語音識別是以語音為研究對象,通過語音信號處理和模式識別讓機器自動識別和理解人類口述的語言尖奔。語音識別技術(shù)就是讓機器通過識別和理解過程把語音信號轉(zhuǎn)變?yōu)橄鄳?yīng)的文本或命令的高技術(shù)。語音識別是一門涉及面很廣的交叉學(xué)科,它與聲學(xué)攻走、語音學(xué)谓媒、語言學(xué)淆院、信息理論、模式識別理論以及神經(jīng)生物學(xué)等學(xué)科都有非常密切的關(guān)系句惯。語音識別技術(shù)正逐步成為計算機信息處理技術(shù)中的關(guān)鍵技術(shù)土辩,語音技術(shù)的應(yīng)用已經(jīng)成為一個具有競爭性的新興高技術(shù)產(chǎn)業(yè)支救。

語音識別的基本原理


語音識別系統(tǒng)本質(zhì)上是一種模式識別系統(tǒng),包括特征提取拷淘、模式匹配各墨、參考模式庫等三個基本單元,它的基本結(jié)構(gòu)如下圖所示:

image.png

未知語音經(jīng)過話筒變換成電信號后加在識別系統(tǒng)的輸入端辕棚,首先經(jīng)過預(yù)處理欲主,再根據(jù)人的語音特點建立語音模型,對輸入的語音信號進行分析逝嚎,并抽取所需的特征扁瓢,在此基礎(chǔ)上建立語音識別所需的模板。而計算機在識別過程中要根據(jù)語音識別的模型补君,將計算機中存放的語音模板與輸入的語音信號的特征進行比較引几,根據(jù)一定的搜索和匹配策略,找出一系列最優(yōu)的與輸入語音匹配的模板挽铁。然后根據(jù)此模板的定義伟桅,通過查表就可以給出計算機的識別結(jié)果。顯然叽掘,這種最優(yōu)的結(jié)果與特征的選擇楣铁、語音模型的好壞、模板是否準(zhǔn)確都有直接的關(guān)系更扁。

語音識別系統(tǒng)構(gòu)建過程整體上包括兩大部分:訓(xùn)練和識別盖腕。訓(xùn)練通常是離線完成的,對預(yù)先收集好的海量語音浓镜、語言數(shù)據(jù)庫進行信號處理和知識挖掘溃列,獲取語音識別系統(tǒng)所需要的“聲學(xué)模型”和“語言模型”;而識別過程通常是在線完成的,對用戶實時的語音進行自動識別膛薛。識別過程通常又可以分為“前端”和“后端”兩大模塊:“前端”模塊主要的作用是進行端點檢測(去除多余的靜音和非說話聲)听隐、降噪、特征提取等;“后端”模塊的作用是利用訓(xùn)練好的“聲學(xué)模型”和“語言模型”對用戶說話的特征向量進行統(tǒng)計模式識別(又稱“解碼”)哄啄,得到其包含的文字信息雅任,此外,后端模塊還存在一個“自適應(yīng)”的反饋模塊增淹,可以對用戶的語音進行自學(xué)習(xí)椿访,從而對“聲學(xué)模型”和“語音模型”進行必要的“校正”,進一步提高識別的準(zhǔn)確率虑润。

語音識別是模式識別的一個分支成玫,又從屬于信號處理科學(xué)領(lǐng)域,同時與語音學(xué)、語言學(xué)哭当、數(shù)理統(tǒng)計及神經(jīng)生物學(xué)等學(xué)科有非常密切的關(guān)系猪腕。語音識別的目的就是讓機器“聽懂”人類口述的語言,包括了兩方面的含義:其一是逐字逐句聽懂并轉(zhuǎn)化成書面語言文字;其二是對口述語言中所包含的要求或詢問加以理解钦勘,做出正確響應(yīng)陋葡,而不拘泥于所有詞的正確轉(zhuǎn)換。

自動語音識別技術(shù)有三個基本原理:首先語音信號中的語言信息是按照短時幅度譜的時間變化模式來編碼;其次語音是可以閱讀的彻采,即它的聲學(xué)信號可以在不考慮說話人試圖傳達的信息內(nèi)容的情況下用數(shù)十個具有區(qū)別性的腐缤、離散的符號來表示;第三語音交互是一個認知過程,因而不能與語言的語法肛响、語義和語用結(jié)構(gòu)割裂開來岭粤。

聲學(xué)模型:語音識別系統(tǒng)的模型通常由聲學(xué)模型和語言模型兩部分組成,分別對應(yīng)于語音到音節(jié)概率的計算和音節(jié)到字概率的計算特笋。

搜索:連續(xù)語音識別中的搜索剃浇,就是尋找一個詞模型序列以描述輸入語音信號,從而得到詞解碼序列猎物。搜索所依據(jù)的是對公式中的聲學(xué)模型打分和語言模型打分虎囚。在實際使用中,往往要依據(jù)經(jīng)驗給語言模型加上一個高權(quán)重蔫磨,并設(shè)置一個長詞懲罰分數(shù)淘讥。

系統(tǒng)實現(xiàn):語音識別系統(tǒng)選擇識別基元的要求是,有準(zhǔn)確的定義堤如,能得到足夠數(shù)據(jù)進行訓(xùn)練适揉,具有一般性。英語通常采用上下文相關(guān)的音素建模煤惩,漢語的協(xié)同發(fā)音不如英語嚴重,可以采用音節(jié)建模炼邀。系統(tǒng)所需的訓(xùn)練數(shù)據(jù)大小與模型復(fù)雜度有關(guān)魄揉。模型設(shè)計得過于復(fù)雜以至于超出了所提供的訓(xùn)練數(shù)據(jù)的能力,會使得性能急劇下降拭宁。

聽寫機:大詞匯量洛退、非特定人、連續(xù)語音識別系統(tǒng)通常稱為聽寫機杰标。其架構(gòu)就是建立在前述聲學(xué)模型和語言模型基礎(chǔ)上的HMM拓撲結(jié)構(gòu)兵怯。訓(xùn)練時對每個基元用前向后向算法獲得模型參數(shù),識別時腔剂,將基元串接成詞媒区,詞間加上靜音模型并引入語言模型作為詞間轉(zhuǎn)移概率,形成循環(huán)結(jié)構(gòu),用Viterbi算法進行解碼袜漩。針對漢語易于分割的特點绪爸,先進行分割再對每一段進行解碼,是用以提高效率的一個簡化方法宙攻。

對話系統(tǒng):用于實現(xiàn)人機口語對話的系統(tǒng)稱為對話系統(tǒng)奠货。受目前技術(shù)所限,對話系統(tǒng)往往是面向一個狹窄領(lǐng)域座掘、詞匯量有限的系統(tǒng)递惋,其題材有旅游查詢、訂票溢陪、數(shù)據(jù)庫檢索等等萍虽。其前端是一個語音識別器,識別產(chǎn)生的N-best候選或詞候選網(wǎng)格嬉愧,由語法分析器進行分析獲取語義信息贩挣,再由對話管理器確定應(yīng)答信息,由語音合成器輸出没酣。由于目前的系統(tǒng)往往詞匯量有限王财,也可以用提取關(guān)鍵詞的方法來獲取語義信息。

語音識別技術(shù)原理-工作原理解讀


首先裕便,我們知道聲音實際上是一種波绒净。常見的mp3等格式都是壓縮格式,必須轉(zhuǎn)成非壓縮的純波形文件來處理偿衰,比如Windows PCM文件挂疆,也就是俗稱的wav文件。wav文件里存儲的除了一個文件頭以外下翎,就是聲音波形的一個個點了缤言。下圖是一個波形的示例。

image.png

圖中视事,每幀的長度為25毫秒胆萧,每兩幀之間有25-10=15毫秒的交疊。我們稱為以幀長25ms俐东、幀移10ms分幀跌穗。

分幀后,語音就變成了很多小段虏辫。但波形在時域上幾乎沒有描述能力蚌吸,因此必須將波形作變換。常見的一種變換方法是提取MFCC特征砌庄,根據(jù)人耳的生理特性羹唠,把每一幀波形變成一個多維向量奕枢,可以簡單地理解為這個向量包含了這幀語音的內(nèi)容信息。這個過程叫做聲學(xué)特征提取肉迫。實際應(yīng)用中验辞,這一步有很多細節(jié),聲學(xué)特征也不止有MFCC這一種喊衫,具體這里不講跌造。

至此,聲音就成了一個12行(假設(shè)聲學(xué)特征是12維)族购、N列的一個矩陣壳贪,稱之為觀察序列,這里N為總幀數(shù)寝杖。觀察序列如下圖所示违施,圖中,每一幀都用一個12維的向量表示瑟幕,色塊的顏色深淺表示向量值的大小磕蒲。

image.png

消除噪聲和不同說話人的發(fā)音差異帶來的影響
接下來就要介紹怎樣把這個矩陣變成文本了。首先要介紹兩個概念:

音素:單詞的發(fā)音由音素構(gòu)成只盹。對英語辣往,一種常用的音素集是卡內(nèi)基梅隆大學(xué)的一套由39個音素構(gòu)成的音素集,參見The CMU Pronouncing Dictionary殖卑。漢語一般直接用全部聲母和韻母作為音素集站削,另外漢語識別還分有調(diào)無調(diào),不詳述孵稽。

狀態(tài):這里理解成比音素更細致的語音單位就行啦许起。通常把一個音素劃分成3個狀態(tài)。

語音識別是怎么工作的呢?實際上一點都不神秘菩鲜,無非是:

第一步园细,把幀識別成狀態(tài)(難點)。

第二步接校,把狀態(tài)組合成音素珊肃。

第三步,把音素組合成單詞馅笙。

如下圖所示:

image.png

圖中,每個小豎條代表一幀厉亏,若干幀語音對應(yīng)一個狀態(tài)董习,每三個狀態(tài)組合成一個音素,若干個音素組合成一個單詞爱只。也就是說皿淋,只要知道每幀語音對應(yīng)哪個狀態(tài)了,語音識別的結(jié)果也就出來了。

那每幀音素對應(yīng)哪個狀態(tài)呢?有個容易想到的辦法窝趣,看某幀對應(yīng)哪個狀態(tài)的概率最大疯暑,那這幀就屬于哪個狀態(tài)。比如下面的示意圖哑舒,這幀在狀態(tài)S3上的條件概率最大妇拯,因此就猜這幀屬于狀態(tài)S3。

image.png

那這些用到的概率從哪里讀取呢?有個叫“聲學(xué)模型”的東西洗鸵,里面存了一大堆參數(shù)越锈,通過這些參數(shù),就可以知道幀和狀態(tài)對應(yīng)的概率膘滨。獲取這一大堆參數(shù)的方法叫做“訓(xùn)練”甘凭,需要使用巨大數(shù)量的語音數(shù)據(jù)弃鸦,訓(xùn)練的方法比較繁瑣膏燕,這里不講谬莹。

但這樣做有一個問題:每一幀都會得到一個狀態(tài)號帝火,最后整個語音就會得到一堆亂七八糟的狀態(tài)號烹困,相鄰兩幀間的狀態(tài)號基本都不相同嘲更。假設(shè)語音有1000幀上沐,每幀對應(yīng)1個狀態(tài)畜眨,每3個狀態(tài)組合成一個音素鸣驱,那么大概會組合成300個音素泛鸟,但這段語音其實根本沒有這么多音素。如果真這么做踊东,得到的狀態(tài)號可能根本無法組合成音素北滥。實際上,相鄰幀的狀態(tài)應(yīng)該大多數(shù)都是相同的才合理闸翅,因為每幀很短再芋。

解決這個問題的常用方法就是使用隱馬爾可夫模型(Hidden Markov Model,HMM)坚冀。這東西聽起來好像很高深的樣子济赎,實際上用起來很簡單:

第一步,構(gòu)建一個狀態(tài)網(wǎng)絡(luò)记某。

第二步司训,從狀態(tài)網(wǎng)絡(luò)中尋找與聲音最匹配的路徑。

這樣就把結(jié)果限制在預(yù)先設(shè)定的網(wǎng)絡(luò)中液南,避免了剛才說到的問題壳猜,當(dāng)然也帶來一個局限,比如你設(shè)定的網(wǎng)絡(luò)里只包含了“今天晴天”和“今天下雨”兩個句子的狀態(tài)路徑滑凉,那么不管說些什么统扳,識別出的結(jié)果必然是這兩個句子中的一句喘帚。

那如果想識別任意文本呢?把這個網(wǎng)絡(luò)搭得足夠大,包含任意文本的路徑就可以了咒钟。但這個網(wǎng)絡(luò)越大吹由,想要達到比較好的識別準(zhǔn)確率就越難。所以要根據(jù)實際任務(wù)的需求朱嘴,合理選擇網(wǎng)絡(luò)大小和結(jié)構(gòu)倾鲫。

搭建狀態(tài)網(wǎng)絡(luò),是由單詞級網(wǎng)絡(luò)展開成音素網(wǎng)絡(luò)腕够,再展開成狀態(tài)網(wǎng)絡(luò)级乍。語音識別過程其實就是在狀態(tài)網(wǎng)絡(luò)中搜索一條最佳路徑,語音對應(yīng)這條路徑的概率最大帚湘,這稱之為“解碼”玫荣。路徑搜索的算法是一種動態(tài)規(guī)劃剪枝的算法,稱之為Viterbi算法大诸,用于尋找全局最優(yōu)路徑捅厂。

image.png

這里所說的累積概率,由三部分構(gòu)成资柔,分別是:

觀察概率:每幀和每個狀態(tài)對應(yīng)的概率

轉(zhuǎn)移概率:每個狀態(tài)轉(zhuǎn)移到自身或轉(zhuǎn)移到下個狀態(tài)的概率

語言概率:根據(jù)語言統(tǒng)計規(guī)律得到的概率

其中焙贷,前兩種概率從聲學(xué)模型中獲取,最后一種概率從語言模型中獲取贿堰。語言模型是使用大量的文本訓(xùn)練出來的辙芍,可以利用某門語言本身的統(tǒng)計規(guī)律來幫助提升識別正確率。語言模型很重要羹与,如果不使用語言模型故硅,當(dāng)狀態(tài)網(wǎng)絡(luò)較大時,識別出的結(jié)果基本是一團亂麻纵搁。

這樣基本上語音識別過程就完成了,這就是語音識別技術(shù)的原理吃衅。

語音識別技術(shù)原理-語音識別系統(tǒng)的工作流程


一般來說,一套完整的語音識別系統(tǒng)其工作過程分為7步:

①對語音信號進行分析和處理腾誉,除去冗余信息徘层。

②提取影響語音識別的關(guān)鍵信息和表達語言含義的特征信息。

③緊扣特征信息利职,用最小單元識別字詞趣效。

④按照不同語言的各自語法,依照先后次序識別字詞猪贪。

⑤把前后意思當(dāng)作輔助識別條件英支,有利于分析和識別。

⑥按照語義分析哮伟,給關(guān)鍵信息劃分段落干花,取出所識別出的字詞并連接起來,同時根據(jù)語句意思調(diào)整句子構(gòu)成楞黄。

⑦結(jié)合語義池凄,仔細分析上下文的相互聯(lián)系,對當(dāng)前正在處理的語句進行適當(dāng)修正鬼廓。

音識別系統(tǒng)基本原理框圖

image.png

語音識別系統(tǒng)基本原理結(jié)構(gòu)如圖所示肿仑。語音識別原理有三點:①對語音信號中的語言信息編碼是按照幅度譜的時間變化來進行;②由于語音是可以閱讀的,也就是說聲學(xué)信號可以在不考慮說話人說話傳達的信息內(nèi)容的前提下用多個具有區(qū)別性的碎税、離散的符號來表示;③語音的交互是一個認知過程尤慰,所以絕對不能與語法、語義和用語規(guī)范等方面分裂開來雷蹂。

預(yù)處理伟端,其中就包括對語音信號進行采樣、克服混疊濾波匪煌、去除部分由個體發(fā)音的差異和環(huán)境引起的噪聲影響责蝠,此外還會考慮到語音識別基本單元的選取和端點檢測問題。反復(fù)訓(xùn)練是在識別之前通過讓說話人多次重復(fù)語音萎庭,從原始語音信號樣本中去除冗余信息霜医,保留關(guān)鍵信息,再按照一定規(guī)則對數(shù)據(jù)加以整理驳规,構(gòu)成模式庫肴敛。再者是模式匹配,它是整個語音識別系統(tǒng)的核心部分吗购,是根據(jù)一定規(guī)則以及計算輸入特征與庫存模式之間的相似度医男,進而判斷出輸入語音的意思。

前端處理巩搏,先對原始語音信號進行處理昨登,再進行特征提取,消除噪聲和不同說話人的發(fā)音差異帶來的影響贯底,使處理后的信號能夠更完整地反映語音的本質(zhì)特征提取丰辣,消除噪聲和不同說話人的發(fā)音差異帶來的影響,使處理后的信號能夠更完整地反映語音的本質(zhì)特征禽捆。

用深度學(xué)習(xí)進行語音識別


機器學(xué)習(xí)并不總是一個黑盒

如果你知道神經(jīng)機器翻譯是如何工作的笙什,那么你可能會猜到,我們可以簡單地將聲音送入神經(jīng)網(wǎng)絡(luò)中胚想,并訓(xùn)練使之生成文本:

image.png

一個大問題是語速不同琐凭。一個人可能很快地說出「hello!」而另一個人可能會非常緩慢地說「heeeelllllllllllllooooo浊服!」统屈。這產(chǎn)生了一個更長的聲音文件胚吁,也產(chǎn)生了更多的數(shù)據(jù)。這兩個聲音文件都應(yīng)該被識別為完全相同的文本「hello愁憔!」而事實證明腕扶,把各種長度的音頻文件自動對齊到一個固定長度的文本是很難的一件事情。

為了解決這個問題吨掌,我們必須使用一些特殊的技巧半抱,并進行一些深度神經(jīng)網(wǎng)絡(luò)以外的特殊處理。讓我們看看它是如何工作的吧膜宋!

將聲音轉(zhuǎn)換成比特(Bit)

聲音是作為波(wave) 的形式傳播的窿侈。我們?nèi)绾螌⒙暡ㄞD(zhuǎn)換成數(shù)字呢?讓我們使用我說的「hello」這個聲音片段舉個例子:

image.png

我說「hello」的波形

聲波是一維的秋茫,它在每個時刻都有一個基于其高度的值(聲波其實是二維的史简,有時間,還有振幅(即這個基于高度的值))学辱。讓我們把聲波的一小部分放大看看:

image.png

為了將這個聲波轉(zhuǎn)換成數(shù)字乘瓤,我們只記錄聲波在等距點的高度:

image.png

給聲波采樣

這被稱為采樣(sampling)。我們每秒讀取數(shù)千次策泣,并把聲波在該時間點的高度用一個數(shù)字記錄下來衙傀。這基本上就是一個未壓縮的 .wav 音頻文件。

「CD 音質(zhì)」的音頻是以 44.1khz(每秒 44100 個讀數(shù))進行采樣的萨咕。但對于語音識別统抬,16khz(每秒 16000 個采樣)的采樣率就足以覆蓋人類語音的頻率范圍了。

讓我們把「Hello」的聲波每秒采樣 16000 次危队。這是前 100 個采樣:

image.png

每個數(shù)字表示聲波在一秒鐘的 16000 分之一處的振幅聪建。

數(shù)字采樣小助手

因為聲波采樣只是間歇性的讀取,你可能認為它只是對原始聲波進行粗略的近似估計茫陆。我們的讀數(shù)之間有間距金麸,所以我們必然會丟失數(shù)據(jù),對吧簿盅?

image.png

數(shù)字采樣能否完美重現(xiàn)原始聲波挥下?那些間距怎么辦?
但是桨醋,由于采樣定理棚瘟,我們知道我們可以利用數(shù)學(xué),從間隔的采樣中完美重建原始聲波——只要我們的采樣頻率比期望得到的最高頻率快至少兩倍就行喜最。
我提這一點偎蘸,是因為幾乎每個人都會犯這個錯誤,并誤認為使用更高的采樣率總是會獲得更好的音頻質(zhì)量。其實并不是迷雪。

預(yù)處理我們的采樣聲音數(shù)據(jù)

我們現(xiàn)在有一個數(shù)列限书,其中每個數(shù)字代表 1/16000 秒的聲波振幅。

我們可以把這些數(shù)字輸入到神經(jīng)網(wǎng)絡(luò)中章咧,但是試圖直接分析這些采樣來進行語音識別仍然很困難蔗包。相反,我們可以通過對音頻數(shù)據(jù)進行一些預(yù)處理來使問題變得更容易慧邮。

讓我們開始吧,首先將我們的采樣音頻分成每份 20 毫秒長的音頻塊舟陆。這是我們第一個 20 毫秒的音頻(即我們的前 320 個采樣):

image.png

將這些數(shù)字繪制為簡單的折線圖误澳,我們就得到了這 20 毫秒內(nèi)原始聲波的大致形狀:

image.png

雖然這段錄音只有**** 1/50 ****秒的長度,但即使是這樣短暫的錄音秦躯,也是由不同頻率的聲音復(fù)雜地組合在一起的忆谓。其中有一些低音,一些中音踱承,甚至有幾處高音倡缠。但總的來說,就是這些不同頻率的聲音混合在一起茎活,才組成了人類的語音昙沦。
為了使這個數(shù)據(jù)更容易被神經(jīng)網(wǎng)絡(luò)處理,我們將把這個復(fù)雜的聲波分解成一個個組成部分载荔。我們將分離低音部分盾饮,再分離下一個最低音的部分,以此類推懒熙。然后將(從低到高)每個頻段(frequency band)中的能量相加丘损,我們就為各個類別的音頻片段創(chuàng)建了一個指紋(fingerprint)。
想象你有一段某人在鋼琴上演奏 C 大調(diào)和弦的錄音工扎。這個聲音是由三個音符組合而成的:C徘钥、E 和 G。它們混合在一起組成了一個復(fù)雜的聲音肢娘。我們想把這個復(fù)雜的聲音分解成單獨的音符呈础,以此來分辨 C、E 和 G蔬浙。這和語音識別是一樣的道理猪落。
我們需要傅里葉變換**(FourierTransform)來做到這一點。它將復(fù)雜的聲波分解為簡單的聲波畴博。一旦我們有了這些單獨的聲波笨忌,我們就將每一份頻段所包含的能量加在一起。

最終得到的結(jié)果便是從低音(即低音音符)到高音俱病,每個頻率范圍的重要程度官疲。以每 50hz 為一個頻段的話袱结,我們這 20 毫秒的音頻所含有的能量從低頻到高頻就可以表示為下面的列表:

image.png

列表中的每個數(shù)字表示那份 50Hz 的頻段所含的能量

不過,把它們畫成這樣的圖表會更加清晰

image.png

你可以看到途凫,在我們的 20 毫秒聲音片段中有很多低頻能量垢夹,然而在更高的頻率中并沒有太多的能量。這是典型「男性」的聲音维费。

如果我們對每 20 毫秒的音頻塊重復(fù)這個過程果元,我們最終會得到一個頻譜圖(每一列從左到右都是一個 20 毫秒的塊):

image.png

「hello」聲音剪輯的完整聲譜

頻譜圖很酷,因為你可以在音頻數(shù)據(jù)中實實在在地看到音符和其他音高模式犀盟。對于神經(jīng)網(wǎng)絡(luò)來說而晒,相比于原始聲波,從這種數(shù)據(jù)中尋找規(guī)律要容易得多阅畴。因此倡怎,這就是我們將要實際輸入到神經(jīng)網(wǎng)絡(luò)中去的數(shù)據(jù)表示方式。

從短聲音識別字符

現(xiàn)在我們有了格式易于處理的音頻贱枣,我們將把它輸入到深度神經(jīng)網(wǎng)絡(luò)中去监署。神經(jīng)網(wǎng)絡(luò)的輸入將會是 20 毫秒的音頻塊。對于每個小的音頻切片(audio slice)纽哥,神經(jīng)網(wǎng)絡(luò)都將嘗試找出當(dāng)前正在說的聲音所對應(yīng)的字母钠乏。

image.png

我們將使用一個循環(huán)神經(jīng)網(wǎng)絡(luò)——即一個擁有記憶,能影響未來預(yù)測的神經(jīng)網(wǎng)絡(luò)昵仅。這是因為它預(yù)測的每個字母都應(yīng)該能夠影響它對下一個字母的預(yù)測缓熟。例如,如果我們到目前為止已經(jīng)說了「HEL」摔笤,那么很有可能我們接下來會說「LO」來完成「Hello」够滑。我們不太可能會說「XYZ」之類根本讀不出來的東西。因此吕世,具有先前預(yù)測的記憶有助于神經(jīng)網(wǎng)絡(luò)對未來進行更準(zhǔn)確的預(yù)測彰触。

當(dāng)通過神經(jīng)網(wǎng)絡(luò)跑完我們的整個音頻剪輯(一次一塊)之后,我們將最終得到一份映射(mapping)命辖,其中標(biāo)明了每個音頻塊和其最有可能對應(yīng)的字母况毅。這是我說那句「Hello」所對應(yīng)的映射的大致圖案:

image.png

我們的神經(jīng)網(wǎng)絡(luò)正在預(yù)測我說的那個詞很有可能是「HHHEE_LL_LLLOOO」。但它同時認為我說的也可能是「HHHUU_LL_LLLOOO」尔艇,或者甚至是「AAAUU_LL_LLLOOO」尔许。

我們可以遵循一些步驟來整理這個輸出。首先终娃,我們將用單個字符替換任何重復(fù)的字符:

· HHHEE_LL_LLLOOO 變?yōu)?HE_L_LO

· HHHUU_LL_LLLOOO 變?yōu)?HU_L_LO

· AAAUU_LL_LLLOOO 變?yōu)?AU_L_LO

然后味廊,我們將刪除所有空白:

· HE_L_LO 變?yōu)?HELLO

· HU_L_LO 變?yōu)?HULLO

· AU_L_LO 變?yōu)?AULLO

這讓我們得到三種可能的轉(zhuǎn)寫——「Hello」、「Hullo」和「Aullo」。如果你大聲說出這些詞余佛,所有這些聲音都類似于「Hello」柠新。因為神經(jīng)網(wǎng)絡(luò)每次只預(yù)測一個字符,所以它會得出一些純粹表示發(fā)音的轉(zhuǎn)寫辉巡。例如恨憎,如果你說「He would not go」,它可能會給出一個「He wud net go」的轉(zhuǎn)寫郊楣。

在我們可能的轉(zhuǎn)寫「Hello」憔恳、「Hullo」和「Aullo」中,顯然「Hello」將更頻繁地出現(xiàn)在文本數(shù)據(jù)庫中(更不用說在我們原始的基于音頻的訓(xùn)練數(shù)據(jù)中了)净蚤,因此它可能就是正解喇嘱。所以我們會選擇「Hello」作為我們的最終結(jié)果,而不是其他的轉(zhuǎn)寫塞栅。

參考:
https://zhuanlan.zhihu.com/p/24703268
http://dataunion.org/28416.html

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市腔丧,隨后出現(xiàn)的幾起案子放椰,更是在濱河造成了極大的恐慌,老刑警劉巖愉粤,帶你破解...
    沈念sama閱讀 207,113評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件砾医,死亡現(xiàn)場離奇詭異,居然都是意外死亡衣厘,警方通過查閱死者的電腦和手機如蚜,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,644評論 2 381
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來影暴,“玉大人错邦,你說我怎么就攤上這事⌒椭妫” “怎么了撬呢?”我有些...
    開封第一講書人閱讀 153,340評論 0 344
  • 文/不壞的土叔 我叫張陵,是天一觀的道長妆兑。 經(jīng)常有香客問我魂拦,道長,這世上最難降的妖魔是什么搁嗓? 我笑而不...
    開封第一講書人閱讀 55,449評論 1 279
  • 正文 為了忘掉前任芯勘,我火速辦了婚禮,結(jié)果婚禮上腺逛,老公的妹妹穿的比我還像新娘荷愕。我一直安慰自己,他們只是感情好,可當(dāng)我...
    茶點故事閱讀 64,445評論 5 374
  • 文/花漫 我一把揭開白布路翻。 她就那樣靜靜地躺著狈癞,像睡著了一般。 火紅的嫁衣襯著肌膚如雪茂契。 梳的紋絲不亂的頭發(fā)上蝶桶,一...
    開封第一講書人閱讀 49,166評論 1 284
  • 那天,我揣著相機與錄音掉冶,去河邊找鬼真竖。 笑死,一個胖子當(dāng)著我的面吹牛厌小,可吹牛的內(nèi)容都是我干的恢共。 我是一名探鬼主播,決...
    沈念sama閱讀 38,442評論 3 401
  • 文/蒼蘭香墨 我猛地睜開眼璧亚,長吁一口氣:“原來是場噩夢啊……” “哼讨韭!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起癣蟋,我...
    開封第一講書人閱讀 37,105評論 0 261
  • 序言:老撾萬榮一對情侶失蹤透硝,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后疯搅,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體濒生,經(jīng)...
    沈念sama閱讀 43,601評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,066評論 2 325
  • 正文 我和宋清朗相戀三年幔欧,在試婚紗的時候發(fā)現(xiàn)自己被綠了罪治。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 38,161評論 1 334
  • 序言:一個原本活蹦亂跳的男人離奇死亡礁蔗,死狀恐怖觉义,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情浴井,我是刑警寧澤谁撼,帶...
    沈念sama閱讀 33,792評論 4 323
  • 正文 年R本政府宣布,位于F島的核電站滋饲,受9級特大地震影響厉碟,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜屠缭,卻給世界環(huán)境...
    茶點故事閱讀 39,351評論 3 307
  • 文/蒙蒙 一箍鼓、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧呵曹,春花似錦款咖、人聲如沸何暮。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,352評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽海洼。三九已至,卻和暖如春富腊,著一層夾襖步出監(jiān)牢的瞬間坏逢,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,584評論 1 261
  • 我被黑心中介騙來泰國打工赘被, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留是整,地道東北人。 一個月前我還...
    沈念sama閱讀 45,618評論 2 355
  • 正文 我出身青樓民假,卻偏偏與公主長得像浮入,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子羊异,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 42,916評論 2 344

推薦閱讀更多精彩內(nèi)容