一入客、語音的構成
1. 為什么有monophone和triphone
coarticulation協(xié)同發(fā)音(指的是一個音受前后相鄰音的影響而發(fā)生變化铛铁,從發(fā)聲機理上看就是人的發(fā)聲器官在一個音轉向另一個音時其特性只能漸變,從而使得后一個音的頻譜與其他條件下的頻譜產(chǎn)生差異),所以將一個音素劃分為幾個亞音素單元。如:數(shù)字“three”霎奢,音素的第一部分與在它之前的音素存在關聯(lián),中間部分是穩(wěn)定的部分饼灿,而最后一部分則與下一個音素存在關聯(lián)幕侠。
2. senone多元音素
考慮上下文關聯(lián),一個senone的上下文依賴比單純的左右上下文復雜得多碍彭,它是一個可以被決策樹或者其他方式來定義的復雜函數(shù)(英語的上下文相關建模通常以音素為基元晤硕,由于有些音素對其后音素的影響是相似的,因而可以通過音素解碼狀態(tài)的聚類進行模型參數(shù)的共享庇忌。聚類的結果稱為senone舞箍。決策樹用來實現(xiàn)高效的triphone對senone的對應,通過回答一系列前后音所屬類別(元/輔音皆疹、清/濁音等等)
3. 音節(jié)syllables
phones->subword units = syllables音節(jié)是一個比較穩(wěn)定的實體疏橄,因為當語音變得比較快的時候,音素往往會發(fā)生改變略就,但是音節(jié)卻不變捎迫。
4. 單詞word
subwords->word,相對于全部組合表牢,只有少數(shù)組合有意義(是存在的單詞)
5. 話語utterances
words+filters(呼吸窄绒,um,uh崔兴,咳嗽等)=utterance
二颗祝、識別過程
1. 概述
waveform->根據(jù)silences分割為多個utterances浊闪,識別每個utterance
2. 特征
waveform分割成10ms的frame恼布,每個frame提取39維特征
3. 模型
senone->GMM
4. 匹配
特征向量和模型匹配
三螺戳、模型
1. 聲學模型
每個senone的聲學屬性,其包括不依賴于上下文的屬性(每個音素phone最大可能的特征向量)和依賴于上下文的屬性(根據(jù)上下文構建的senone)
2. 字典
從單詞words到音素phones之間的映射折汞。還可以通過運用機器學習算法去學習得到一些復雜的函數(shù)去完成映射功能倔幼。
3. 語言模型
用來約束單詞搜索的。它定義了哪些詞能跟在上一個已經(jīng)識別的詞的后面(匹配是一個順序的處理過程)爽待,這樣就可以為匹配過程排除一些不可能的單詞损同。
四、其他
1.lattice
代表識別的不同結果的有向圖鸟款。一般來說膏燃,很難去獲得一個最好的語音匹配結果。所以Lattices就是一個比較好的格式去存放語音識別的中間結果何什。
2. N-best lists
和lattices有點像组哩,但是它沒有l(wèi)attices那么密集(也就是保留的結果沒有l(wèi)attices多)。(N-best搜索和多遍搜索:為在搜索中利用各種知識源处渣,通常要進行多遍搜索伶贰,第一遍使用代價低的知識源(如聲學模型、語言模型和音標詞典)罐栈,產(chǎn)生一個候選列表或詞候選網(wǎng)格黍衙,在此基礎上進行使用代價高的知識源(如4階或5階的N-Gram、4階或更高的上下文相關模型)的第二遍搜索得到最佳路徑荠诬。)
3. Word confusion networks (sausages)
從lattice的邊緣得到的一個嚴格的節(jié)點順序序列琅翻。
參考資料
https://blog.csdn.net/zouxy09/article/details/7941055
https://cmusphinx.github.io/wiki/tutorialconcepts/