1. 語(yǔ)音識(shí)別的本質(zhì)
??語(yǔ)音識(shí)別的本質(zhì)就是將一段聲音信號(hào)轉(zhuǎn)換為文字:??左邊的彩色框框代表的是對(duì)語(yǔ)音信號(hào)進(jìn)行特征提取后的每一幀的數(shù)據(jù)勤揩。T代表的是幀數(shù),d代表的應(yīng)該是濾波器個(gè)數(shù)(特征提取里面有一段是需要經(jīng)過mel濾波器)秘蛔,即每一幀的維度陨亡。token可以理解為你訓(xùn)練時(shí)候詞典的構(gòu)成的最小元素。根據(jù)自己選擇的不同深员,token可以分為幾種负蠕。
2.Token的種類
??phoneme是發(fā)音的最小單位,在中文中可以理解為:聲母和韻母倦畅;在英文中可以中理解為一個(gè)單詞發(fā)音的音標(biāo)遮糖。grapheme是最小的書寫單位,在英文中可以理解為26個(gè)英文字母加上空格或者加上一些其他的標(biāo)點(diǎn)符號(hào)叠赐。在中文里面就可以理解為1個(gè)字欲账。word就是看做是單詞,在中文中就表示一個(gè)詞語(yǔ)芭概,在英文中就表示一個(gè)單詞赛不。但是如果token表示word的話,在中文中就會(huì)有一個(gè)難題罢洲,中文到底存在多少個(gè)單詞踢故?中文常用字大概2000~3000,但是可以組合成無(wú)數(shù)的詞語(yǔ)惹苗。Morepheme是一個(gè)語(yǔ)言中可以傳達(dá)意思的最小單位殿较,要比word小但是比grapheme大的單位。但是morepheme的由來(lái)需要語(yǔ)言學(xué)家或統(tǒng)計(jì)學(xué)家的統(tǒng)計(jì)鸽粉。
-
Token的使用情況:
3 幾種不同的語(yǔ)音系統(tǒng)的不同輸出
4.輸入部分
4.1Acoustic Feature
5.兩種不同的語(yǔ)音識(shí)別觀點(diǎn)
??一種是端到端的語(yǔ)音模型seq2seq鹅髓,即輸入語(yǔ)音信號(hào),輸出文字京景。另一種是有點(diǎn)老的HMM(韓梅梅)窿冯。
5.1 seq2seq的幾種模型
上述ppt的下載鏈接
語(yǔ)音識(shí)別【1/7】概述-1_嗶哩嗶哩 (゜-゜)つロ 干杯~-bilibili