reference
《spoken language processing》
1 語音基礎(chǔ)
-
名詞解釋
pitch 音調(diào) 以HZ為單位
基頻又稱音高
能量又稱音強
說話的聲音(聲帶震動)和其他聲音相比劫窒,有獨特的時域和頻域模式本今。聲帶的震動產(chǎn)生基頻(fundamental frequency),口腔共振(the pharyngeal and oral resonance cavities)等產(chǎn)生高頻諧波
-
基頻
就是聲帶的閉-開頻率
-
聲道模型
-
語譜圖主巍、共振峰
語圖縱坐標(biāo)是Frequency (Hz) 冠息,橫坐標(biāo)是Time (s) 。語圖上還有第三個維度孕索,顏色的深淺逛艰,就是表示振幅的大小,即音強(sound intensity)搞旭。每隔5ms進行一次傅里葉變換散怖。
語圖某段頻率相對于周圍較黑,就是說這里振幅較大镇眷,音強較大。我們把這一段稱為「共振峰」翎嫡。相對周圍較黑的有幾處欠动,就有幾個共振峰。一般以一段較黑的條紋的中間位置作為共振峰的頻率值,是一個聲音區(qū)別于其他聲音的主要特征具伍,觀察共振峰和它們的轉(zhuǎn)變可以更好的識別聲音翅雏。也就是說,共振峰是聲音的主要特征人芽。人耳就像一個濾波器組一樣望几,它只關(guān)注某些特定的頻率分量,所以人的聽覺系統(tǒng)是一個特殊的非線性系統(tǒng)啼肩,它響應(yīng)不同頻率信號的靈敏度是不同的橄妆。
form https://www.zhihu.com/question/24190826/answer/32315664
-
輔音和元音的區(qū)別
? 1、輔音發(fā)音時祈坠,氣流在通過咽頭害碾、口腔的過程中, 要受到某部位的阻礙赦拘;元音發(fā)音時慌随,氣流在咽頭、 口腔不受阻礙躺同。這是元音和輔音最主要的區(qū)別阁猜。
? 2、輔音發(fā)音時蹋艺,發(fā)音器官成阻的部位特別緊張剃袍; 元音發(fā)音時發(fā)音器官各部位保持均衡的緊張狀態(tài)。
? 3捎谨、輔音發(fā)音時民效,氣流較強;元音發(fā)音時涛救,氣流較 弱畏邢。
? 4、輔音發(fā)音時检吆,聲帶不一定振動舒萎,聲音一般不響 亮;元音發(fā)音時蹭沛,聲帶振動臂寝,聲音比輔音響亮。
一般只有元音(一些介于元音輔音中間分類不明的音暫不討論)才會有共振峰摊灭,而元音的音質(zhì)由聲道的形狀決定咆贬,而聲道的形狀又通過發(fā)音的動作來塑造(articulatory+movements)。
from 安時
-
清音和濁音
- 清音:聲帶不振動
- 濁音:聲帶振動而發(fā)音
- 元音都是濁音斟或、輔音有清音也有濁音。
4 語音編碼 Speech Coding
語音編碼技術(shù)的目的:為了減少傳輸碼率或存儲量集嵌,以提高傳 輸或存儲的效率萝挤。經(jīng)過這樣的編碼之后御毅,同樣的信道容量能傳 輸更多路的信號,如用于存儲則只需要較小容量的存儲器怜珍。因 而這類編碼又稱為壓縮編碼端蛆。需要在保持可懂度與音質(zhì)、降低數(shù)碼率 和降低編碼過程的計算代價三方面折衷酥泛。
- 波形編碼:波形編碼器沒有使用模型今豆,而是試圖使重構(gòu)的語 音和原始語音之間的誤差最小化。波形編碼的方法簡單柔袁,數(shù)碼率較高呆躲,在64kbit/s至32kbit/s之間音質(zhì)優(yōu)良,當(dāng)數(shù)碼率低于 32kbit/s的時候音質(zhì)明顯降低捶索,16 kbit/s時音質(zhì)非常差插掂。
- 參數(shù)編碼:基于參數(shù)或模型的編碼器提供了一種可用來模擬 語音產(chǎn)生的模型,并從原始語音中提取可用來描述此模型的 參數(shù)腥例,然后隨著語音信號特征的改變來周期地更新模型參數(shù) 辅甥。 聲碼器編碼后的碼率可以做得很低,如1.2kbit/s燎竖、2.4kbit/s璃弄, 但是也有其缺點。首先是合成語音質(zhì)量較差构回,往往清晰度可以而自然度沒有夏块,難于辨認(rèn)說話人是誰,其次是復(fù)雜度比較高
- 混合編碼:混合編碼是將波形編碼和聲碼器的原理結(jié)合起來捐凭,數(shù)碼率約在4kbit/s—16kbit/s之間拨扶,音質(zhì)比較好,最近有個別 算法所取得的音質(zhì)可與波形編碼相當(dāng)茁肠,復(fù)雜程度介乎與波形編碼器和聲碼器之間
電話的語音采樣頻率為8khz. 評價分辨率好壞的標(biāo)準(zhǔn):the Mean Opinion Score (MOS)
解碼延遲: Coder delay is the sum of different types of delay. The first is the algorithmic delay arising because speech coders usually operate on a block of samples, called a frame, which needs to be accumulated before processing can begin. Often the speech coder requires some additional look-ahead beyond the frame to be encoded. The computational delay is the time that the speech coder takes to process the frame. For realtime operation, the computational delay has to be smaller than the algorithmic delay. A block of bits is generally assembled by the encoder prior to transmission, possibly to add error-correction properties to the bit stream, which cause multiplexing delay. Finally, there is the transmission delay, due to the time it takes for the frame to traverse the channel. The decoder will incur a decoder delay to reconstruct the signal. In practice, the total delay of many speech coders is at least three frames.
編碼糾錯[1]
2 語音識別
解碼(decoding):把直接的觀測結(jié)果看作是源碼的編碼患民,那么根據(jù)編碼推測源碼就是解碼過程,是根本目的垦梆。解碼可以是直接在可行解空間進行搜索匹颤。一般來說遍歷搜索是不可行的,因為解空間是巨大的托猩,甚至是無窮大的印蓖,普遍采用的是啟發(fā)式搜索(即生成式搜索,另一種搜索思路是進化搜索)京腥。
-
聲學(xué)模型(Acoustic Modeling)
決定語音分布的因素(因此在生成訓(xùn)練樣本需要下面因素的變化才能擬合正式環(huán)境下的語音分布):
- 上下文
- 說話風(fēng)格(情緒赦肃、語速、重音等)
- 說話人的習(xí)慣
- 說話環(huán)境
-
測量識別模型的正確率
-
語音采樣
端點檢測:
過零率[2]
譜熵分布
頻帶方差
二分類器
the EM algorithm can iteratively estimate the Gaussian parameters without having a precise segmentation between speech and noise segments.-
短時分析
決定短時能量特性有兩個條件:不同的窗口的形狀和長度。
窗長越長他宛,頻率分辨率越高船侧,而時間分辨率越低。如果很大厅各,它等效于很窄的低通濾波器镜撩,此時隨時間的 變化很小,不能反映語音信號的幅度變化队塘,信號的變化細節(jié) 就看不出來袁梗;反之,窗長太小時憔古,濾波器的通帶變寬遮怜,隨時 間有急劇的變化,不能得到平滑的能量函數(shù)投放。
矩形窗譜平滑性能好奈泪,但損失高頻成分,波形細節(jié)丟失灸芳, 海明窗與之相反
-
MFCC
提取MFCC特征的過程:
1)先對語音進行預(yù)加重[3]涝桅、分幀[4]和加窗[5];
2)對每一個短時分析窗烙样,通過FFT得到對應(yīng)的頻譜[6]冯遂;
3)將上面的頻譜通過Mel濾波器組[7]得到Mel頻譜;
4)在Mel頻譜上面進行倒譜分析(取對數(shù)谒获,做逆變換蛤肌,實際逆變換一般是通過DCT離散余弦變換來實現(xiàn),取DCT后的第2個到第13個系數(shù)作為MFCC系數(shù))批狱,獲得Mel頻率倒譜系數(shù)MFCC裸准,這個MFCC就是這幀語音的特征;
![特征普遍采用的語音特征[8]](http://upload-images.jianshu.io/upload_images/3444195-0882821befe50ddc.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)
-
模板匹配法(傳統(tǒng))
語音識別模式匹配的問題:時間對準(zhǔn)
- 同一個人在不同時刻說同一句話赔硫、發(fā)同一個音倘屹,也不可能具有完全相同的時間長度衣式;
- 語音的持續(xù)時間隨機改變盒犹,相對時長也隨機改變缰揪;
- 端點檢測不準(zhǔn)確;
方法1:線性時間規(guī)整推盛,均勻伸長或縮短 – 依賴于端點檢測峦阁; – 僅擴展時間軸無法精確對準(zhǔn);
方法2:動態(tài)時間規(guī)整 – DTW-Dynamic Time Warping耘成; – 60年代Itakura提出來的榔昔;其思想是:由于語音信號是一種具有相當(dāng)大隨機性的信號驹闰, 即使相同說話者對相同的詞,每一次發(fā)音的結(jié)果都是不同 的撒会,也不可能具有完全相同的時間長度疮方。因此在與已存儲 模型相匹配時,未知單詞的時間軸要不均勻地扭曲或彎折茧彤, 以使其特征與模板特征對正。 動態(tài)時間規(guī)整DTW是一個典型的優(yōu)化問題疆栏,它用滿足一定條 件的時間規(guī)整函數(shù)描述輸入模板和參考模板的時間對應(yīng)關(guān) 系曾掂,求解兩模板匹配時累計距離最小所對應(yīng)的規(guī)整函數(shù)。
DTW的問題:
- 運算量大壁顶;
- 識別性能過分依賴于端點檢測珠洗;
- 太依賴于說話人的原來發(fā)音;
- 不能對樣本作動態(tài)訓(xùn)練若专;
- 沒有充分利用語音信號的時序動態(tài)特性许蓖;
DTW適合于特定人基元較小的場合,多用于孤立 詞識別调衰;
-
語音的識別單元
phoneme是用于區(qū)別詞匯的最小單元膊爪,音節(jié)(Syllables)介于音素和單詞的中間,說話時一次發(fā)出的嚎莉, 具有一個響亮的中心米酬,并被明顯感覺的語音片斷。為什么不以詞語作為識別單元趋箩?詞匯太多赃额;無法應(yīng)對新產(chǎn)生的詞。聲學(xué)單元越小叫确,其數(shù)量也就越少跳芳,訓(xùn) 練模型的工作量也就越小竹勉;但另一方面飞盆,單元越 小,對上下文的敏感性越大饶米,越容易受到前后相 鄰的影響而產(chǎn)生變異桨啃,因此其類型設(shè)計和訓(xùn)練樣 本的采集更困難。不過phone是一個相鄰無關(guān)的單元檬输,而triphone是考慮到相鄰phone對當(dāng)前phone的影響照瘾,于是認(rèn)為只有當(dāng)前后及本身的phone都相同時才認(rèn)為是同樣的triphone. 每個詞的發(fā)音可能有多種變化方式,在子詞串接時丧慈,必須有所體現(xiàn)析命。
替換:即詞中的某個音子可能被用其它相似 而略有差異的子詞單元所替換主卫。
插入和刪除:詞中有時增加了一個不是本詞 成分的子詞單元,有時又將本詞成分中的某個 子詞刪除鹃愤。
聲學(xué)模型
-
GMM-HMM聲學(xué)模型
我們認(rèn)為語音是由許多狀態(tài)組成的一個HMM序列所生成出來的:每一個時刻t到達某個狀態(tài)s簇搅,s按照自己的分布產(chǎn)生一個采樣(觀測),這個采樣就是MFCC參數(shù)软吐,于是一段時間內(nèi)產(chǎn)生了一個MFCC參數(shù)序列瘩将,即是特征提取后的語音。生成一段語音的GMM-HMM模型不是固定的凹耙,而是很多building block組合起來的姿现,building block可以是一個狀態(tài),也可以是三個狀態(tài)(triphone)肖抱。我們需要確定的模型參數(shù)就是所有這些building block的觀測分布(GMM參數(shù))以及它們之間的相互轉(zhuǎn)移與自轉(zhuǎn)移概率(HMM參數(shù))备典。另外,根據(jù)一段語音的MFCC參數(shù)意述,在已知GMM提佣、HMM參數(shù)的情況下,計算可能的狀態(tài)序列概率荤崇,以找出最大可能的狀態(tài)序列(decoding).
根據(jù)HMM的分布觀測樣本空間的是否離散,HMM分為離散HMM和連續(xù)HMM. 由于原始輸入的信號是連續(xù)空間的喜每,轉(zhuǎn)化為離散HMM需要進行"采樣"务唐,也就是將連續(xù)樣本空間劃分成M塊,用塊值代替原始的樣本带兜。
半連續(xù)HMM(SCHMM):相當(dāng)于離散HMM和連續(xù)HMM的混合枫笛。狀態(tài)輸出的特征向量是連 續(xù)的,也是用多個高斯分布的加權(quán)和來近似概率分布函數(shù)刚照,但是 用來作加權(quán)和的高斯函數(shù)的集合是固定的刑巧,類似于對高斯密度函 數(shù)建立了“碼本”,各個狀態(tài)輸出概率密度之間不同的是對“碼 本”中各個高斯密度函數(shù)的加權(quán)系數(shù)无畔。
訓(xùn)練過程分為兩個部分:GMM啊楚、HMM
- GMM參數(shù)訓(xùn)練
- HMM參數(shù)訓(xùn)練
GMM沒有利用幀的上下文信息 ? GMM不能學(xué)習(xí)深層非線性特征變換
-
DNN-HMM
-
CTC
- 不要需要輸入與輸出幀級別的對齊信息,不用和HMM模型結(jié)合
- 約90%的幀其對應(yīng)的輸出為空(blank)浑彰,可以采取跳幀恭理,加快解碼速 度
- 因解碼速度快,識別性能也較優(yōu)郭变,所以工業(yè)界大多采用這種模型
3 語音合成
文本分析的主要功能是使計算機知道要發(fā)什么音颜价、怎么發(fā)音涯保,并將發(fā) 音的方式告訴計算機。對于漢語來說周伦,還要讓計算機知道文本中的詞 邊界夕春、短語邊界、句子邊界专挪,以便發(fā)音時設(shè)置不同長度的停頓及志。文本 分析還應(yīng)將漢字、符號寨腔、數(shù)字等轉(zhuǎn)換成適當(dāng)?shù)钠匆簟?br>
? 文本分析的結(jié)果既要告訴計算機發(fā)什么音困肩,也要告訴計算機以什么方 式發(fā)音。如:發(fā)音的聲調(diào)脆侮;音節(jié)是長還是短;是重還是輕勇劣;是高還是 低靖避;到哪兒應(yīng)該停頓,停頓的長短比默。TTS系統(tǒng)要給出代表這些韻律特 征的聲學(xué)參數(shù)幻捏,這就是韻律生成模塊的功能。
? 計算機知道要說什么以及有了韻律控制參數(shù)后命咐,計算機通過聲學(xué)模塊 產(chǎn)生語音輸出篡九。在系統(tǒng)中,聲學(xué)模塊負責(zé)產(chǎn)生合成語音醋奠。聲學(xué)模塊從 語音數(shù)據(jù)庫中選取適當(dāng)?shù)恼Z音基元榛臼,拼接成語句, 再經(jīng)過韻律修飾窜司, 就可以輸出自然連續(xù)的語聲流沛善。
? 文本分析、韻律生成可以采用基于規(guī)則或基于數(shù)據(jù)驅(qū)動的方法塞祈。韻律 修飾可以直接改變波形或進行參數(shù)變換金刁。
主要分為三個步驟:
- 音素分析(phonetic analysis):
將文本轉(zhuǎn)化為對應(yīng)的音素序列,主要依靠查表议薪。句子切分尤蛮、句子分詞、POS斯议,非標(biāo)準(zhǔn)詞處理产捞,同形字辨別(Homograph Disambiguation) -
韻律分析(prosodic analysis):對音素序列添加適當(dāng)?shù)耐nD和延遲信息,這也是prosody與phoneme之間的區(qū)別哼御。停頓添加的訓(xùn)練是用二分類器
-
基頻建模
- 基于規(guī)則的方法 – 通常規(guī)則系統(tǒng)包括兩個方面搂抒,一是漢語的通用 規(guī)則,比如漢語的4個調(diào)的基本形狀尿扯,上聲連接 的變調(diào)規(guī)則求晶,時長變化,語氣語調(diào)的音高變化 等衷笋;二是目標(biāo)說話人的特定韻律特征規(guī)則芳杏,比 如個人的基本調(diào)型、調(diào)域辟宗、語速停頓規(guī)則爵赵。
- 基于數(shù)據(jù)驅(qū)動的方法
數(shù)據(jù)驅(qū)動模型通常考慮哪些上下文信息
短語信息:短語中音節(jié)的個數(shù)泊脐、詞的個數(shù) 空幻,短語在句子中的位置
詞信息:詞長,詞性容客,詞在短語中的位置 ? 音節(jié)信息:聲韻母類型秕铛,聲調(diào),在詞中位 置缩挑,在短語中位置但两,前音節(jié)信息和后音節(jié) 信息。
- 語音合成(waveform synthesis):將上述音素序列轉(zhuǎn)化為波形信號
有兩種方式:
- 雙音合成 diphone
非拼接方式供置,對于每一個phone都需要一個duration 和 F0值
兩個缺點:
1. 必須對原音頻進行信號處理谨湘,導(dǎo)致聽上去不自然
2. 僅考慮一個相鄰音素的影響
-
單元選擇合成 (unit selection)
拼接(concatenative)方式,沒有對拼接單元進行信號加工芥丧。diphone有多樣本紧阔,每一個都以長句子形式存儲,因此每一個diphone樣本的上下環(huán)境非常豐富续担,因此在需要合成的時候寓辱,我們挑選最合適的diphone樣本,而無須對diphone進行信號加工
在選擇時我們考慮的合適指標(biāo)有兩個方面:
對應(yīng)于兩個數(shù)值指標(biāo):
得到綜合指標(biāo):
基于HMM的語音合成
In the HMM-based speech synthesis,一個語音單元的語音參數(shù):語譜spectrum, 基頻fundamental frequency (F0)赤拒,音長 phoneme duration are statistically modeled and generated by using HMMs based on maximum likelihood criterion.
一個狀態(tài)的輸出是MFCC參數(shù)向量秫筏,但是觀測樣本僅與當(dāng)前狀態(tài)相關(guān),與相鄰的觀測樣本沒有直接相關(guān)挎挖,這樣和i出現(xiàn)不平滑这敬。為了保證平滑,并不是直接對狀態(tài)的分布函數(shù)進行采樣蕉朵,而是輸出分布(GMM參數(shù))崔涂,在T時刻后,對每一維的參數(shù)進行平滑采樣始衅。
基于深度神經(jīng)網(wǎng)絡(luò)的語音合成
-
評價
mean opinion score (MOS) tests were conducted. In the paired comparison tests, after listening to each pair of samples, the subjects were asked to choose which they preferred, though they could choose “neutral” if they did not have any preference. In the MOS tests, after listening to each stimulus, the subjects were asked to rate the naturalness of the stimulus in a five-point Likert scale score (1: Bad, 2: Poor, 3: Fair, 4: Good, 5: Excellent).
6 說話人識別/自適應(yīng)
說話人之間的差異對非特定人語音識別系統(tǒng)造成的影響主 要有兩方面原因:
(1) 當(dāng)某一使用該系統(tǒng)的說話人語音與訓(xùn)練語音庫中的所有說話人 的語音都有較大的差別時,對該使用者的語音系統(tǒng)的識別性能會有嚴(yán) 重的惡化;
(2) 訓(xùn)練一個較好的識別系統(tǒng)需要采集數(shù)量很大的說話人的語音用 于訓(xùn)練,讓訓(xùn)練語音庫覆蓋更為廣泛的語音空間,這樣雖然可以減低 樣本空間分布中影響,但同時會造成識別系統(tǒng)參數(shù)分布較廣,而不是 較為尖銳的分布,造成識別性能的下降
文本相關(guān)的語音轉(zhuǎn)換:相當(dāng)于文本中的平行語料:對同一句話冷蚂,不同人進行語音實現(xiàn)缭保,得到的平行語音作為訓(xùn)練樣本
TTS system can generate synthetic speech which closely resembles an arbitrarily given speaker’s voice using a small amount of target speaker’s speech data by applying speaker adaptation techniques such as MLLR (Maximum Likelihood Linear Regression) algorithm
文本無關(guān)的語音轉(zhuǎn)換:沒有平行語料。使用場景可以大大拓展蝙茶,也可以用于跨語言語音轉(zhuǎn)換艺骂。從音素的角度出發(fā)進行建模
7 語音系統(tǒng)
對話系統(tǒng)的特點
- 口語對話系統(tǒng)都有比較明確的領(lǐng)域限制,一般說來它 只需要關(guān)心領(lǐng)域相關(guān)的內(nèi)容隆夯,對于超出領(lǐng)域限制的用戶輸入 可以不加理會钳恕;
- 不同于語音命令系統(tǒng)中的孤立詞和聽寫機系統(tǒng)中的朗 讀語音,對話系統(tǒng)面對的是自發(fā)語音(Spontaneous Speech)蹄衷,發(fā)音比較隨意忧额;
- 對話系統(tǒng)的輸入是人們?nèi)粘I钪械目谡Z,語句中常 常包括不流利愧口、不合語法睦番、內(nèi)容不完整等口語現(xiàn)象;
- 口語對話系統(tǒng)的應(yīng)用環(huán)境比較多樣化耍属,可能是非常安 靜的實驗室環(huán)境托嚣,可能是充滿噪音的正在行駛的汽車中,更 有可能是人聲嘈雜的商場恬涧。
語音理解過程都是分兩步完成的:
- 語音識別器對輸入語音進行識別,輸 出 N-best 或者詞圖(Word Graph)形式的識別 結(jié)果碴巾;
- 語言理解器對識別器的輸出進行分析 和理解溯捆,得到對話管理模塊所需要的語義表示 形式。
對話管理
對話管理系統(tǒng)要做到能夠在與用戶多次交 互的情況下保持回答的連續(xù)性和合理性, 并 且能夠處理用戶在交互過程中轉(zhuǎn)變提問目 的的情況厦瓢。
-
在已經(jīng)實現(xiàn)并應(yīng)用的對話管理的設(shè)計中, 主 要有:基于狀態(tài)圖的結(jié)構(gòu)提揍、填充槽結(jié)構(gòu)和 基于任務(wù)的結(jié)構(gòu)。
基于狀態(tài)圖的結(jié)構(gòu)采用有限狀態(tài)機來控制對話的進行:- 每個對話片段的情況可以看成是一個一個的狀態(tài), 將對話 過程的每一次交互都看作是一次狀態(tài)的跳轉(zhuǎn), 即每一個狀 態(tài)節(jié)點都表示著當(dāng)時對話的信息狀態(tài)和系統(tǒng)動作, 每一個 連接弧表示用戶的每次操作煮仇。因此, 整個對話的過程, 從開 始到結(jié)束可以看成是在狀態(tài)圖中的一個連接開始節(jié)點和結(jié) 束節(jié)點的狀態(tài)轉(zhuǎn)移的路徑劳跃。這種對話管理結(jié)構(gòu)要求設(shè)計者要在設(shè)計時預(yù)計出所有可 能的對話狀態(tài)和用戶可能的操作, 即所有狀態(tài)之間的轉(zhuǎn) 移條件。
- 從工程實現(xiàn)的角度來講, 由于此種結(jié)構(gòu)要求對于每一個 狀態(tài)用戶的任何操作都要有一個跳轉(zhuǎn)的規(guī)定, 因此這種 結(jié)構(gòu)在對話清晰明確的時候有著很好的應(yīng)用浙垫。
- 如果領(lǐng)域的內(nèi)容復(fù)雜則狀態(tài)圖很難保證沒有任何的紕漏, 實現(xiàn)起來要耗費大量的人力刨仑。
- 有限狀態(tài)的結(jié)構(gòu)有著其必然的缺點, 即難以應(yīng)付沒有預(yù) 測到的情況, 如果用戶的反應(yīng)完全超乎設(shè)計師的預(yù)計, 則對話必然不能正常地進行, 并且這個缺點在一個以用戶 為對話主導(dǎo)的互動系統(tǒng)中會更加突顯出來。
填充槽結(jié)構(gòu)采用一個多維特征向量來表示對話 的情況, 并且在對話的過程中不斷地修改向量的值夹姥。特征向量通常是由從用戶接收到的信息和一些 狀態(tài)標(biāo)志組成, 根據(jù)特征向量的值來決定下一 步的操作杉武。
這種方法與上一種基于狀態(tài)圖的方 法的最大區(qū)別在于: 對于操作的順序沒有嚴(yán)格的限制, 即只關(guān)心當(dāng)前對話的狀態(tài)信息, 根據(jù)現(xiàn)在的狀態(tài)作出反應(yīng), 然后根據(jù) 用戶的回答或系統(tǒng)的反應(yīng)修改特征向量。
因為這種結(jié)構(gòu)不考慮整個對話的順序, 所以 比基于狀態(tài)圖的結(jié)構(gòu)適應(yīng)更多的對話類型辙售。 同樣, 這種結(jié)構(gòu)也有著自己的適應(yīng)范圍轻抱。
– ①與基于狀態(tài)圖的結(jié)構(gòu)一樣, 也要列出所有的可 能狀態(tài), 即所有可能的特征向量。
– ②由于填充槽的結(jié)構(gòu)要求列出所有的槽來表示 狀態(tài), 所以槽的數(shù)目要有一定的限制, 這也是對 其可以實現(xiàn)的系統(tǒng)范圍的一個約束; 并且由于它 只記錄信息存在的狀態(tài), 所以對于多提問目標(biāo)的 情況就難以應(yīng)對基于任務(wù)的結(jié)構(gòu)是一種目前最受矚目的結(jié)構(gòu), 并且適應(yīng) 的范圍也最為廣泛旦部。-
- 任務(wù)是指用戶為達到某種目的而采 取的一系列的操作或?qū)υ?/li>
- 一般來講, 任務(wù)包括進度表( Plan) 和目標(biāo)祈搜。目標(biāo)就是用 戶想要達到的目的较店。
- 通常來講, 系統(tǒng)要通過一系列的步驟與用戶交互才能完 成特定的任務(wù), 這些交互的步驟就構(gòu)成進度表。例如上 例中, 為了達到上面的任務(wù), 系統(tǒng)要與用戶交互確定電影 的時間容燕、要求的電影院等, 用戶可能要求系統(tǒng)提供影片 介紹, 系統(tǒng)要根據(jù)用戶提出的新的要求不斷地修改進度 表, 最終完成任務(wù)梁呈。同時系統(tǒng)還要能夠支持在對話過程 中任務(wù)的突然跳轉(zhuǎn)。
-
對于一個應(yīng)用的領(lǐng)域, 通常采用樹型結(jié)構(gòu)來描述任務(wù)缰趋。在表示領(lǐng) 域的根節(jié)點下面的第一層子節(jié)點是任務(wù)節(jié)點, 任務(wù)節(jié)點的子節(jié)點 表示解決這個任務(wù)所可能用到的信息要素, 一個信息要素節(jié)點的 子節(jié)點表示這個信息要素的子要素捧杉。要素之間的關(guān)系, 如 “與”、“或”等, 在節(jié)點關(guān)系中體現(xiàn)出來秘血。若兩個節(jié)點之間是 “與”的關(guān)系, 則表示兩個節(jié)點要同時滿足才能完成這兩個節(jié)點 的父節(jié)點; 若節(jié)點之間是“或”的關(guān)系, 則表示兩個節(jié)點只要滿 足一個即可味抖。若領(lǐng)域包含的信息元素間的關(guān)系比較復(fù)雜, 則還會 包括其他節(jié)點間關(guān)系。當(dāng)用戶與系統(tǒng)交互的時候, 系統(tǒng)首先要判 斷用戶的任務(wù)是什么, 即要達到什么樣的交互目的; 然后找到相 對應(yīng)的任務(wù)樹, 將用戶提供的信息填進各個信息要素的節(jié)點中灰粮。 根據(jù)節(jié)點間的邏輯關(guān)系判斷目前所擁有的信息量是否足夠完成 該任務(wù), 如果不能, 找到缺少信息的節(jié)點, 根據(jù)節(jié)點所定義的提問 方法對用戶進行提問, 要求用戶對該節(jié)點的信息進行補充, 即根 據(jù)任務(wù)樹來不斷地制定修改進度表仔涩。
語音檢索
語音檢索就是在語音數(shù)據(jù)庫中搜索查詢其中出現(xiàn)的關(guān)鍵詞。 語音檢索需要使用自動語音識別(ASR)技術(shù)分析語音數(shù)據(jù)的 內(nèi)容粘舟。
在語音檢索中熔脂,首先采用ASR技術(shù)為語音數(shù)據(jù)庫建立索引, 然后在檢索時柑肴,先從查詢中提取關(guān)鍵詞霞揉,接著從索引數(shù)據(jù) 庫中搜索這些關(guān)鍵詞,并對搜索到的結(jié)果進行置信度計算 以判別其有效性晰骑。最后根據(jù)搜索到的文檔與查詢間的相關(guān) 程度對查詢結(jié)果進行排序輸出适秩。
用于語音檢索的常用技術(shù)有關(guān)鍵詞檢出技術(shù)、 連續(xù)語音識別技術(shù)和說話人識別技術(shù)等
8 語音增強
語音增強是指當(dāng)語音信號被不同噪聲干擾硕舆、甚至淹沒 后秽荞,從噪聲背景中提取有用的語音信號,抑制噪聲干 擾的技術(shù)抚官。語音增強在語音識別扬跋、語音編碼等領(lǐng)域有著重要的應(yīng)用,是語音交互 系統(tǒng)中最前端的預(yù)處理模塊凌节。
噪音類型:1. 混響 2. 背景噪聲 3. 人聲干擾 4. 回聲
-
單通道語音增強
- 譜減法(原理簡單钦听,算法計算復(fù)雜度低)
將含噪語音信號和VAD判別(Voice Activity Detection (語音激活檢測))得到的純噪聲信號進行DFT變化 ,從含噪語音譜幅度特征中減掉純噪聲的幅度譜特征倍奢,得 到增強的幅度譜特征彪见,再借用含噪語音的相位進行IDFT變 化,得到增強的語音娱挨。 譜減法假設(shè)
語音和噪聲信號是線性疊加的 噪聲是平穩(wěn)的(指的是頻譜固定)余指,噪聲與語音信號不相關(guān)(指的是噪音在語音頻率上能量小)。
譜減法相當(dāng)于對帶噪語音的每一個頻譜分量乘以一個 系數(shù)。信噪比高時酵镜,含有語音的可能性大碉碉,衰減系數(shù) 小淮韭;反之衰減系數(shù)大垢粮。 - 維納濾波
在最小均方準(zhǔn)則下用維納濾波器實現(xiàn)對語音信號的估 計,即對帶噪語音信號y(t)=s(t)+n(t),確定濾波器的 沖擊響應(yīng)h(t),使得帶噪語音信號經(jīng)過該濾波器的輸出 能夠與s(t)的均方誤差最小靠粪。
計算復(fù)雜度低蜡吧,滿足實時性要求
算法要求輸入信號具有平穩(wěn)特性
算法要求帶噪語音和安靜語音存在線性關(guān)系
在處理非平穩(wěn)噪聲時,降噪效果會變差 在復(fù)雜環(huán)境下難以跟蹤非平穩(wěn)噪聲變化軌跡 - 矩陣分解
增強的譜參數(shù)通過語音參數(shù)基矢量加權(quán)得到占键,可以抑制過 平滑問題
建立的基矩陣可以通過擴幀來考慮相鄰幀的特征昔善,從而捕 獲噪聲變化軌跡
相對于其它數(shù)據(jù)驅(qū)動方法,不需要大數(shù)據(jù)進行訓(xùn)練
算法計算復(fù)雜度高畔乙,實時性難以滿足要求 - 基于分析-合成框架語音增強
語音增強問題進行分解
準(zhǔn)確提取語音參數(shù)
增強處理語音參數(shù)
聲碼器合成語音 -
數(shù)據(jù)驅(qū)動(例如深層神經(jīng)網(wǎng)絡(luò))
- 譜減法(原理簡單钦听,算法計算復(fù)雜度低)
-
多通道語音增強
- 波束形成
通過波束形成方法:建立空間濾波器模型君仆,它的作用包括:- 將多個麥克風(fēng)采集的信號進行同步,生成單通道信號
- 只增強目標(biāo)方向的信號牲距,對其它方向的信號進行抑制
- 波束形成
-
差錯控制編碼:想在一個帶寬確定而存在噪聲的信道里可靠地傳送信號返咱,無非有兩種途徑:加大信噪比或在信號編碼中加入附加的糾錯碼。
from http://fiber.ofweek.com/2016-10/ART-210007-8500-30059906.html ? -
在離散時間語音信號情況下牍鞠,如果相鄰的采樣具有不同的代數(shù)符號就稱為發(fā)生了過零咖摹。單位時間內(nèi)過零的次數(shù)就稱為過零率。清音的過零率明顯高過濁音的過零率 ?
-
預(yù)加重的目的是提升高頻部分难述,使信號的頻譜變得平坦萤晴,保持在低頻到高頻的整個頻帶中,能用同樣的信噪比求頻譜龄广。同時硫眯,也是為了消除發(fā)生過程中聲帶和嘴唇的效應(yīng)蕴侧,來補償語音信號受到發(fā)音系統(tǒng)所抑制的高頻部分择同,也為了突出高頻的共振峰。 ?
-
分幀: 先將N個采樣點集合成一個觀測單位净宵,稱為幀敲才。通常情況下N的值為256或512,涵蓋的時間約為20~30ms左右择葡。為了避免相鄰兩幀的變化過大紧武,因此會讓兩相鄰幀之間有一段重疊區(qū)域,此重疊區(qū)域包含了M個取樣點敏储,通常M的值約為N的1/2或1/3阻星。通常語音識別所采用語音信號的采樣頻率為8KHz或16KHz,以8KHz來說,若幀長度為256個采樣點妥箕,則對應(yīng)的時間長度是256/8000×1000=32ms滥酥。 ?
-
加窗(Hamming Window):將每一幀乘以漢明窗,以增加幀左端和右端的連續(xù)性畦幢。 ?
-
FFT:由于信號在時域上的變換通常很難看出信號的特性坎吻,所以通常將它轉(zhuǎn)換為頻域上的能量分布來觀察,不同的能量分布宇葱,就能代表不同語音的特性瘦真。所以在乘上漢明窗后,每幀還必須再經(jīng)過快速傅里葉變換以得到在頻譜上的能量分布黍瞧。對分幀加窗后的各幀信號進行快速傅里葉變換得到各幀的頻譜诸尽。并對語音信號的頻譜取模平方得到語音信號的功率譜。 ?
-
Mel三角帶通濾波器:對頻譜進行平滑化雷逆,并消除諧波的作用弦讽,突顯原先語音的共振峰。(因此一段語音的音調(diào)或音高膀哲,是不會呈現(xiàn)在 MFCC 參數(shù)內(nèi)往产,換句話說,以 MFCC 為特征的語音辨識系統(tǒng)某宪,并不會受到輸入語音的音調(diào)不同而有所影響) 此外仿村,還可以降低運算量。 ?
-
一幀的音量(即能量)兴喂,也是語音的重要特征蔼囊,而且非常容易計算。因此衣迷,通常再加上一幀的對數(shù)能量(定義:一幀內(nèi)信號的平方和畏鼓,再取以10為底的對數(shù)值,再乘以10)使得每一幀基本的語音特征就多了一維壶谒,包括一個對數(shù)能量和剩下的倒頻譜參數(shù)云矫。 ?