摘要:? ?上文介紹了G711與MPEG-1的聲學(xué)原理鸭限,這類編碼器基于人耳感知模型,盡管適用于語音和音樂信號里覆,但主要目的是編碼出高質(zhì)量的音頻娛樂信號,如器樂和聲樂信號缆瓣。本文將介紹另一類音頻編碼器,它們基于發(fā)聲模型弓坞,用于編碼語音信號。
1戚扳、發(fā)音模型
1.1 濁音與清音
濁音產(chǎn)生的機(jī)理如下:
當(dāng)聲帶(Vocal Cords)閉合時,從肺部排出的空氣在聲帶后面形成壓力帽借,直到聲帶最終被分開超歌。當(dāng)空氣從分開的聲帶中流出時,根據(jù)貝怒利定律(流體系統(tǒng)中巍举,流速越快,流體產(chǎn)生的壓力越小)梦皮,空氣壓力下降,導(dǎo)致聲帶再次閉合剑肯。聲帶按準(zhǔn)周期進(jìn)行打開和關(guān)閉的循環(huán)观堂,形成了準(zhǔn)周期的脈沖。通過咽型将、口和鼻道時,這些脈沖被頻率整形七兜。
清音是通過聲道的某些位置形成部分收縮,強(qiáng)制空氣以足夠高的速度通過收縮點產(chǎn)生擾動而產(chǎn)生的腕铸。這會產(chǎn)生類似寬帶噪聲的聲音(如單詞see)。
如圖2所示狠裹,濁音可以很容易通過波形的準(zhǔn)周期特性識別,這些區(qū)域標(biāo)為V涛菠;清音識別比較困難,它們很容易和背景信號混淆俗冻,這些區(qū)域標(biāo)為U。
濁音波形中重復(fù)波形的局部時間也被稱為基音周期。如圖3所示冶伞,矩形內(nèi)的波形不斷重復(fù),每個矩形持續(xù)的時間就是基音周期碰缔。
1.2 聲門脈沖模型
對于濁音戳护,聲門會影響產(chǎn)生的準(zhǔn)周期信號的波形金抡。
聲門脈沖的建模如圖4所示,通過調(diào)整脈沖長度可以適應(yīng)不同的基音周期并建模不同的聲門開合比率梗肝。
對圖4的脈沖模型進(jìn)行傅里葉變換后的頻率響應(yīng)如圖5所示,可以看出聲門脈沖本身有低通特性禀晓,高頻部分會被削弱。
1.3 聲道模型
對聲道模型主要考慮聲道面積坝锰、聲波在聲道中的反射和聲波在聲門和嘴唇的損失。
1.4 輻射模型
對嘴唇的輻射建馁旃裕可以假設(shè)輻射面處于一個無限延伸的平面障礙中,如圖6所示帽芽。
1.5 完整模型
2翔冀、線性預(yù)測編碼(LPC)
根據(jù)語音的發(fā)聲模型,只要提供準(zhǔn)確的語音參數(shù)搬瑰,就能還原出語音波形。
圖8給出了發(fā)聲模型的一種簡化形式跌捆。濾波器H(z)不僅包含了聲道共振作用,也包含唇部輻射作用佩厚,在濁音情況下還包含了聲門脈沖形狀的譜效應(yīng)说订,H(z)被稱為聲道系統(tǒng)函數(shù)。對于濁音陶冷,這個系統(tǒng)受一個準(zhǔn)周期脈沖串激勵,對于清音埂伦,系統(tǒng)受隨機(jī)噪聲序列激勵。
該模型需要的參數(shù)有:
? ? 1膊毁、濁音/清音分類
????2、濁音的基音周期
? ? 3婚温、增益參數(shù)G
? ? 4、H(z)的濾波器系數(shù) {}
濁音/清音分類和基音周期檢測有其他方法估計栅螟,不在這里討論。
LPC用線性預(yù)測分析方法力图,通過分析語音信號得到H(z)的濾波器系數(shù) {} 和增益參數(shù)G。由于語音信號的時變性吃媒,分析程序是取一小段語音幀(10-30ms)來估計濾波器系數(shù)(語音有短時平穩(wěn)的性質(zhì))。該分析程序的目的是找出一組濾波器系數(shù)
晓折,使得預(yù)測誤差的均方差最小。
模型輸出的語音采樣s[n]可以用如下的差分方程來表示:
其中加權(quán)項為預(yù)測信號漾月,e[n]為預(yù)測誤差:
e[n]的均方預(yù)測誤差(MSE)定義為:
為了求得使最小的各個
值,令
胃珍,求偏導(dǎo)后可得方程組:
根據(jù)該方程組,最小均方誤差可以表示為:
寫成自相關(guān)形式:
方程組可以用托普利茲(Toeplize)矩陣(它是對稱的吩蔑,而且任意一條對角線上的所有元素相等)表示:
對矩陣進(jìn)行求解可算出濾波器系數(shù)填抬。
參考文獻(xiàn)
[1] Steven W.Smith.Digital Signal Processing[M]
[2] Lawrence R.Rabiner, Ronald W.Schafer.Theory and Applications of Digital Speech Processing[M]