聲紋識別
聲紋識別,生物識別技術(shù)的一種砌庄,也稱為說話人識別羹唠,有兩類,即說話人辨認(rèn)和說話人確認(rèn)娄昆。聲紋識別的理論基礎(chǔ)是每一個聲音都具有獨(dú)特的特征佩微,通過該特征能將不同人的聲音進(jìn)行有效的區(qū)分。
聲音特征
1萌焰、語音的特殊性哺眯。發(fā)音器官分為聲門上系統(tǒng)、喉系統(tǒng)扒俯、聲門下系統(tǒng)族购,每個人都有自己的一套發(fā)音器官,它們的形態(tài)陵珍、構(gòu)造各有差別,每次發(fā)音需要眾多發(fā)音器官相互配合违施、共同運(yùn)動互纯。這決定了語音的物理屬性(也稱語音四要素):音質(zhì)、音長磕蒲、音強(qiáng)留潦、音高只盹。這些物理量人各不同兔院,因而語音在聲紋圖譜上呈現(xiàn)不同的聲紋特征殖卑,根據(jù)這些聲紋特征參數(shù),我們不但可以區(qū)分語聲坊萝,而且可以認(rèn)定同一人的語聲孵稽。
2、語音的穩(wěn)定性十偶。一個人的發(fā)音器官發(fā)育成熟后菩鲜,其解剖結(jié)構(gòu)和生理狀態(tài)是穩(wěn)定不變的,加之發(fā)音人的言語習(xí)慣等語音的社會心理屬性惦积,使得每個人在不同時段所說的相同文本內(nèi)容的話接校,基本語音特征是穩(wěn)定不變的。因此狮崩,你可以把人的聲道看做管樂中的號蛛勉,長號、短號雖然都是號睦柴,但由于聲道的形狀诽凌、長短不同,吹出來的音質(zhì)也不同爱只。
在聲紋識別皿淋,包括語音識別領(lǐng)域,傳統(tǒng)的聲學(xué)特征包括梅爾倒譜系數(shù)MFCC恬试、感知線性預(yù)測系數(shù)PLP窝趣、近幾年的逐漸受到關(guān)注的深度特征Deep Feature、以及15年公開發(fā)表的能量規(guī)整譜系數(shù)PNCC等训柴,都能作為聲紋識別在特征提取層面可選且表現(xiàn)良好的聲學(xué)特征哑舒。
原理特征
典型的聲紋識別模型可以分為兩種:template model和 stochastic?model,即模板模型和隨機(jī)模型幻馁。也稱作非參數(shù)模型和參數(shù)模型洗鸵。
模板模型(非參數(shù)模型)將訓(xùn)練特征參數(shù)和測試的特征參數(shù)進(jìn)行比較,兩者之間的失真(distortion)作為相似度仗嗦。
模板模型的典型例子有VQ(Vector quantization矢量量化)模型和動態(tài)時間規(guī)整法DTW(dynamic time warping)模型膘滨。VQ 方法則是通過聚類、量化的方法生成碼本稀拐,識別時對測試數(shù)據(jù)進(jìn)行量化編碼火邓,以失真度的大小作為判決的標(biāo)準(zhǔn)。DTW 通過將輸入待識別的特征矢量序列與訓(xùn)練時提取的特征矢量進(jìn)行比較,通過最優(yōu)路徑匹配的方法來進(jìn)行識別铲咨。
隨機(jī)模型(參數(shù)模型)用一個概率密度函數(shù)來模擬說話人躲胳,訓(xùn)練過程用于預(yù)測概率密度函數(shù)的參數(shù),匹配過程通過計(jì)算相應(yīng)模型的測試語句的相似度來完成纤勒。(參數(shù)模型采用某種概率密度函數(shù)來描述說話人的語音特征空間的分布情況坯苹,并以該概率密度函數(shù)的一組參數(shù)作為說話人的模型。)例如(GMM和HMM)高斯混合模型和隱馬爾科夫模型摇天。
流程
一般的聲紋識別過程是:首先提取語音特征粹湃,在把特征投入模型中訓(xùn)練,最后尋找分?jǐn)?shù)最高或者最接近的結(jié)果闸翅。
模式匹配方法
目前針對各種特征而提出的模式匹配方法的研究越來越深入再芋。這些方法大體可歸為下述幾類:
1、概率統(tǒng)計(jì)
語音中說話人信息在短時內(nèi)較為平穩(wěn)坚冀,通過對穩(wěn)態(tài)特征如基音济赎、聲門增益、低階反射系數(shù)的統(tǒng)計(jì)分析记某,可以利用均值司训、方差等統(tǒng)計(jì)量和概率密度函數(shù)進(jìn)行分類判決。其優(yōu)點(diǎn)是不用對特征參量在時域上進(jìn)行規(guī)整液南,比較適合文本無關(guān)的說話人識別壳猜。
2、動態(tài)時間規(guī)整
說話人信息不僅有穩(wěn)定因素滑凉,而且有時變因素(語速统扳、語調(diào)、重音和韻律)畅姊。將識別模板與參考模板進(jìn)行時間對比咒钟,按照某種距離測定得出兩模板間的相似程度。常用的方法是基于最近鄰原則的動態(tài)時間規(guī)整DTW若未。
3朱嘴、最近鄰方法
訓(xùn)練時保留所有特征矢量,識別時對每個矢量都找到訓(xùn)練矢量中最近的K個粗合,據(jù)此進(jìn)行識別萍嬉,通常模型存儲和相似計(jì)算的量都很大;
4隙疚、矢量量化
矢量量化最早是基于聚類分析的數(shù)據(jù)壓縮編碼技術(shù)壤追。矢量量化就是將若干個標(biāo)量數(shù)據(jù)組構(gòu)成一個矢量,然后在矢量空間給以整體量化供屉,從而壓縮了數(shù)據(jù)而不損失多少信息行冰。Helms首次將其用于聲紋識別捅厂,把每個人的特定文本編成碼本,識別時將測試文本按此碼本進(jìn)行編碼资柔,以量化產(chǎn)生的失真度作為判決標(biāo)準(zhǔn)。這種方法的識別精度較高撵割,且判斷速度快贿堰。
5、VQ聚類方法
VQ聚類方法(如LBG啡彬,K-均值):效果比較好羹与,算法復(fù)雜度也不高,和HMM方法配合起來更可以收到更好的效果庶灿;
6纵搁、隱馬爾可夫模型
隱馬爾可夫模型是一種基于轉(zhuǎn)移概率和傳輸概率的隨機(jī)模型,它把語音看成由可觀察到的符號序列組成的隨機(jī)過程往踢,符號序列則是發(fā)聲系統(tǒng)狀態(tài)序列的輸出腾誉。在使用HMM識別時,為每個說話人建立發(fā)聲模型峻呕,通過訓(xùn)練得到狀態(tài)轉(zhuǎn)移概率矩陣和符號輸出概率矩陣利职。
HMM不需要時間規(guī)整,可節(jié)約判決時的計(jì)算時間和存儲量瘦癌,目前被廣泛應(yīng)用在工業(yè)領(lǐng)域猪贪,缺點(diǎn)是訓(xùn)練時計(jì)算量較大。
關(guān)于隱馬爾科夫模型可以參考: 如何用簡單易懂的例子解釋隱馬爾可夫模型讯私? - 知乎
7热押、人工神經(jīng)網(wǎng)絡(luò)
人工神經(jīng)網(wǎng)絡(luò)在某種程度上模擬生物的感知特性,它是一種分布式并行處理結(jié)構(gòu)的網(wǎng)絡(luò)模型斤寇,具有自組織和自學(xué)習(xí)能力桶癣、很強(qiáng)的復(fù)雜分類邊界區(qū)分能力以及對不完全信息的魯棒性,其性能近似理想的分類器抡驼。缺點(diǎn)是訓(xùn)練時間長鬼廓,動態(tài)時間規(guī)整能力弱,網(wǎng)絡(luò)規(guī)模隨說話人數(shù)目增加時可能大到難以訓(xùn)練的程度致盟。
總的說來碎税,一個成功的聲紋識別系統(tǒng)應(yīng)該做到:首先能夠有效地區(qū)分不同的說話人,又能在同一說話人語音發(fā)生變化時保持相對的穩(wěn)定馏锡,如感冒等情況雷蹂。其次,不易被他人模仿或能夠較好地解決被他人模仿問題杯道。最后匪煌,在聲學(xué)環(huán)境變化時能夠保持一定的穩(wěn)定性,即抗噪聲性能要好。
模型基礎(chǔ)
1萎庭、GMM-UBM(混合高斯-通用背景模型)
混合高斯-通用背景模型(Gaussian Mixture Model-Universal Background Model霜医,GMM-UBM)將聲學(xué)特征投影到高維空間上,得到高維的均值超矢量驳规。UBM采用大規(guī)模的說話人語料訓(xùn)練完成肴敛,并因此可以被采進(jìn)行說話人的共性特征的描述。然后吗购,以UBM為初始模型医男,采用目標(biāo)說話人數(shù)據(jù)進(jìn)行基于最大后驗(yàn)概率(Maximum A Posterior, MAP)的自適應(yīng)訓(xùn)練,得到目標(biāo)說話人的混合高斯模型(GMM)捻勉。通過計(jì)算似然值的方法進(jìn)行說話人打分镀梭,進(jìn)而進(jìn)行識別判決。
高斯混合模型(GMM)是聲紋識別中最常用的模型之一踱启,因?yàn)樵诼暭y識別中报账,如何將語音特征很好地進(jìn)行總結(jié)及測試語音如何與訓(xùn)練語音進(jìn)行匹配都是非常復(fù)雜難解決的問題,而GMM將這些問題轉(zhuǎn)為對于模型的操作及概率計(jì)算等問題禽捆,并進(jìn)行解決笙什。高斯混合模型可以逼近任何一個連續(xù)的概率分布,因此它可以看做是連續(xù)型概率分布的萬能逼近器胚想。GMM模型是一個有監(jiān)督的訓(xùn)練過程琐凭。它的基本思想就是利用已知的樣本結(jié)果來反推最有可能(也就是最大概率)導(dǎo)致該個結(jié)果的參數(shù)值,在這個原則之下浊服,GMM通常采用最大期望算法(EM)模型進(jìn)行迭代直到收斂來確定參數(shù)统屈。
雖然GMM模型座位一種通用的概率模型,對說話人識別的效果很好牙躺,但是實(shí)際上愁憔,我們經(jīng)常會遇到訓(xùn)練語音比較短、或者預(yù)料比較少的情況孽拷,這樣就不能訓(xùn)練處好的GMM模型吨掌,從而使識別率遍地。所以在GMM模型的基礎(chǔ)上脓恕,有些專家就提出了高斯混合模型-全局背景模型(GMM-UBM)
而GMM-UBM系統(tǒng)利用大量的說話人語音訓(xùn)練出一個全局背景模型(UBM)膜宋,因此在較小的訓(xùn)練集情況下仍然可以獲得較為準(zhǔn)確的模型,識別性能及魯棒性都很好炼幔。
2秋茫、聯(lián)合因子分析
聯(lián)合因子分析認(rèn)為,在GMM-UBM系統(tǒng)中的高斯模型均值超矢量乃秀,大體上可以分為跟說話人本身有關(guān)的矢量特征和跟信道以及其他變化有關(guān)的矢量特征的線性疊加肛著。也就是圆兵,將說話人GMM均值超矢量所在的空間劃分為本征空間,信道空間枢贿,最后還有一個殘差空間殉农。這樣,如果我們能抽取出跟說話人本身相關(guān)的特征而去掉和信道相關(guān)的特征局荚,就能很好地克服信道影響進(jìn)行識別了统抬。
3、說話人矢量因子(Identity-Vector危队,I-Vector)
傳統(tǒng)的聯(lián)合因子分析建模過程主要是基于兩個不同的空間:由本征音空間矩陣定義的說話人空間,由本征信道空間矩陣定義的信道空間钙畔。受聯(lián)合因子分析理論的啟發(fā),Dehak提出了從GMM均值超矢量中提取一個更緊湊的矢量,稱為I-Vector茫陆。這里的I是身份(Identity)的意思,出于自然的理解,I-Vector相當(dāng)于說話人的身份標(biāo)識。
I-vector方法采用一個空間來代替這兩個空間擎析,這個新的空間可以成為全局差異空間簿盅,它即包含了說話者之間的差異又包含了信道間的差異。所以I-Vector的建模過程在GMM均值超矢量中不嚴(yán)格區(qū)分話者的影響和信道的影響揍魂。這一建模方法的動機(jī)來源于Dehak的又一研究: JFA建模后的信道因子不僅包含了信道效應(yīng)也夾雜著說話人的信息桨醋。
所以到現(xiàn)在,我們主要用的特征是i-vector现斋。這是通過高斯超向量基于因子分析而得到的喜最。這玩意是基于單一空間的跨信道算法,該空間既包含了說話人空間的信息也包含了信道空間信息庄蹋。相當(dāng)于用因子分析方法將語音從高位空間投影到低維瞬内。
你可以把I-vector看做是一種特征,也可以看做是簡單的模型限书。最后虫蝶,在測試階段,我們只要計(jì)算測試語音I-vector和模型的I-vector之間的consine距離倦西,就可以作為最后的得分能真。這種方法也通常被作為基于I-vector說話人識別系統(tǒng)的基線系統(tǒng)。
4扰柠、TVM-I-Vector
說話人識別中的經(jīng)典方法是I-Vector粉铐,I-Vector建模方式稱為全局差異空間建模(Total Variability Modeling, TVM),采用該方法提取的I-Vector記為TVM-I-Vector耻矮。
在基于TVM-I-Vector的聲紋識別系統(tǒng)中秦躯,我們一般可以分為三個步驟。第一步是統(tǒng)計(jì)量的提取裆装,第二步是提取I-Vector踱承,第三步是進(jìn)行信道補(bǔ)償技術(shù)倡缠。統(tǒng)計(jì)量的提取是指將語音數(shù)據(jù)的特征序列,比如MFCC特征序列茎活,用統(tǒng)計(jì)量來進(jìn)行描述昙沦,提取的統(tǒng)計(jì)量屬于高維特征,然后經(jīng)過TVM建模载荔,投影至低維空間中得到I-Vector盾饮。
在TVM-I-Vector建模中,統(tǒng)計(jì)量的提取是以UBM為基礎(chǔ)的懒熙,根據(jù)UBM的均值及方差進(jìn)行相應(yīng)統(tǒng)計(jì)量的計(jì)算丘损。
基于DNN(深度學(xué)習(xí)網(wǎng)絡(luò))的聲紋識別的基本思想是取代TVM中的UBM產(chǎn)生幀級后驗(yàn)概率。即采用DNN進(jìn)行幀級對齊的工作工扎,繼而計(jì)算訓(xùn)練數(shù)據(jù)的統(tǒng)計(jì)量徘钥,進(jìn)行全局差異空間的訓(xùn)練以及I-Vector的提取。
最近使用神經(jīng)網(wǎng)絡(luò)來進(jìn)行聲紋識別的論文已經(jīng)改進(jìn)了傳統(tǒng)的i-vector方法(參考Interspeech教程的原始論文或者幻燈片)肢娘。i-vector方法認(rèn)為說話內(nèi)容可以被分為兩個部分呈础,一個部分依賴于說話者和信道可變性,另一個部分依賴于其它的相關(guān)因素橱健。i-vector聲紋識別是一個多步過程而钞,其涉及到使用不同說話者的數(shù)據(jù)來估計(jì)一個通用的背景模型(通常是高斯混合模型),收集充分的統(tǒng)計(jì)數(shù)據(jù)拘荡,提取i-vector臼节,最后使用一個分類器來進(jìn)行識別任務(wù)。
目前沒有詳細(xì)證據(jù)證明深度神經(jīng)網(wǎng)絡(luò)或組合i-vector的深度神經(jīng)網(wǎng)絡(luò)性能一定優(yōu)于i-vector方法珊皿,可能原因是說話人識別中信道干擾較多官疲,難以搜集足夠數(shù)據(jù)訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)。
5亮隙、信道補(bǔ)償算法
其實(shí)途凫,信道補(bǔ)償相關(guān)的工作從有聲紋識別領(lǐng)域以來就一直有研究,包括上面的GMM-UBM系統(tǒng)和聯(lián)合因子分析系統(tǒng)溢吻。信道補(bǔ)償主要分三個層次:基于特征的補(bǔ)償维费,基于模型的補(bǔ)償和基于得分的補(bǔ)償。由于我所研究的方面都是在I-vector特征的基礎(chǔ)上的促王,所以這里重點(diǎn)說一下基于I-vector特征的信道補(bǔ)償算法犀盟。
什么叫信道補(bǔ)償呢?為什么要信道補(bǔ)償呢蝇狼?
前面說I-vector的時候說了阅畴,I-vector特征中既包含說話者信息又包含信道信息,而我們只關(guān)心說話者信息迅耘。也就是說贱枣,由于信道信息的存在监署,對我們做說話人識別產(chǎn)生了干擾,甚至嚴(yán)重影響系統(tǒng)的識別準(zhǔn)確率纽哥。于是钠乏,我們就要想辦法盡量減小這種影響。這就是所謂的信道補(bǔ)償春塌。
6晓避、LDA線性鑒別分析
LDA至多可生成C-1維子空間(C為分類類別數(shù)),LDA降維后的度區(qū)間在 [1,C-1] 只壳,與原始特征數(shù)n無關(guān)俏拱,因此二分類問題至多可以降維到一維,導(dǎo)致有些線性不可分?jǐn)?shù)據(jù)分布情況無法分類吼句。在聲紋識別中彰触,大部分情況是二分類問題,所以這里L(fēng)DA的作用是將原始高維特征數(shù)據(jù)降維到一維命辖,這樣每一個樣本特征向量映射為一維上的一個點(diǎn),這個點(diǎn)的數(shù)值表示該點(diǎn)到原點(diǎn)的距離分蓖。
當(dāng)一個說話人有很多語音時尔艇,表現(xiàn)為這些語音在說話人空間中聚集為一簇。如果這些語音收到信道的影響么鹤,那么就表現(xiàn)為這個說話人的語音的方差很大终娃。然后,LDA嘗試著找到一個新的方向蒸甜,將原來的所有數(shù)據(jù)投影到這個方向棠耕,使得在這個方向中同一說話人的數(shù)據(jù)具有最小的類內(nèi)方差,同時不同說話人之間的距離盡量大柠新。這樣窍荧,就達(dá)到減小信道差異的影響了。
LDA其實(shí)也是一種降維方法恨憎。它盡量去移除不需要的方向蕊退,最小化類內(nèi)的方差信息量。也就是憔恳,LDA尋找一個新的方向去更好地對不同的類做出分類瓤荔。可見钥组,LDA非常適合作為說話人識別系統(tǒng)的信道補(bǔ)償算法输硝。
當(dāng)使用LDA對測試數(shù)據(jù)和模型的I-vector進(jìn)行重新投影后,然后計(jì)算它們之間的cosine距離程梦,就可以作為最后的得分点把。
LDA如何找到這個映射方向橘荠。前面不是說LDA的目的是最大化類間距離,最小化類內(nèi)距離么愉粤。LDA是可以直接求取解析解的砾医。具體方法就是對目標(biāo)函數(shù)求導(dǎo)并且令導(dǎo)數(shù)為零。但是在求導(dǎo)之前衣厘,記得對分母進(jìn)行歸一化如蚜,因?yàn)槿绻粴w一化的話,映射方向擴(kuò)大任意倍等成立影暴,所以不好確定映射方向的具體值错邦。在求解析解的過程中,經(jīng)過一系列變化型宙,我們最終只要求出原始樣本的均值和方差就可以最佳映射方向 w撬呢,這就是Fisher 于 1936年提出的線性判別分析。
可參考模型
基于一篇論文:《An overview of text-independent speaker recognition: From features to supervectors》
MFCC+GMM
github地址:https://github.com/dake/openVP
1妆兑、對輸入的語音數(shù)據(jù)序列(PCM 碼流)進(jìn)行預(yù)處理魂拦。
? ? ? a) 去除非語音信號 和 靜默語音信號;
? ? ? b) 對語音信號分幀搁嗓,以供后續(xù)處理芯勘。
2、提取每一幀語音信號的MFCC 參數(shù) 并保存腺逛。
? ? ? 1)預(yù)增強(qiáng)(Pre-Emphasis) :差分語音信號荷愕。
? ? ? 2)音框化(Framing) :對語音數(shù)據(jù)分幀。
? ? ? 3)漢明窗(Hamming Windowing) :對每幀信號加窗棍矛,以減小吉布斯效應(yīng)的影響安疗。
? ? ? 4)快速傅立葉變換(FFT) :將時域信號變換成為信號的功率譜。
? ? ? 5)三角帶通濾波器(Triangle Filters) :三角濾波器覆蓋的范圍都近似于人耳的一個臨? ? ? ? ? ? ? 界帶寬够委,以此來 模擬人耳的掩蔽效應(yīng)荐类。
? ? ? 6)離散余弦轉(zhuǎn)換(DCT) :去除各維信號之間的相關(guān)性,將信號映射到低維空間茁帽。
用第2 步提取的 MFCC 參數(shù)訓(xùn)練話者的 GMM (高斯混合模型)掉冶,得到專屬某話者的 GMM 聲紋模型。
聲紋識別脐雪。提供輸入話音與GMM 聲紋模型的匹配運(yùn)算函數(shù)厌小,以判斷輸入話音是否與聲紋匹配
基于TVM-I-Vector的聲紋識別系統(tǒng)。
說話人矢量因子(Identity-Vector战秋,I-Vector)模型以GMM-UBM為基礎(chǔ)璧亚,基于的假設(shè)是所有的說話人信息隱含在高維的均值超矢量中。它的基本思想是將高維的均值超矢量投影至低維空間中進(jìn)行建模,即將長短不一的語音文件通過全局差異空間建模(Total Variable space Model, TVM)的方式癣蟋,得到長度一致的低維向量作為說話人模型透硝。這個低維矢量即為I-Vector。由于I-Vector建模中沒有區(qū)分語音中說話人信息以及信道信息疯搅,為了降低信道對識別的影響濒生,分別采用了線性判別分析(Linear Discriminant Analysis,LDA)以及概率線性判別分析(Probability Linear Discriminant Analysis幔欧,PLDA)對I-Vector進(jìn)行信道補(bǔ)償罪治,提高識別效果。
基于DNN統(tǒng)計(jì)量提取的I-Vector聲紋識別系統(tǒng)礁蔗。
在基于TVM-I-Vector的聲紋識別系統(tǒng)中觉义,采用UBM計(jì)算后驗(yàn)概率,提取相關(guān)統(tǒng)計(jì)量浴井,從而進(jìn)行全局差異空間的估計(jì)晒骇。考慮到UBM數(shù)據(jù)驅(qū)動的建模方式可能會導(dǎo)致后驗(yàn)概率計(jì)算的誤差較大磺浙,從而影響識別性能洪囤,本文采用自動語音識別(Automatic Speech Recognition, ASR)任務(wù)中訓(xùn)練得到的深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network, DNN)模型作為計(jì)算后驗(yàn)概率的模型替代UBM,以得到更準(zhǔn)確的統(tǒng)計(jì)量進(jìn)行模型估計(jì)撕氧,從而提高識別效果瘤缩。
基于深度瓶頸特征(Deep Bottleneck Feature, DBF)的I-Vector聲紋識別系統(tǒng)。
深度瓶頸層(Deep Bottleneck Layer)在語音識別中的成功應(yīng)用證明了DBF在特征表示上的優(yōu)勢呵曹。低維的DBF在網(wǎng)絡(luò)結(jié)構(gòu)中能夠?qū)崿F(xiàn)高維輸入至輸出的重現(xiàn),說明它是一種抽象何暮、凝練且更具區(qū)分性的特征奄喂。相比于聲紋識別中的Mel頻率倒譜系數(shù) (Mel Frequency Cepstral Coefficients, MFCC)特征,DBF在聲紋識別上也表現(xiàn)出了一定的優(yōu)勢海洼。在本文中跨新,實(shí)現(xiàn)了基于DBF的I-Vector模型的估計(jì)。此外坏逢,考慮到MFCC以及DBF的互補(bǔ)作用域帐,進(jìn)行了基于DBF以及MFCC特征融合的I-Vector建模,進(jìn)一步提高聲紋識別系統(tǒng)的性能是整。
聲紋識別應(yīng)用前景
與其他生物識別技術(shù)肖揣,諸如指紋識別、掌形識別浮入、虹膜識別等相比較龙优,聲紋識別除具有不會遺失和忘記、不需記憶事秀、使用方便等優(yōu)點(diǎn)外彤断,還具有以下特性:
1野舶、用戶接受程度高,由于不涉及隱私問題宰衙,用戶無任何心理障礙平道。
2、利用語音進(jìn)行身份識別可能是最自然和最經(jīng)濟(jì)的方法之一供炼。聲音輸入設(shè)備造價低廉一屋,甚至無費(fèi)用,而其他生物識別技術(shù)的輸入設(shè)備往往造價昂貴劲蜻。
3陆淀、在基于電信網(wǎng)絡(luò)的身份識別應(yīng)用中,如電話銀行先嬉、電話炒股轧苫、電子購物等,與其他生物識別技術(shù)相比疫蔓,聲紋識別更為擅長含懊,得天獨(dú)厚。
4衅胀、由于與其他生物識別技術(shù)相比岔乔,聲紋識別具有更為簡便、準(zhǔn)確滚躯、經(jīng)濟(jì)及可擴(kuò)展性良好等眾多優(yōu)勢雏门,可廣泛應(yīng)用于安全驗(yàn)證、控制等各方面掸掏,特別是基于電信網(wǎng)絡(luò)的身份識別茁影。
已有的成功案例
TensorFlow-based Deep Speaker
實(shí)現(xiàn)ResNet網(wǎng)絡(luò)上的TE2E(Tuple-base end-to-end)Loss function訓(xùn)練方式。安裝TensorFlow丧凤、Python3和FFMPEG(文件格式轉(zhuǎn)換工具)后募闲,準(zhǔn)備好數(shù)據(jù),即可一鍵訓(xùn)練愿待。只可惜驗(yàn)證部分還沒做浩螺,而且GRU沒實(shí)現(xiàn)、tensor實(shí)現(xiàn)部分也不嚴(yán)謹(jǐn)仍侥,可詳細(xì)閱讀代碼和論文
源碼地址:https://github.com/philipperemy/deep-speaker
論文地址:Deep Speaker: an End-to-End Neural Speaker Embedding System
數(shù)據(jù)集合:http://www.robots.ox.ac.uk/~vgg/data/voxceleb/
TristouNet from pyannote-audio
一個音頻處理工具箱要出,包括Speech change detection, feature extraction, speaker embeddings extraction以及speech activity detection。其中speaker embeddings extraction部分农渊,包括TristouNet的實(shí)現(xiàn)厨幻。
源碼地址:https://github.com/pyannote/pyannote-audio
論文地址:TristouNet: Triplet Loss for Speaker Turn Embedding
CNN-based Speaker verification
Convolutional Neural Networks(卷積神經(jīng)網(wǎng)絡(luò))在聲紋識別上的試驗(yàn),一個不錯的嘗試,可以與TDNN/x-vector做下對比况脆。
源碼地址:https://github.com/astorfi/3D-convolutional-speaker-recognition
論文地址:Text-Independent Speaker Verification Using 3D Convolutional Neural Networks
數(shù)據(jù)集合:https://biic.wvu.edu/data-sets/multimodal-dataset
推薦論文
?GMM-UBM: Speaker Verification Using Adapted Gaussian Mixture Models
MAP:?Eigenvoice Modeling With Sparse Training Data
I-vector:?Front-End Factor Analysis for Speaker Verification
參考:
https://cloud.tencent.com/developer/news/268352
https://www.cnblogs.com/Vanessa-Feng/p/7465352.html
https://www.cnblogs.com/ytxwzqin/p/9369105.html
https://blog.csdn.net/xmu_jupiter/article/details/47209961
https://blog.csdn.net/twinkle_star1314/article/details/55050138
https://blog.csdn.net/weixin_38858860/article/details/83961860