一焕妙,核心概念
1. 概念介紹
人在說話時(shí)使用的發(fā)聲器官(舌、牙齒、喉頭圣蝎、肺刃宵、鼻腔等)在尺寸和形態(tài)方面每個(gè)人的差異很大,所以使得任何兩個(gè)人的聲紋圖譜都存在差異徘公。因此在一般情況下组去,通過聲紋識(shí)別技術(shù)可以區(qū)分不同的個(gè)體。聲紋識(shí)別是生物特征識(shí)別的一種步淹,是指通過專用的電聲轉(zhuǎn)換儀器將聲波特征繪制成波譜圖形,與已經(jīng)注冊(cè)過的聲紋模型對(duì)比诚撵,從而區(qū)分不同的個(gè)體缭裆,實(shí)現(xiàn)身份校驗(yàn)功能。與指紋識(shí)別等常見的生物特征識(shí)別方式相比寿烟,聲紋識(shí)別具有獲取方便自然澈驼、使用簡(jiǎn)單、能遠(yuǎn)程驗(yàn)證等優(yōu)點(diǎn)筛武。
2. 聲紋識(shí)別技術(shù)原理
語音信號(hào)通過音頻采集設(shè)備進(jìn)入系統(tǒng)后缝其,首先進(jìn)入預(yù)處理階段。預(yù)處理包括端點(diǎn)檢測(cè)和噪聲消除等環(huán)節(jié)徘六,端點(diǎn)檢測(cè)環(huán)節(jié)對(duì)輸入的音頻流進(jìn)行分析内边,自動(dòng)刪除音頻中靜音或非人聲等無效部分,保留有效語音待锈。噪聲消除環(huán)節(jié)濾除背景噪聲漠其,滿足用戶在不同環(huán)境下使用需求。
經(jīng)過預(yù)處理后的語音信號(hào)進(jìn)入特征提取階段竿音,從說話人的語音信號(hào)中提取出能夠表征說話人特定器官結(jié)構(gòu)或行為習(xí)慣的頻譜特征參數(shù)和屎。該特征參數(shù)對(duì)同一說話人具有相對(duì)穩(wěn)定性,不隨時(shí)間或環(huán)境變化而變化春瞬,對(duì)同一說話人的不同話語一致柴信,具有不易模仿性和較強(qiáng)的抗噪性。
提取到的個(gè)人聲紋特征參數(shù)通過聲紋識(shí)別系統(tǒng)的學(xué)習(xí)訓(xùn)練宽气,生成用戶專有的聲紋模型随常。存儲(chǔ)在聲紋模型數(shù)據(jù)庫中,與用戶ID一一對(duì)應(yīng)抹竹。
當(dāng)需要進(jìn)行聲紋識(shí)別時(shí)线罕,聲紋識(shí)別系統(tǒng)將采集到的語音信號(hào)進(jìn)行預(yù)處理、特征提取后窃判,得到待識(shí)別的特征參數(shù)钞楼,與聲紋模型數(shù)據(jù)庫中某一用戶的模型或全部模型進(jìn)行相似性匹配,得到特征模式之間的相似性距離度量袄琳,通過選取適當(dāng)?shù)木嚯x度量作為門限值询件,得出識(shí)別結(jié)果并輸出燃乍。
二,識(shí)別類型
1. 按應(yīng)用場(chǎng)景分類
一對(duì)一:身份確認(rèn)宛琅,即在知道是某人身份的情況下刻蟹,判斷音頻是不是此人的聲音。例如在銀行app嘿辟,當(dāng)前已經(jīng)登錄賬戶舆瘪,在進(jìn)行轉(zhuǎn)賬或其它操作時(shí),需要判斷是否本人在操作红伦,這時(shí)候就可以通過一對(duì)一場(chǎng)景下的聲紋識(shí)別英古,判斷是不是登錄的賬號(hào)本人。
一對(duì)多:身份辨認(rèn)昙读,在一個(gè)注冊(cè)了很多聲紋用戶組中召调,根據(jù)音頻判斷是其中的哪個(gè)人的聲音。比如很多人用微信注冊(cè)了聲紋蛮浑,然后用聲紋鎖登錄時(shí)唠叛,需要判斷在所有已注冊(cè)聲紋的用戶中,音頻對(duì)應(yīng)的是其中哪個(gè)人沮稚,在很多的注冊(cè)用戶中艺沼,找到音頻對(duì)應(yīng)的聲音身份。
多對(duì)多(聲紋聚類):在一些雜亂的音頻中蕴掏,找出特征相似(某個(gè)人)的所有音頻澳厢,則可以通過音頻之間的對(duì)比,把相似的音頻歸為一類囚似,從而選出特征相似(同一個(gè)人)所有音頻剩拢。
2. 按音頻內(nèi)容分類
文本相關(guān):文本相關(guān)指的是說出規(guī)定的短句(一般為4到6個(gè)字的短句),用于聲紋識(shí)別饶唤。例如在智能音箱喚醒的時(shí)候徐伐,可以根據(jù)音色判斷喚醒人的身份 ,如果是小孩子喚醒則可以開啟兒童模式募狂,如果是未提前注冊(cè)的則不能進(jìn)行喚醒音箱办素。
文本半相關(guān)(隨機(jī)數(shù)字串):指的是隨機(jī)的6位或8位數(shù)字串,這是一種配合式的聲紋識(shí)別模式祸穷,需要讀出app或者其它客戶端生成的6位或8位數(shù)字串性穿,也可以結(jié)合語音識(shí)別技術(shù)(ASR)判斷讀的數(shù)字串是否正確。目前文本半相關(guān)的聲紋識(shí)別模式在生活中接觸到的最多雷滚,許多銀行類的APP需曾,以及微信和支付寶聲紋識(shí)別都采用的這種方式,方便讀、識(shí)別率也高呆万。所以很多APP上的聲紋識(shí)別身份認(rèn)證一般都采用一對(duì)一的隨機(jī)數(shù)字串商源。
文本無關(guān):指的是沒有文本規(guī)定,沒有語言限制谋减,只需要有某人的聲音牡彻,就可以進(jìn)行聲紋識(shí)別,有一種場(chǎng)景是需要知道某段音頻說話人的身份出爹,但是音頻是隨機(jī)說的一些內(nèi)容庄吼,需要對(duì)這些音頻進(jìn)行聲紋識(shí)別,這種就是文本無關(guān)的識(shí)別方式严就。像警方的需求就比較多一些霸褒,因?yàn)榫娇梢阅玫胶芏喟讣嘘P(guān)鍵性的音頻,需要判斷音頻人的身份盈蛮。以及在電話端的無感知聲紋識(shí)別,不管電話里在說什么內(nèi)容技矮,都可以進(jìn)行識(shí)別抖誉,判斷對(duì)方的身份。
當(dāng)然衰倦,只有進(jìn)行了聲紋注冊(cè)袒炉,才能通過以上的聲紋識(shí)別模式進(jìn)行聲紋確認(rèn)(一對(duì)一)或身份辨認(rèn)(一對(duì)多)。
三樊零, 指標(biāo)
聲紋識(shí)別的指標(biāo)主要分為性能指標(biāo)和效果指標(biāo)(其實(shí)就是有個(gè)人工智能的影響因素算力和算法的效果)我磁,下面按照應(yīng)用場(chǎng)景的分類介紹。
1. 一對(duì)一
1)效果指標(biāo):一對(duì)一的聲紋識(shí)別測(cè)試主要有兩個(gè)指標(biāo)驻襟,分別是錯(cuò)誤接受率(FAR)和錯(cuò)誤拒絕率(FRR)夺艰。
錯(cuò)誤接受率(FAR)=被錯(cuò)誤接受的樣本數(shù)/應(yīng)被拒絕的樣本數(shù)*100%
將錯(cuò)誤人的聲音誤認(rèn)為是當(dāng)前注冊(cè)人的聲音,聲紋識(shí)別成功沉衣。
錯(cuò)誤拒絕率(FRR)=被錯(cuò)誤拒絕的樣本數(shù)/應(yīng)被接受的樣本數(shù)*100%
將正確人的聲音誤認(rèn)為不是當(dāng)前注冊(cè)的聲音郁副,聲紋識(shí)別錯(cuò)誤。
當(dāng)錯(cuò)誤接受率(FAR)等于錯(cuò)誤拒絕率(FRR)時(shí)豌习,稱為等錯(cuò)誤率(EER)存谎。
FAR和FRR是此消彼長的兩個(gè)數(shù)值,隨著FAR值的上升肥隆,F(xiàn)RR值將下降既荚;隨著FAR值得下降,F(xiàn)RR值將上升栋艳。在坐標(biāo)軸中恰聘,兩條曲線會(huì)有一個(gè)交點(diǎn),此交點(diǎn)就是EER的值,次圖標(biāo)曲線稱作ROC曲線憨琳,感興趣的朋友可以自行搜索了解诫钓。
FAR和FRR的值在實(shí)際應(yīng)用中是可調(diào)節(jié)的,通過調(diào)節(jié)得分閾值來控制FAR和FRR的值篙螟,按照百分制舉例菌湃,當(dāng)閾值設(shè)置在80分,只有音頻得分在80分以上遍略,才判定此音頻是某人的聲音惧所;當(dāng)閾值設(shè)置為60分時(shí),在得分60分以上的音頻判定為是某人的聲音绪杏,很明顯80分閾值的FRR比60分的FRR的值高(數(shù)值高代表效果不好)下愈,則相應(yīng)的80分的FAR值低。但并不是閾值設(shè)置的越高越好蕾久,也要根據(jù)實(shí)際應(yīng)用場(chǎng)景設(shè)置势似,例如在金融領(lǐng)域,對(duì)于安全性的要求很高僧著,則可以使FAR的值非常低(金融行業(yè)聲紋指標(biāo)要求:隨機(jī)數(shù)字串一對(duì)一識(shí)別履因,F(xiàn)AR=0.5%,FRR≤3%,對(duì)于目前的聲紋識(shí)別技術(shù)盹愚,已經(jīng)是很高的指標(biāo)要求)栅迄,這樣確保安全。寧可識(shí)別錯(cuò)自己皆怕,也不讓別人識(shí)別成自己毅舆,避免識(shí)別錯(cuò)誤造成巨大的損失。在聲紋識(shí)別打卡的情況下愈腾,就可以把FRR的值設(shè)置低一些憋活,即可以更大概率的識(shí)別出自己,而不是拒絕自己虱黄,這樣方便進(jìn)行打卡余掖。
2)性能指標(biāo):對(duì)于聲紋識(shí)別的一對(duì)一的性能測(cè)試,當(dāng)用戶開始進(jìn)行聲紋識(shí)別到返回識(shí)別結(jié)果的時(shí)間礁鲁。
聲紋識(shí)別一對(duì)一的性能測(cè)試盐欺,不隨著注冊(cè)用戶數(shù)量的增大而改變,主要和服務(wù)器的配置有關(guān)仅醇,一般響應(yīng)時(shí)間都是小于1s的冗美。
2. 一對(duì)多
1)效果指標(biāo):一對(duì)多的聲紋識(shí)別效果指標(biāo)主要是準(zhǔn)確率,在一定的注冊(cè)用戶數(shù)下(1w 10w 50w 100w 200w 500w)析二,得到top1粉洼,top3节预,top5的準(zhǔn)確率。隨著注冊(cè)用戶數(shù)的增加属韧,正確率呈下降趨勢(shì)安拟。
2)性能指標(biāo):一對(duì)多場(chǎng)景下的性能測(cè)試跟聲紋注冊(cè)的用戶數(shù)有著密切的關(guān)系,隨著注冊(cè)用戶數(shù)的增加宵喂,性能數(shù)據(jù)下降糠赦。當(dāng)前市場(chǎng)上數(shù)據(jù)量大的在百萬左右,確保一對(duì)一百萬的聲紋識(shí)別響應(yīng)時(shí)間在2s以內(nèi)锅棕,即可商用拙泽。
四. 技術(shù)邊界
聲紋識(shí)別目前在生活場(chǎng)景中應(yīng)用比較少,主要是受到一些自身技術(shù)以及實(shí)際場(chǎng)景中的因素影響裸燎。主要有以下三個(gè)方向的影響:
1. 技術(shù)方面
1)跨信道識(shí)別
聲紋識(shí)別的跨信道情景有兩種顾瞻,一種是設(shè)備之間的跨信道,一種是音頻采樣率不同導(dǎo)致的跨信道德绿。
設(shè)備之間跨信道:我們?cè)诓杉暭y注冊(cè)音頻和驗(yàn)證音頻時(shí)荷荤,如果用的設(shè)備不一樣,會(huì)出現(xiàn)跨信道的情況移稳,比如用不同的手機(jī)蕴纳,不同的采音設(shè)備都會(huì)影響到聲紋識(shí)別的準(zhǔn)確性。
采樣率之間跨信道:不同的音頻采樣率聲紋識(shí)別效果不同秒裕,聲紋識(shí)別的音頻采樣率一般是8k和16k。如果聲紋注冊(cè)用的是8k采樣率的音頻钞啸,聲紋驗(yàn)證時(shí)是16k采樣率的音頻几蜻,會(huì)對(duì)識(shí)別結(jié)果有一定的影響。
跨信道識(shí)別在真實(shí)的生活場(chǎng)景中是不可避免的体斩,對(duì)聲紋識(shí)別效果有一定的影響梭稚。所以解決跨信道問題,是聲紋識(shí)別技術(shù)得到廣泛應(yīng)用的一個(gè)前提絮吵。
2)音頻噪聲
在實(shí)際的生活場(chǎng)景中弧烤,我們?cè)谧?cè)或者識(shí)別時(shí),身邊的環(huán)境可能會(huì)很嘈雜蹬敲,音頻中有或多或少的噪聲暇昂,會(huì)對(duì)聲紋識(shí)別造成影響,在環(huán)境不確定的情況下伴嗡,聲紋識(shí)別的驗(yàn)證準(zhǔn)確率也是不能保證的急波, 受到環(huán)境的影響。
3)多人場(chǎng)景
聲紋識(shí)別主要是確認(rèn)或辨認(rèn)一個(gè)人的身份瘪校,但是當(dāng)音頻中同時(shí)出現(xiàn)多個(gè)人的聲音時(shí)澄暮,會(huì)對(duì)聲紋識(shí)別有很大的影響名段,多人的聲音混在一起很難識(shí)別出來。在現(xiàn)實(shí)生活中泣懊,有些場(chǎng)景的音頻中含有多人的聲音伸辟,例如在公安的場(chǎng)景中,拿到的音頻可能會(huì)有很多人的聲音馍刮,會(huì)對(duì)識(shí)別準(zhǔn)確率有很大的影響信夫。
2. 人自身方面
1)時(shí)變
隨著人年齡的不斷增大,聲音也會(huì)隨著年齡的增加而改變渠退,一個(gè)人從小到大忙迁,聲音會(huì)發(fā)生多次的變化。如果聲紋注冊(cè)和聲紋驗(yàn)證的時(shí)間間隔比較久碎乃,則識(shí)別準(zhǔn)確率相比時(shí)間間隔短的識(shí)別準(zhǔn)確率要低一些姊扔,因?yàn)殡S著時(shí)間的變化,聲音也發(fā)生了變化梅誓,準(zhǔn)確率就會(huì)下降恰梢。
2)身體狀況
當(dāng)在感冒生病的情況下,人的聲音會(huì)發(fā)生變化梗掰,和原來的聲音有一定的差異嵌言,這時(shí)候聲紋識(shí)別的準(zhǔn)確率就會(huì)下降,聲紋識(shí)別是根據(jù)人的一些聲音特征來判斷的及穗,這些特征發(fā)生了改變摧茴,整體的識(shí)別結(jié)果就會(huì)發(fā)生改變,人也會(huì)時(shí)常出現(xiàn)生病感冒的情況埂陆,生病之后嗓子會(huì)變啞苛白,這樣會(huì)影響聲紋識(shí)別的結(jié)果。
3)發(fā)音的方式
有些人會(huì)用聲音模仿他人的聲音焚虱,购裙,當(dāng)用模仿的聲音進(jìn)行聲紋識(shí)別時(shí),會(huì)對(duì)識(shí)別準(zhǔn)確率有很大的影響鹃栽。還有在不同場(chǎng)景躏率,說話的語速,音量民鼓,語氣都不同薇芝,對(duì)聲紋識(shí)別也是會(huì)有一定的影響。
3. 聲紋攻擊
聲紋識(shí)別主要是用來對(duì)于某人身份的確認(rèn)或辨認(rèn)丰嘉,所以會(huì)出現(xiàn)偽冒聲音識(shí)別的情況恩掷,可以通過多種方式用偽冒的聲音攻擊聲紋技術(shù),例如語音合成供嚎,音色轉(zhuǎn)換黄娘,模仿音峭状,錄音等。目前聲紋識(shí)別在放偽冒攻擊上需要下一定的功夫逼争,但是當(dāng)前的聲紋識(shí)別技術(shù)优床,對(duì)于攻擊的預(yù)防程度不夠,整體安全性不高誓焦。
五. 應(yīng)用需求
當(dāng)前聲紋識(shí)別技術(shù)需求最多且容易落地的就是金融行業(yè)銀行app胆敞,16K隨機(jī)數(shù)字串一對(duì)一的場(chǎng)景。且在18年10月9日杂伟,《移動(dòng)金融基于聲紋識(shí)別的安全應(yīng)用技術(shù)規(guī)范》(JR/T 0164—2018)金融行業(yè)標(biāo)準(zhǔn)由中國人民銀行正式發(fā)布移层。進(jìn)一步促進(jìn)金融行業(yè)對(duì)于聲紋識(shí)別技術(shù)的認(rèn)可。且銀行app 這種應(yīng)用場(chǎng)景相對(duì)簡(jiǎn)單赫粥,容易落地观话。還有一個(gè)場(chǎng)景是電話端無感知的聲紋識(shí)別,在通話過程中越平,通過電話中的音頻進(jìn)行聲紋識(shí)別频蛔,8K文本無關(guān)一對(duì)一或者一對(duì)多的場(chǎng)景,這個(gè)需求還是比較多的秦叛,但是當(dāng)前的聲紋識(shí)別技術(shù)并不能很好的滿足這些需求晦溪,8K文本無關(guān)的聲紋識(shí)別技術(shù)準(zhǔn)確率還是比較低的,且受到環(huán)境等各方面的影響挣跋,當(dāng)前還不能滿足這種場(chǎng)景需求三圆。
下面的應(yīng)用場(chǎng)景是在項(xiàng)目中遇到比較多的一些需求,具體如下:
六. 生物特征識(shí)別技術(shù)的對(duì)比
生物識(shí)別技術(shù)是指通過對(duì)人體各個(gè)部位的識(shí)別避咆,驗(yàn)證某個(gè)人身份的技術(shù)舟肉。目前主要有指紋識(shí)別,虹膜識(shí)別牌借,人臉識(shí)別度气,靜脈識(shí)別割按,聲紋識(shí)別等膨报。每種技術(shù)都有自己的利弊,主要講一下聲紋識(shí)別技術(shù)和人臉識(shí)別技術(shù)的區(qū)別适荣。
人臉識(shí)別是這幾年比較火的生物特征識(shí)別技術(shù)现柠,且已經(jīng)應(yīng)用于各種各樣的應(yīng)用場(chǎng)景中,那目前的聲紋識(shí)別技術(shù)和很火的人臉識(shí)別技術(shù)相比弛矛,有什么不同呢够吩,或者有什么優(yōu)勢(shì)呢?
首先聲紋識(shí)別是支持遠(yuǎn)場(chǎng)景識(shí)別的丈氓,比如電話端無感知的聲紋識(shí)別周循,這點(diǎn)是人臉識(shí)別技術(shù)或者其他識(shí)別技術(shù)不能支持的强法,是聲紋識(shí)別獨(dú)有的特色。那除了遠(yuǎn)場(chǎng)景湾笛,在近場(chǎng)的識(shí)別中饮怯,聲紋識(shí)別有什么優(yōu)勢(shì)呢?或者有哪些場(chǎng)景可以替代很火的人臉識(shí)別嗎嚎研?最近疫情嚴(yán)重蓖墅,大家都帶著口罩,但是很多場(chǎng)景都需要進(jìn)行身份認(rèn)證临扮,摘口罩不是很安全论矾,這時(shí)候就可以用到聲紋識(shí)別技術(shù),不需要摘口罩杆勇。還有在電梯中贪壳,有些電梯是需要身份認(rèn)真才能到相應(yīng)的樓層,有些就有人臉識(shí)別的電梯靶橱,但是就會(huì)涉及到身高的問題寥袭,設(shè)置高了,小孩識(shí)別不到关霸。設(shè)置低了传黄,大人要彎腰,體驗(yàn)不是很好队寇。這時(shí)候就體現(xiàn)出聲紋識(shí)別的優(yōu)勢(shì)膘掰,不受到位置地域的限制,可以使用聲紋識(shí)別佳遣,大人小孩在電梯里通過聲紋控制都可以控制電梯识埋,這也是聲紋識(shí)別的優(yōu)勢(shì)。
七. 聲紋識(shí)別廠商
目前有一些專做聲紋識(shí)別技術(shù)的廠商零渐,探索聲紋識(shí)別技術(shù)的應(yīng)用場(chǎng)景窒舟。
得意音通:得意音通算是聲紋識(shí)別技術(shù)的頭部?中國人民銀行發(fā)布的《移動(dòng)金融基于聲紋識(shí)別的安全應(yīng)用技術(shù)規(guī)范》是在得意音通的參與下一起設(shè)定發(fā)布的诵盼。得意音通也是第一家獲得聲紋識(shí)別技術(shù)的“金融科技產(chǎn)品認(rèn)證證書”企業(yè)惠豺。毋庸置疑,當(dāng)前得意音通的聲紋識(shí)別技術(shù)和產(chǎn)品也是頂尖的风宁。
快商通:快商通也是一家做聲紋識(shí)別技術(shù)的企業(yè)洁墙,具體詳情不是很清楚。
遠(yuǎn)鑒科技:遠(yuǎn)鑒科技也是一家聲紋識(shí)別廠商戒财,主要針對(duì)安防行業(yè)热监,金融行業(yè)涉及比較少。
以及還有科大訊飛饮寞,聲揚(yáng)孝扛,國音列吼,接通華聲等廠商也有聲紋技術(shù)。但是互聯(lián)網(wǎng)大廠目前還沒有入場(chǎng)苦始,可能目前落地應(yīng)用情況不好冈欢,變現(xiàn)能力差,技術(shù)成熟度不高盈简。