2018年1月揖曾,一檔“創(chuàng)新中國(guó)”節(jié)目登錄熒屏落萎。整檔節(jié)目配音是通過(guò)人工智能技術(shù)合成亥啦,再現(xiàn)已逝世的原央視著名播音員李易老師的“聲音”。
記得第一次看到這個(gè)視頻翔脱,聽到視頻里的聲音,是不是很神奇媒鼓?后來(lái)請(qǐng)教公司技術(shù)大牛届吁,原來(lái)這款A(yù)I產(chǎn)品背后,是語(yǔ)音合成TTS技術(shù)發(fā)揮著作用绿鸣。語(yǔ)音合成TTS(即Text-To-Speech疚沐,從文本到語(yǔ)音),是計(jì)算機(jī)將文本轉(zhuǎn)化為聲音朗讀出來(lái)潮模,它好比人的嘴巴亮蛔,不過(guò)不是真人在說(shuō)話而已。
語(yǔ)音合成TTS離我們生活有多遠(yuǎn)擎厢?很近究流,TTS其實(shí)已經(jīng)潛移默化的運(yùn)用到大家的生活場(chǎng)景,比如蘋果手機(jī)里的智能助手siri,高德地圖里的郭德綱/志玲姐姐迷之導(dǎo)航明垢,亦或每天手機(jī)里接到的“旁友奈籽,(香 煙、 外幣)貸款要伐偷仿?”等噓寒問(wèn)暖的電話哩簿。
TTS作為筆者日常審核業(yè)務(wù)合同時(shí),常常蹦跶出現(xiàn)的英文單詞酝静,自然引起筆者的格外關(guān)注卡骂,今天就聊聊我對(duì)TTS的理解:
一、目前TTS的主流實(shí)現(xiàn)方式
第一種形入,“拼接法”全跨,即從預(yù)先錄制的大量語(yǔ)音中,選擇所需的基本單位拼接而成亿遂。這樣的單位可以是音節(jié)浓若、音素等等。為了追求合成語(yǔ)音的連貫性蛇数,也常常使用雙音子(從一個(gè)音素的中央到下一個(gè)音素的中央)作為單位挪钓。如果使用法律人熟悉的例子,就像咱們國(guó)家刑法里有款“變?cè)熵泿抛铩倍耍褪菍⒄鎺挪捎猛谘a(bǔ)碌上、剪貼、揭層浦徊、拼湊馏予、涂改等方法進(jìn)行加工處理,改變貨幣的真實(shí)形狀增加紙幣的數(shù)量盔性。雖然也是造假霞丧,但底層模子(聲音/紙幣)還是“真的”,只是拼接成你想要的東西冕香。拼接法的優(yōu)點(diǎn)是聲音真度高蛹尝,但成本大,活兒累人悉尾,比如上面李易老師的聲音再現(xiàn)視頻突那。
第二種,“參數(shù)法”构眯,基于參數(shù)的語(yǔ)音合成系統(tǒng)愕难。它其實(shí)是一個(gè)文本抽象成語(yǔ)音學(xué)特征,再用統(tǒng)計(jì)學(xué)模型學(xué)習(xí)出來(lái)語(yǔ)音學(xué)特征和其聲學(xué)特征的對(duì)應(yīng)關(guān)系后,再?gòu)念A(yù)測(cè)出來(lái)的聲學(xué)特征還原成波形( waveform )的過(guò)程务漩。核心是個(gè)預(yù)測(cè)問(wèn)題拄衰,有若干統(tǒng)計(jì)模型可以解決,目前主流是用神經(jīng)網(wǎng)絡(luò)用來(lái)預(yù)測(cè)饵骨。然后用聲碼器 (vocoder) 生成波形翘悉,實(shí)現(xiàn)特征到 waveform 這最后一步。
這種技術(shù)比起第一種“拼接法”居触,難度提升了不少level妖混。還是拿刑法罪名類比,有些類似“偽造貨幣”行為轮洋,即“仿照貨幣的形狀制市、色彩、圖案等特征弊予,使用各種方法非法制造出外觀上足以亂真的假貨幣”祥楣。本質(zhì)上,基于參數(shù)合成的語(yǔ)音根本不是真正人聲汉柒,但是聽上去很像误褪。當(dāng)然參數(shù)法也有明顯缺點(diǎn),因?yàn)槭苤朴诎l(fā)聲算法碾褂,會(huì)有音損兽间,一聽往往能辨認(rèn)出是冒牌貨。
現(xiàn)在還有第三種正塌,就是由Google的Deepmind研究出的最新成果wavenet嘀略,一種原始音頻波形深度生成模型,能夠模擬任一一種人類聲音乓诽,最后出來(lái)的音質(zhì)細(xì)節(jié)十分豐富帜羊,基本達(dá)到了與原始語(yǔ)音類似的音質(zhì)水準(zhǔn)(所謂語(yǔ)音質(zhì)量比傳統(tǒng)技術(shù)提高50%,就是這個(gè)意思)问裕。這種技術(shù)活兒讓我想到了最近熱映的《無(wú)雙》逮壁,同樣是造假幣,主角最后找到原材料粮宛,加工合成的底板,與真幣已經(jīng)分不出真假卖宠。隨著深度學(xué)習(xí)不斷發(fā)展巍杈,算力和聲碼器難題的不斷解決,未來(lái)的TTS語(yǔ)音合成技術(shù)也會(huì)達(dá)到這一地步扛伍。
二筷畦、AI公司的法務(wù)為啥要去了解TTS技術(shù)呢?
除了自身好奇以外,對(duì)于從事NLP領(lǐng)域的科技公司鳖宾,TTS技術(shù)無(wú)疑是產(chǎn)品主線中常常會(huì)遇到的技術(shù)吼砂。無(wú)論是采購(gòu)第三方的TTS技術(shù)服務(wù),還是銷售自身TTS技術(shù)鼎文,TTS里的評(píng)判標(biāo)準(zhǔn)都會(huì)成為驗(yàn)收條款里最重要的組成部分渔肩。
TTS的評(píng)判標(biāo)準(zhǔn):
(1)主觀測(cè)試(自然度),以MOS為主拇惋。MOS(Mean Opinion Scores)周偎,專家級(jí)評(píng)測(cè)(主觀):1-5分,5分最好撑帖。ABX蓉坎,普通用戶評(píng)測(cè)(主觀),讓用戶來(lái)試聽兩個(gè)TTS系統(tǒng)胡嘿,進(jìn)行對(duì)比蛉艾,看哪個(gè)好。每次主觀測(cè)評(píng)應(yīng)該有區(qū)分衷敌,比如:這次著重聽多音字伺通,下次主要聽語(yǔ)氣詞等。(2)客觀測(cè)試逢享,對(duì)合成系統(tǒng)產(chǎn)生的聲學(xué)參數(shù)進(jìn)行評(píng)估罐监,一般是計(jì)算歐式距離等(RMSE、LSD)瞒爬。對(duì)合成系統(tǒng)工程上的測(cè)試:實(shí)時(shí)率(合成耗時(shí)/語(yǔ)音時(shí)長(zhǎng))弓柱、首包響應(yīng)時(shí)間(用戶發(fā)出請(qǐng)求到用戶感知到的第一包到達(dá)時(shí)間)、內(nèi)存占用侧但、CPU占用矢空、3*24小時(shí)崩潰率(crash)等。
三禀横、Wavenet除了生成語(yǔ)言屁药,還能生成什么?
由于WaveNet能夠用來(lái)模擬任何一種音頻信號(hào)柏锄,嘗試用WaveNet生成音樂(lè)也將很好玩酿箭。比如當(dāng)我們采用一個(gè)古典鋼琴曲數(shù)據(jù)集來(lái)訓(xùn)練WaveNet時(shí),它將生成一曲美妙樂(lè)章趾娃。
WaveNets將為TTS帶來(lái)無(wú)數(shù)可能缭嫡,大體上來(lái)講,有生成音樂(lè)和模擬音頻兩類抬闷。事實(shí)上妇蛀,直接運(yùn)用深度神經(jīng)網(wǎng)絡(luò)一個(gè)時(shí)間步長(zhǎng)一個(gè)時(shí)間步長(zhǎng)地生成音樂(lè)耕突,這種方法適用于所有16kHZ音頻,這將是非常令人驚喜的评架。
一個(gè)”彩蛋“
2016年眷茁,索尼的工程師利用Flow Machines軟件對(duì)13000首流行歌曲進(jìn)行分析后,由人工智能技術(shù)生成出一首新的旋律纵诞,然后由作曲家Benoit Carre進(jìn)行總結(jié)并譜曲上祈,他并沒(méi)有改變這首“新歌”的旋律,而只是負(fù)責(zé)改造成不同的風(fēng)格流派挣磨。
而第一首人工智能創(chuàng)作的歌曲被命名為“Daddys Car”雇逞,經(jīng)過(guò)配樂(lè)后頗具披頭士的風(fēng)格。
至少茁裙,我刷新了幾遍塘砸,已能邊聽邊哼哼了~