2018-10-19 高德地圖里的志玲姐姐聲音,是真的咩卖毁?

2018年1月揖曾,一檔“創(chuàng)新中國(guó)”節(jié)目登錄熒屏落萎。整檔節(jié)目配音是通過(guò)人工智能技術(shù)合成亥啦,再現(xiàn)已逝世的原央視著名播音員李易老師的“聲音”。



人工智能合成逝者聲音练链,李易原音“再現(xiàn)”_騰訊視頻


記得第一次看到這個(gè)視頻翔脱,聽到視頻里的聲音,是不是很神奇媒鼓?后來(lái)請(qǐng)教公司技術(shù)大牛届吁,原來(lái)這款A(yù)I產(chǎn)品背后,是語(yǔ)音合成TTS技術(shù)發(fā)揮著作用绿鸣。語(yǔ)音合成TTS(即Text-To-Speech疚沐,從文本到語(yǔ)音),是計(jì)算機(jī)將文本轉(zhuǎn)化為聲音朗讀出來(lái)潮模,它好比人的嘴巴亮蛔,不過(guò)不是真人在說(shuō)話而已

語(yǔ)音合成TTS離我們生活有多遠(yuǎn)擎厢?很近究流,TTS其實(shí)已經(jīng)潛移默化的運(yùn)用到大家的生活場(chǎng)景,比如蘋果手機(jī)里的智能助手siri,高德地圖里的郭德綱/志玲姐姐迷之導(dǎo)航明垢,亦或每天手機(jī)里接到的“旁友奈籽,香 煙、 外幣貸款要伐偷仿?”等噓寒問(wèn)暖的電話哩簿。

TTS作為筆者日常審核業(yè)務(wù)合同時(shí),常常蹦跶出現(xiàn)的英文單詞酝静,自然引起筆者的格外關(guān)注卡骂,今天就聊聊我對(duì)TTS的理解:

一、目前TTS的主流實(shí)現(xiàn)方式

第一種形入,“拼接法”全跨,即從預(yù)先錄制的大量語(yǔ)音中,選擇所需的基本單位拼接而成亿遂。這樣的單位可以是音節(jié)浓若、音素等等。為了追求合成語(yǔ)音的連貫性蛇数,也常常使用雙音子(從一個(gè)音素的中央到下一個(gè)音素的中央)作為單位挪钓。如果使用法律人熟悉的例子,就像咱們國(guó)家刑法里有款“變?cè)熵泿抛铩倍耍褪菍⒄鎺挪捎猛谘a(bǔ)碌上、剪貼、揭層浦徊、拼湊馏予、涂改等方法進(jìn)行加工處理,改變貨幣的真實(shí)形狀增加紙幣的數(shù)量盔性。雖然也是造假霞丧,但底層模子(聲音/紙幣)還是“真的”,只是拼接成你想要的東西冕香。拼接法的優(yōu)點(diǎn)是聲音真度高蛹尝,但成本大,活兒累人悉尾,比如上面李易老師的聲音再現(xiàn)視頻突那。

第二種,“參數(shù)法”构眯,基于參數(shù)的語(yǔ)音合成系統(tǒng)愕难。它其實(shí)是一個(gè)文本抽象成語(yǔ)音學(xué)特征,再用統(tǒng)計(jì)學(xué)模型學(xué)習(xí)出來(lái)語(yǔ)音學(xué)特征和其聲學(xué)特征的對(duì)應(yīng)關(guān)系后,再?gòu)念A(yù)測(cè)出來(lái)的聲學(xué)特征還原成波形( waveform )的過(guò)程务漩。核心是個(gè)預(yù)測(cè)問(wèn)題拄衰,有若干統(tǒng)計(jì)模型可以解決,目前主流是用神經(jīng)網(wǎng)絡(luò)用來(lái)預(yù)測(cè)饵骨。然后用聲碼器 (vocoder) 生成波形翘悉,實(shí)現(xiàn)特征到 waveform 這最后一步。

這種技術(shù)比起第一種“拼接法”居触,難度提升了不少level妖混。還是拿刑法罪名類比,有些類似“偽造貨幣”行為轮洋,即“仿照貨幣的形狀制市、色彩、圖案等特征弊予,使用各種方法非法制造出外觀上足以亂真的假貨幣”祥楣。本質(zhì)上,基于參數(shù)合成的語(yǔ)音根本不是真正人聲汉柒,但是聽上去很像误褪。當(dāng)然參數(shù)法也有明顯缺點(diǎn),因?yàn)槭苤朴诎l(fā)聲算法碾褂,會(huì)有音損兽间,一聽往往能辨認(rèn)出是冒牌貨。

現(xiàn)在還有第三種正塌,就是由Google的Deepmind研究出的最新成果wavenet嘀略,一種原始音頻波形深度生成模型,能夠模擬任一一種人類聲音乓诽,最后出來(lái)的音質(zhì)細(xì)節(jié)十分豐富帜羊,基本達(dá)到了與原始語(yǔ)音類似的音質(zhì)水準(zhǔn)(所謂語(yǔ)音質(zhì)量比傳統(tǒng)技術(shù)提高50%,就是這個(gè)意思)问裕。這種技術(shù)活兒讓我想到了最近熱映的《無(wú)雙》逮壁,同樣是造假幣,主角最后找到原材料粮宛,加工合成的底板,與真幣已經(jīng)分不出真假卖宠。隨著深度學(xué)習(xí)不斷發(fā)展巍杈,算力和聲碼器難題的不斷解決,未來(lái)的TTS語(yǔ)音合成技術(shù)也會(huì)達(dá)到這一地步扛伍。

二筷畦、AI公司的法務(wù)為啥要去了解TTS技術(shù)呢?

除了自身好奇以外,對(duì)于從事NLP領(lǐng)域的科技公司鳖宾,TTS技術(shù)無(wú)疑是產(chǎn)品主線中常常會(huì)遇到的技術(shù)吼砂。無(wú)論是采購(gòu)第三方的TTS技術(shù)服務(wù),還是銷售自身TTS技術(shù)鼎文,TTS里的評(píng)判標(biāo)準(zhǔn)都會(huì)成為驗(yàn)收條款里最重要的組成部分渔肩。

TTS的評(píng)判標(biāo)準(zhǔn):

(1)主觀測(cè)試(自然度),以MOS為主拇惋。MOS(Mean Opinion Scores)周偎,專家級(jí)評(píng)測(cè)(主觀):1-5分,5分最好撑帖。ABX蓉坎,普通用戶評(píng)測(cè)(主觀),讓用戶來(lái)試聽兩個(gè)TTS系統(tǒng)胡嘿,進(jìn)行對(duì)比蛉艾,看哪個(gè)好。每次主觀測(cè)評(píng)應(yīng)該有區(qū)分衷敌,比如:這次著重聽多音字伺通,下次主要聽語(yǔ)氣詞等。(2)客觀測(cè)試逢享,對(duì)合成系統(tǒng)產(chǎn)生的聲學(xué)參數(shù)進(jìn)行評(píng)估罐监,一般是計(jì)算歐式距離等(RMSE、LSD)瞒爬。對(duì)合成系統(tǒng)工程上的測(cè)試:實(shí)時(shí)率(合成耗時(shí)/語(yǔ)音時(shí)長(zhǎng))弓柱、首包響應(yīng)時(shí)間(用戶發(fā)出請(qǐng)求到用戶感知到的第一包到達(dá)時(shí)間)、內(nèi)存占用侧但、CPU占用矢空、3*24小時(shí)崩潰率(crash)等。

三禀横、Wavenet除了生成語(yǔ)言屁药,還能生成什么?

由于WaveNet能夠用來(lái)模擬任何一種音頻信號(hào)柏锄,嘗試用WaveNet生成音樂(lè)也將很好玩酿箭。比如當(dāng)我們采用一個(gè)古典鋼琴曲數(shù)據(jù)集來(lái)訓(xùn)練WaveNet時(shí),它將生成一曲美妙樂(lè)章趾娃。

WaveNets將為TTS帶來(lái)無(wú)數(shù)可能缭嫡,大體上來(lái)講,有生成音樂(lè)和模擬音頻兩類抬闷。事實(shí)上妇蛀,直接運(yùn)用深度神經(jīng)網(wǎng)絡(luò)一個(gè)時(shí)間步長(zhǎng)一個(gè)時(shí)間步長(zhǎng)地生成音樂(lè)耕突,這種方法適用于所有16kHZ音頻,這將是非常令人驚喜的评架。

一個(gè)”彩蛋“

2016年眷茁,索尼的工程師利用Flow Machines軟件對(duì)13000首流行歌曲進(jìn)行分析后,由人工智能技術(shù)生成出一首新的旋律纵诞,然后由作曲家Benoit Carre進(jìn)行總結(jié)并譜曲上祈,他并沒(méi)有改變這首“新歌”的旋律,而只是負(fù)責(zé)改造成不同的風(fēng)格流派挣磨。

而第一首人工智能創(chuàng)作的歌曲被命名為“Daddys Car”雇逞,經(jīng)過(guò)配樂(lè)后頗具披頭士的風(fēng)格。


Daddys Car人工智能寫的歌_騰訊視頻

至少茁裙,我刷新了幾遍塘砸,已能邊聽邊哼哼了~

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市晤锥,隨后出現(xiàn)的幾起案子掉蔬,更是在濱河造成了極大的恐慌,老刑警劉巖矾瘾,帶你破解...
    沈念sama閱讀 216,544評(píng)論 6 501
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件女轿,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡壕翩,警方通過(guò)查閱死者的電腦和手機(jī)蛉迹,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,430評(píng)論 3 392
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)放妈,“玉大人北救,你說(shuō)我怎么就攤上這事∥呤悖” “怎么了珍策?”我有些...
    開封第一講書人閱讀 162,764評(píng)論 0 353
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)宅倒。 經(jīng)常有香客問(wèn)我攘宙,道長(zhǎng),這世上最難降的妖魔是什么拐迁? 我笑而不...
    開封第一講書人閱讀 58,193評(píng)論 1 292
  • 正文 為了忘掉前任蹭劈,我火速辦了婚禮,結(jié)果婚禮上唠亚,老公的妹妹穿的比我還像新娘链方。我一直安慰自己,他們只是感情好灶搜,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,216評(píng)論 6 388
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般割卖。 火紅的嫁衣襯著肌膚如雪前酿。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,182評(píng)論 1 299
  • 那天鹏溯,我揣著相機(jī)與錄音罢维,去河邊找鬼。 笑死丙挽,一個(gè)胖子當(dāng)著我的面吹牛肺孵,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播颜阐,決...
    沈念sama閱讀 40,063評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼平窘,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了凳怨?” 一聲冷哼從身側(cè)響起瑰艘,我...
    開封第一講書人閱讀 38,917評(píng)論 0 274
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎肤舞,沒(méi)想到半個(gè)月后紫新,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,329評(píng)論 1 310
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡李剖,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,543評(píng)論 2 332
  • 正文 我和宋清朗相戀三年芒率,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片篙顺。...
    茶點(diǎn)故事閱讀 39,722評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡偶芍,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出慰安,到底是詐尸還是另有隱情腋寨,我是刑警寧澤,帶...
    沈念sama閱讀 35,425評(píng)論 5 343
  • 正文 年R本政府宣布化焕,位于F島的核電站萄窜,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏撒桨。R本人自食惡果不足惜查刻,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,019評(píng)論 3 326
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望凤类。 院中可真熱鬧穗泵,春花似錦、人聲如沸谜疤。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,671評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至履肃,卻和暖如春仔沿,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背尺棋。 一陣腳步聲響...
    開封第一講書人閱讀 32,825評(píng)論 1 269
  • 我被黑心中介騙來(lái)泰國(guó)打工封锉, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人膘螟。 一個(gè)月前我還...
    沈念sama閱讀 47,729評(píng)論 2 368
  • 正文 我出身青樓成福,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親荆残。 傳聞我的和親對(duì)象是個(gè)殘疾皇子奴艾,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,614評(píng)論 2 353

推薦閱讀更多精彩內(nèi)容