谷歌Tacotron進(jìn)展：使用文字合成的語音更加自然

Google研究所一直在探索讓機(jī)器合成語音更加自然的方法。Machine Perception、Google Brain和 TTS Research近日在博客中宣布蕴掏，他們找到了讓語音更具表現(xiàn)力的方法。以下為博客的原文翻譯。

在谷歌休建，我們最近在使用神經(jīng)網(wǎng)絡(luò)進(jìn)行TTS（文字轉(zhuǎn)語音）的研究中進(jìn)展很快，我們?yōu)榇烁械叫老财懒啤Ｌ貏e是测砂，我們?nèi)ツ晷嫉?a target="_blank" rel="nofollow">Tacotron系統(tǒng)等端到端架構(gòu)，它們既可以簡(jiǎn)化語音構(gòu)建管道百匆，也可以產(chǎn)生聽起來很自然的講話聲砌些。這種進(jìn)步未來會(huì)幫助我們建立更好的人機(jī)界面，如會(huì)話助理，有聲讀物的敘述存璃，新聞閱讀器或語音設(shè)計(jì)軟件仑荐。然而，要提供真的像人一樣的聲音纵东，TTS系統(tǒng)必須學(xué)會(huì)模仿韻律（prosody）粘招，演講富有表現(xiàn)力的?各種因素的集合，如語調(diào)偎球，重讀和節(jié)奏男图。包括Tacotron在內(nèi)的大多數(shù)當(dāng)前端到端系統(tǒng)都沒有明確地對(duì)此建模，這意味著它們無法精確控制生成的語音應(yīng)該如何發(fā)音甜橱。這可能會(huì)使說話聲音單調(diào)逊笆，即使模型在非常富有表現(xiàn)力的數(shù)據(jù)集（如有聲讀物，這種數(shù)據(jù)集包含的聲音岂傲，往往隨演講者演講內(nèi)容含義而變化）上訓(xùn)練也無濟(jì)于事难裆。如今，我們很高興與大家分享解決這些問題的兩篇新論文镊掖。

我們的第一篇論文“ Towards End-to-End Prosody Transfer for Expressive Speech Synthesis with Tacotron?”引入了韻律嵌入（prosody embedding）的概念乃戈。我們?cè)赥acotron架構(gòu)中增加了從人類語音片段（參考音頻）計(jì)算低維嵌入的韻律編碼器。

圖的下半部分是原始的Tacotron的seq2seq模型亩进。

這種嵌入捕捉音頻的特征症虑，這些特征獨(dú)立于語音信息和獨(dú)特的說話者特征，他們包括重讀归薛，語調(diào)和語速谍憔。在推理時(shí)，我們可以使用這種嵌入來執(zhí)行韻律的遷移主籍，以生成完全不同的演講者的聲音來產(chǎn)生話語习贫，并且在此展現(xiàn)參考音頻的韻律。

嵌入也可以將時(shí)序幾乎一致的韻律從一個(gè)短語遷移到稍微不同的短語千元。當(dāng)然苫昌，只有當(dāng)參考短語和目標(biāo)短語的長(zhǎng)度和結(jié)構(gòu)相似時(shí)，這個(gè)技術(shù)的效果才最好幸海。

令人激動(dòng)的是祟身，即使當(dāng)參考音頻并不來自Tacotron訓(xùn)練數(shù)據(jù)中的說話者時(shí)，我們也會(huì)觀察到韻律傳遞物独。

這是一個(gè)很有前景的研究結(jié)果袜硫，它為語音交互設(shè)計(jì)者提供了一種使用他們自己的語音來定制語音合成的方法。你可以在下方鏈接中收聽論文中完整的音頻演示集?议纯。

音頻：https://google.github.io/tacotron/publications/end_to_end_prosody_transfer/

盡管這種方法可以高保真的遷移韻律父款，但這種嵌入并不能完全解析參考音頻片段內(nèi)容的韻律。（這解釋了為什么它們只能講韻律最好地遷移到具有相似結(jié)構(gòu)和長(zhǎng)度的短語）。此外憨攒，它們需要在推斷時(shí)提供參考音頻的片段世杀。那么我們自然會(huì)有這樣的疑問：我們能否建立一種能緩解這些問題的富有表現(xiàn)力的演講模型來？

在我們的第二篇論文肝集，“Style Tokens: Unsupervised Style Modeling, Control and Transfer in

End-to-End Speech Synthesis “中瞻坝，我們就是這么做的⌒诱埃基于我們第一篇論文的架構(gòu)所刀，我們提出了一種新的無監(jiān)督方法來建模演講潛在的因素。這種模式的關(guān)鍵在于捞挥，它不再學(xué)習(xí)時(shí)序一致的韻律元素浮创，而是學(xué)習(xí)可以通過任意不同的短語轉(zhuǎn)移的更高級(jí)的說話風(fēng)格模式。

這個(gè)模型的工作原理是給Tacotron增加一個(gè)額外的注意機(jī)制砌函，強(qiáng)制它將任何語音片段的韻律嵌入表示為一組固定的基于嵌入的線性組合斩披。我們稱這些嵌入稱為全局風(fēng)格符號(hào)（Global Style Tokens，GST）讹俊，它用來發(fā)現(xiàn)他們?cè)谘葜v者的風(fēng)格中學(xué)習(xí)了與文本無關(guān)的變化（柔和垦沉，高亢，激烈等）仍劈，而不需要明確的樣式標(biāo)簽厕倍。

GST模型架構(gòu)。韻律嵌入被分解為“風(fēng)格符號(hào)”贩疙，以實(shí)現(xiàn)無監(jiān)督的風(fēng)格控制和遷移讹弯。

在推理時(shí)，我們可以選擇或修改符號(hào)（tokens）的組合權(quán)重屋群，使我們能夠強(qiáng)制Tacotron使用特定的講話風(fēng)格闸婴，而無需參考音頻片段。例如芍躏，使用GST，我們可以使不同長(zhǎng)度的句子聽起來更“活潑”降狠，“憤怒”对竣，“悲痛”等等。

GST的獨(dú)立于文本的特性使它們成為風(fēng)格遷移的理想選擇榜配，它采用以特定風(fēng)格說出的參考音頻剪輯否纬，并將其風(fēng)格轉(zhuǎn)移到我們選擇的任何目標(biāo)短語。為此蛋褥，我們首先運(yùn)行推理來預(yù)測(cè)我們想要模仿的話語的GST組合權(quán)重临燃。然后，我們可以將這些組合權(quán)重提供給模型，以相同風(fēng)格合成完全不同的短語膜廊，即使短語的長(zhǎng)度和結(jié)構(gòu)差異很大乏沸。

最后，我們的論文表明爪瓜，GST不可以建模的不僅僅是說話風(fēng)格蹬跃。當(dāng)它受到來自未標(biāo)記的說話者的嘈雜音頻（來自YouTube）的訓(xùn)練時(shí)，啟用了GST的Tacotron學(xué)會(huì)了用單獨(dú)的符號(hào)表示噪聲源和不同的說話者铆铆。也就是說蝶缀，通過選擇我們用于推理的GST，我們可以合成無背景噪聲的語音薄货，或者合成一個(gè)數(shù)據(jù)集中特定的沒有標(biāo)記的說話者的聲音翁都。這為高度可擴(kuò)展并具有魯棒性的語音合成開辟了道路

音頻：https://google.github.io/tacotron/publications/global_style_tokens/

我們對(duì)這兩項(xiàng)研究主體所帶來的應(yīng)用潛力和前景感到興奮。同時(shí)谅猾，也有一些新的重要研究問題亟待解決荐吵。我們希望擴(kuò)展第一篇論文的技巧，以支持在目標(biāo)說話者自然音高范圍內(nèi)進(jìn)行韻律遷移赊瞬。我們還希望開發(fā)一種從上下文自動(dòng)選擇適當(dāng)韻律或說話風(fēng)格的技術(shù)先煎。例如，將自然語言理解與TTS進(jìn)行集成巧涧。最后薯蝎，雖然我們的第一篇論文提出了一套初步的客觀和主觀的韻律遷移度指標(biāo)，但我們希望進(jìn)一步完善它們谤绳，以建立公認(rèn)的韻律評(píng)估方法占锯。

本文為編譯作品，轉(zhuǎn)載請(qǐng)注明出處缩筛。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末消略，一起剝皮案震驚了整個(gè)濱河市，隨后出現(xiàn)的幾起案子瞎抛，更是在濱河造成了極大的恐慌艺演，老刑警劉巖，帶你破解...
沈念sama閱讀 216,372評(píng)論 6贊 498
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件桐臊，死亡現(xiàn)場(chǎng)離奇詭異胎撤，居然都是意外死亡，警方通過查閱死者的電腦和手機(jī)断凶，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 92,368評(píng)論 3贊 392
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門伤提，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人认烁，你說我怎么就攤上這事肿男〗樾冢” “怎么了？”我有些...
開封第一講書人閱讀 162,415評(píng)論 0贊 353
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵舶沛，是天一觀的道長(zhǎng)嘹承。經(jīng)常有香客問我，道長(zhǎng)冠王，這世上最難降的妖魔是什么赶撰？我笑而不...
開封第一講書人閱讀 58,157評(píng)論 1贊 292
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮柱彻，結(jié)果婚禮上豪娜，老公的妹妹穿的比我還像新娘。我一直安慰自己哟楷，他們只是感情好瘤载，可當(dāng)我...
茶點(diǎn)故事閱讀 67,171評(píng)論 6贊 388
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著卖擅，像睡著了一般鸣奔。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上惩阶，一...
開封第一講書人閱讀 51,125評(píng)論 1贊 297
城市分裂傳說
那天挎狸，我揣著相機(jī)與錄音，去河邊找鬼断楷。笑死锨匆，一個(gè)胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的冬筒。我是一名探鬼主播恐锣，決...
沈念sama閱讀 40,028評(píng)論 3贊 417
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長(zhǎng)吁一口氣：“原來是場(chǎng)噩夢(mèng)啊……” “哼舞痰！你這毒婦竟也來了土榴？” 一聲冷哼從身側(cè)響起，我...
開封第一講書人閱讀 38,887評(píng)論 0贊 274
萬榮殺人案實(shí)錄
序言：老撾萬榮一對(duì)情侶失蹤响牛，失蹤者是張志新（化名）和其女友劉穎玷禽，沒想到半個(gè)月后，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體娃善，經(jīng)...
沈念sama閱讀 45,310評(píng)論 1贊 310
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡论衍，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,533評(píng)論 2贊 332
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了聚磺。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點(diǎn)故事閱讀 39,690評(píng)論 1贊 348
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡炬丸，死狀恐怖瘫寝，靈堂內(nèi)的尸體忽然破棺而出蜒蕾，到底是詐尸還是另有隱情，我是刑警寧澤焕阿，帶...
沈念sama閱讀 35,411評(píng)論 5贊 343
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布咪啡，位于F島的核電站，受9級(jí)特大地震影響暮屡，放射性物質(zhì)發(fā)生泄漏撤摸。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,004評(píng)論 3贊 325
男人毒藥：我在死后第九天來索命
文/蒙蒙一褒纲、第九天我趴在偏房一處隱蔽的房頂上張望准夷。院中可真熱鬧，春花似錦莺掠、人聲如沸衫嵌。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,659評(píng)論 0贊 22
一樁弒父案彻秆，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽楔绞。三九已至，卻和暖如春唇兑，著一層夾襖步出監(jiān)牢的瞬間酒朵，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 32,812評(píng)論 1贊 268
情欲美人皮
我被黑心中介騙來泰國打工扎附，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留蔫耽，地道東北人。一個(gè)月前我還...
沈念sama閱讀 47,693評(píng)論 2贊 368
代替公主和親
正文我出身青樓帕棉，卻偏偏與公主長(zhǎng)得像针肥，于是被迫代替她去往敵國和親。傳聞我的和親對(duì)象是個(gè)殘疾皇子香伴，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 44,577評(píng)論 2贊 353

谷歌Tacotron進(jìn)展：使用文字合成的語音更加自然

推薦閱讀更多精彩內(nèi)容