Google研究所一直在探索讓機(jī)器合成語音更加自然的方法。Machine Perception、Google Brain和 TTS Research近日在博客中宣布蕴掏,他們找到了讓語音更具表現(xiàn)力的方法。以下為博客的原文翻譯。
在谷歌休建,我們最近在使用神經(jīng)網(wǎng)絡(luò)進(jìn)行TTS(文字轉(zhuǎn)語音)的研究中進(jìn)展很快,我們?yōu)榇烁械叫老财懒啤L貏e是测砂,我們?nèi)ツ晷嫉?a target="_blank" rel="nofollow">Tacotron系統(tǒng)等端到端架構(gòu),它們既可以簡(jiǎn)化語音構(gòu)建管道百匆,也可以產(chǎn)生聽起來很自然的講話聲砌些。這種進(jìn)步未來會(huì)幫助我們建立更好的人機(jī)界面,如會(huì)話助理,有聲讀物的敘述存璃,新聞閱讀器或語音設(shè)計(jì)軟件仑荐。然而,要提供真的像人一樣的聲音纵东,TTS系統(tǒng)必須學(xué)會(huì)模仿韻律(prosody)粘招,演講富有表現(xiàn)力的?各種因素的集合,如語調(diào)偎球,重讀和節(jié)奏男图。包括Tacotron在內(nèi)的大多數(shù)當(dāng)前端到端系統(tǒng)都沒有明確地對(duì)此建模,這意味著它們無法精確控制生成的語音應(yīng)該如何發(fā)音甜橱。這可能會(huì)使說話聲音單調(diào)逊笆,即使模型在非常富有表現(xiàn)力的數(shù)據(jù)集(如有聲讀物,這種數(shù)據(jù)集包含的聲音岂傲,往往隨演講者演講內(nèi)容含義而變化)上訓(xùn)練也無濟(jì)于事难裆。如今,我們很高興與大家分享解決這些問題的兩篇新論文镊掖。
我們的第一篇論文“ Towards End-to-End Prosody Transfer for Expressive Speech Synthesis with Tacotron?”引入了韻律嵌入(prosody embedding)的概念乃戈。我們?cè)赥acotron架構(gòu)中增加了從人類語音片段(參考音頻)計(jì)算低維嵌入的韻律編碼器。
圖的下半部分是原始的Tacotron的seq2seq模型亩进。
這種嵌入捕捉音頻的特征症虑,這些特征獨(dú)立于語音信息和獨(dú)特的說話者特征,他們包括重讀归薛,語調(diào)和語速谍憔。在推理時(shí),我們可以使用這種嵌入來執(zhí)行韻律的遷移主籍,以生成完全不同的演講者的聲音來產(chǎn)生話語习贫,并且在此展現(xiàn)參考音頻的韻律。
嵌入也可以將時(shí)序幾乎一致的韻律從一個(gè)短語遷移到稍微不同的短語千元。當(dāng)然苫昌,只有當(dāng)參考短語和目標(biāo)短語的長(zhǎng)度和結(jié)構(gòu)相似時(shí),這個(gè)技術(shù)的效果才最好幸海。
令人激動(dòng)的是祟身,即使當(dāng)參考音頻并不來自Tacotron訓(xùn)練數(shù)據(jù)中的說話者時(shí),我們也會(huì)觀察到韻律傳遞物独。
這是一個(gè)很有前景的研究結(jié)果袜硫,它為語音交互設(shè)計(jì)者提供了一種使用他們自己的語音來定制語音合成的方法。你可以在下方鏈接中收聽論文中完整的音頻演示集?议纯。
音頻:https://google.github.io/tacotron/publications/end_to_end_prosody_transfer/
盡管這種方法可以高保真的遷移韻律父款,但這種嵌入并不能完全解析參考音頻片段內(nèi)容的韻律。(這解釋了為什么它們只能講韻律最好地遷移到具有相似結(jié)構(gòu)和長(zhǎng)度的短語)。此外憨攒,它們需要在推斷時(shí)提供參考音頻的片段世杀。那么我們自然會(huì)有這樣的疑問:我們能否建立一種能緩解這些問題的富有表現(xiàn)力的演講模型來?
在我們的第二篇論文肝集,“Style Tokens: Unsupervised Style Modeling, Control and Transfer in
End-to-End Speech Synthesis “中瞻坝,我們就是這么做的⌒诱埃基于我們第一篇論文的架構(gòu)所刀,我們提出了一種新的無監(jiān)督方法來建模演講潛在的因素。這種模式的關(guān)鍵在于捞挥,它不再學(xué)習(xí)時(shí)序一致的韻律元素浮创,而是學(xué)習(xí)可以通過任意不同的短語轉(zhuǎn)移的更高級(jí)的說話風(fēng)格模式。
這個(gè)模型的工作原理是給Tacotron增加一個(gè)額外的注意機(jī)制砌函,強(qiáng)制它將任何語音片段的韻律嵌入表示為一組固定的基于嵌入的線性組合斩披。我們稱這些嵌入稱為全局風(fēng)格符號(hào)(Global Style Tokens,GST)讹俊,它用來發(fā)現(xiàn)他們?cè)谘葜v者的風(fēng)格中學(xué)習(xí)了與文本無關(guān)的變化(柔和垦沉,高亢,激烈等)仍劈,而不需要明確的樣式標(biāo)簽厕倍。
GST模型架構(gòu)。韻律嵌入被分解為“風(fēng)格符號(hào)”贩疙,以實(shí)現(xiàn)無監(jiān)督的風(fēng)格控制和遷移讹弯。
在推理時(shí),我們可以選擇或修改符號(hào)(tokens)的組合權(quán)重屋群,使我們能夠強(qiáng)制Tacotron使用特定的講話風(fēng)格闸婴,而無需參考音頻片段。例如芍躏,使用GST,我們可以使不同長(zhǎng)度的句子聽起來更“活潑”降狠,“憤怒”对竣,“悲痛”等等。
GST的獨(dú)立于文本的特性使它們成為風(fēng)格遷移的理想選擇榜配,它采用以特定風(fēng)格說出的參考音頻剪輯否纬,并將其風(fēng)格轉(zhuǎn)移到我們選擇的任何目標(biāo)短語。為此蛋褥,我們首先運(yùn)行推理來預(yù)測(cè)我們想要模仿的話語的GST組合權(quán)重临燃。然后,我們可以將這些組合權(quán)重提供給模型,以相同風(fēng)格合成完全不同的短語膜廊,即使短語的長(zhǎng)度和結(jié)構(gòu)差異很大乏沸。
最后,我們的論文表明爪瓜,GST不可以建模的不僅僅是說話風(fēng)格蹬跃。當(dāng)它受到來自未標(biāo)記的說話者的嘈雜音頻(來自YouTube)的訓(xùn)練時(shí),啟用了GST的Tacotron學(xué)會(huì)了用單獨(dú)的符號(hào)表示噪聲源和不同的說話者铆铆。也就是說蝶缀,通過選擇我們用于推理的GST,我們可以合成無背景噪聲的語音薄货,或者合成一個(gè)數(shù)據(jù)集中特定的沒有標(biāo)記的說話者的聲音翁都。這為高度可擴(kuò)展并具有魯棒性的語音合成開辟了道路
音頻:https://google.github.io/tacotron/publications/global_style_tokens/
我們對(duì)這兩項(xiàng)研究主體所帶來的應(yīng)用潛力和前景感到興奮。同時(shí)谅猾,也有一些新的重要研究問題亟待解決荐吵。我們希望擴(kuò)展第一篇論文的技巧,以支持在目標(biāo)說話者自然音高范圍內(nèi)進(jìn)行韻律遷移赊瞬。我們還希望開發(fā)一種從上下文自動(dòng)選擇適當(dāng)韻律或說話風(fēng)格的技術(shù)先煎。例如,將自然語言理解與TTS進(jìn)行集成巧涧。最后薯蝎,雖然我們的第一篇論文提出了一套初步的客觀和主觀的韻律遷移度指標(biāo),但我們希望進(jìn)一步完善它們谤绳,以建立公認(rèn)的韻律評(píng)估方法占锯。
本文為編譯作品,轉(zhuǎn)載請(qǐng)注明出處缩筛。