語(yǔ)音合成/識(shí)別 WaveNet

聲明:轉(zhuǎn)載請(qǐng)聲明作者,并添加原文鏈接。

簡(jiǎn)介

這篇博客主要解讀WaveNet 語(yǔ)音識(shí)別/合成算法泼疑。 這篇論文另辟蹊徑血公, 主要使用dilated casual CNN? 而不是LSTM 去實(shí)現(xiàn)語(yǔ)音算法, 非常值得學(xué)習(xí)睦霎。 主要內(nèi)容可以總結(jié)如下

1.? ? WaveNet 通用模型介紹梢卸, 不只是針對(duì)于語(yǔ)音模型

2.? ? WaveNet 實(shí)驗(yàn)結(jié)果介紹

3.? ? 實(shí)戰(zhàn)tensorflow WaveNet 的實(shí)驗(yàn)過(guò)程, 實(shí)戰(zhàn)選擇的是 WaveNet ASR. 主要原因是ASR 的標(biāo)注比較容易判斷, 而語(yǔ)音合成text-to-speech很不好判斷副女, 主要通過(guò)人工打分蛤高。

本文實(shí)戰(zhàn)代碼是 https://github.com/buriburisuri/speech-to-text-wavenet, WaveNet 論文是https://arxiv.org/pdf/1609.03499.pdf

WaveNet 模型

通用WaveNet

Fig. 1 WaveNet 結(jié)構(gòu)圖

這里dilated casual convolution 翻譯成帶洞因果卷積。帶洞對(duì)應(yīng)的就是dilated,? 就是和普通卷積步長(zhǎng)stride 不同,? stride會(huì)更大一些戴陡, 這樣關(guān)注的范圍 (receptive field)就變大了. casual 對(duì)應(yīng)的就是因果塞绿,主要就是不要用未來(lái)的輸出/結(jié)果做當(dāng)前的輸入。? 這個(gè)方法對(duì)比RNN, 好處就是可以并行計(jì)算恤批, 提高預(yù)測(cè)訓(xùn)練速度异吻。 但是這個(gè)方法還是有他本身的局限性。 在測(cè)試時(shí)喜庞,需要使用自回歸 當(dāng)前的輸出語(yǔ)言當(dāng)做輸入進(jìn)行下一時(shí)刻的計(jì)算 (auto regressive) 限制了他的速度诀浪。下面這個(gè)圖, Fig. 2 解釋了自回歸的特點(diǎn)延都, 即當(dāng)前的輸出會(huì)當(dāng)做下一時(shí)刻的輸入進(jìn)行計(jì)算笋妥。


Fig.2 WaveNet 動(dòng)態(tài)展示 (https://deepmind.com/blog/wavenet-generative-model-raw-audio/)


Fig. 3 多層帶洞卷積 WaveNet


Fig. 3 這里介紹了多層的帶洞卷積wavenet. 這樣做的目的就是提高感受視野(receptive field). 比如Fig. 3的output, 就是基于16 個(gè)Input 產(chǎn)生的, 這樣感受視野會(huì)遠(yuǎn)遠(yuǎn)大于dilation =1 的多層網(wǎng)絡(luò)窄潭。 WaveNet 的文章里用的dilation 是1, 2, 4, …, 512, 1, 2, 4, …, 512, 1, 2, 4, …, 512春宣, 這個(gè)相當(dāng)于有30層帶洞卷積, 能關(guān)注的視野也就很大了嫉你。 具體計(jì)算月帝,1,2,4,...512 需要有1024個(gè)輸入。 那么1024*3/(16*1000)幽污, 就能關(guān)注192ms的信息了嚷辅, 對(duì)于16kHz 的聲音信號(hào)。


Fig.4 整體WaveNet 架構(gòu)


WaveNet的整體結(jié)構(gòu)就如Fig. 4 所示距误, 其中包含了殘差連接簸搞,和gated activation unit.這個(gè)就是圖中的兩路, tanh 和sigmoid 的計(jì)算准潭。 其他也沒(méi)什么復(fù)雜的啦趁俊。

Conditional WaveNet



Gated activation unit


Conditioned? gated activation unit

前面講的都是WaveNet 的通用屬性,還沒(méi)涉及到text-to-speech 或者speech recognition.? 文章這里加了個(gè)h, 就是用來(lái)加一些依賴(lài)關(guān)系刑然。 比如添加聲音ID, 音樂(lè)器械的信息之類(lèi)的寺擂。 對(duì)于text-to-speech, h 的信息就應(yīng)該是 語(yǔ)音/語(yǔ)言特征值了。這里要說(shuō)下泼掠, 由于使用了提前算好的特征值怔软, WaveNet不是端到端的訓(xùn)練。

WaveNet 實(shí)驗(yàn)結(jié)果

WaveNet 這里的實(shí)驗(yàn)結(jié)果是主觀測(cè)試择镇, 判斷生成的生意是否聽(tīng)起來(lái)自然挡逼。打分如下。

1: Bad, 2: Poor, 3: Fair, 4: Good, 5: Excellent

所以也就是算所有人打分的平均值啦腻豌。

實(shí)戰(zhàn)tensorflow WaveNet

使用的代碼再次強(qiáng)調(diào) https://github.com/buriburisuri/speech-to-text-wavenet

模型架構(gòu)

Fig. 5 WaveNet-ASR

這里使用的是MFCC feature. MFCC? 如果不了解家坎, 讀者可以去學(xué)這個(gè)課叹谁。

https://nlp.stanford.edu/courses/lsa352/lsa352.lec6.6up.pdf

CTC loss 在我以前的博客中有講解過(guò)。

整體的架構(gòu) 就如Table, Layer 1, 2 就是front layer, 主要是全連接層+bn, 接下來(lái)Layer3-10 就是一個(gè)block乘盖, 這樣的block 有 15個(gè)。 這些block 的區(qū)別就是dilation 不同憔涉。 dialtion 會(huì)從1订框, 2, 4, 8, 16 這樣改變,重復(fù)三次兜叨, 就是15個(gè)block.

數(shù)據(jù)集

這個(gè)實(shí)驗(yàn)使用的數(shù)據(jù)集是

TED-LIUM https://projets-lium.univ-lemans.fr/ted-lium/release2/https://projets-lium.univ-lemans.fr/ted-lium/release2/

Libir speech http://www.openslr.org/12/http://www.openslr.org/12/

VCTK http://homepages.inf.ed.ac.uk/jyamagis/page3/page58/page58.htmlhttp://homepages.inf.ed.ac.uk/jyamagis/page3/page58/page58.html

這個(gè)實(shí)驗(yàn)我跑了一會(huì)就停止跑了穿扳, 需要的計(jì)算資源太大了, 跑出結(jié)果需要三四天国旷。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末矛物,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子跪但,更是在濱河造成了極大的恐慌履羞,老刑警劉巖,帶你破解...
    沈念sama閱讀 217,406評(píng)論 6 503
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件屡久,死亡現(xiàn)場(chǎng)離奇詭異忆首,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī)被环,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,732評(píng)論 3 393
  • 文/潘曉璐 我一進(jìn)店門(mén)糙及,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人筛欢,你說(shuō)我怎么就攤上這事浸锨。” “怎么了版姑?”我有些...
    開(kāi)封第一講書(shū)人閱讀 163,711評(píng)論 0 353
  • 文/不壞的土叔 我叫張陵柱搜,是天一觀的道長(zhǎng)。 經(jīng)常有香客問(wèn)我剥险,道長(zhǎng)冯凹,這世上最難降的妖魔是什么? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 58,380評(píng)論 1 293
  • 正文 為了忘掉前任炒嘲,我火速辦了婚禮宇姚,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘夫凸。我一直安慰自己浑劳,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,432評(píng)論 6 392
  • 文/花漫 我一把揭開(kāi)白布夭拌。 她就那樣靜靜地躺著魔熏,像睡著了一般衷咽。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上蒜绽,一...
    開(kāi)封第一講書(shū)人閱讀 51,301評(píng)論 1 301
  • 那天镶骗,我揣著相機(jī)與錄音,去河邊找鬼躲雅。 笑死鼎姊,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的相赁。 我是一名探鬼主播相寇,決...
    沈念sama閱讀 40,145評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼钮科!你這毒婦竟也來(lái)了唤衫?” 一聲冷哼從身側(cè)響起,我...
    開(kāi)封第一講書(shū)人閱讀 39,008評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤绵脯,失蹤者是張志新(化名)和其女友劉穎佳励,沒(méi)想到半個(gè)月后,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體蛆挫,經(jīng)...
    沈念sama閱讀 45,443評(píng)論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡植兰,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,649評(píng)論 3 334
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了璃吧。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片楣导。...
    茶點(diǎn)故事閱讀 39,795評(píng)論 1 347
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖畜挨,靈堂內(nèi)的尸體忽然破棺而出筒繁,到底是詐尸還是另有隱情,我是刑警寧澤巴元,帶...
    沈念sama閱讀 35,501評(píng)論 5 345
  • 正文 年R本政府宣布毡咏,位于F島的核電站,受9級(jí)特大地震影響逮刨,放射性物質(zhì)發(fā)生泄漏呕缭。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,119評(píng)論 3 328
  • 文/蒙蒙 一修己、第九天 我趴在偏房一處隱蔽的房頂上張望恢总。 院中可真熱鬧,春花似錦睬愤、人聲如沸片仿。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 31,731評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)砂豌。三九已至厢岂,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間阳距,已是汗流浹背塔粒。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 32,865評(píng)論 1 269
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留筐摘,地道東北人卒茬。 一個(gè)月前我還...
    沈念sama閱讀 47,899評(píng)論 2 370
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像蓄拣,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子努隙,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,724評(píng)論 2 354

推薦閱讀更多精彩內(nèi)容