論文筆記 | Recurrent neural network based language model

作者

Tomas Mikolov
Martin Karafiat
Lukas Burget
Jan “Honza” Cernock
Sanjeev Khudanpur

摘要

塊引用表示評論软舌。

本文提出了一個基于 RNN 的語言模型（RNN LM）娩井。實驗表明與 backoff 語言模型相比呜投，困惑度（perplexity）可能下降 50% 朵耕。

簡單直接提出 RNN LM 炫隶，使用大量實驗證明和 n-gram 相比效果不錯（缺點是訓練復雜度比較高）淋叶。
由于模型比較簡單阎曹，因此在最后的評論中直接概括一下。這篇論文的引言寫得十分精彩煞檩，對問題的分析一針見血处嫌。（當然說得這么堅定也有實驗效果撐著呢，想必下筆的時候也是激動萬分斟湃。）我十分喜歡熏迹，主要呈現(xiàn)一下這部分。

引言

構建語言模型凝赛，就是處理序列預測問題（sequential data prediction）注暗。然而，很多自然語言方法都針對于特定的語言領域（very specific for language domain）：假設自然語言可以使用分析樹（parse tree）來表示墓猎，需要考慮詞的形態(tài)學（morphology）捆昏、語法和語義。即使是基于 n-gram 的最通用的模型毙沾，也進行了假設：語言是由原子性的符號（也就是單詞）序列（也就是句子）所組成的骗卜。句子的結尾起著十分重要且特殊的作用。

特定于語言領域這個觀察十分有道理。 n-gram 以句子為單位本身已經(jīng)帶有很強的假設寇仓，給予了“句子”一個很高的地位举户，因此也就無法對句間關系建模。然而衡量語言模型好像沒有不用句子假設的遍烦，即使是下面提出的 RNN 也是如此俭嘁。這一段可能是為了反襯 RNN 的泛用性。

對簡單的 n-gram 研究到底有沒有取得顯著進步服猪，值得懷疑兄淫。如果從序列預測數(shù)據(jù)的角度來看，的確取得了很大進步蔓姚。主要靠 cache models （描述長語境信息）和 class-based models （通過相似詞之間共享參數(shù)改進短語境的參數(shù)估計）捕虽。其他進步大多能歸結到這兩類的效果上。

如果從實際應用的角度來看坡脐，那么幾乎沒有進展泄私。真實世界中的語音識別和機器翻譯的系統(tǒng)都是建立在大量的數(shù)據(jù)上的，一種流行的說法是我們只需要更多的數(shù)據(jù)就夠了备闲。學術界的模型通常很復雜并且僅僅在基于數(shù)量十分有限的數(shù)據(jù)集上效果才好晌端。事實上，大多數(shù)的先進技術只比簡單的 baseline 提高了一點恬砂，且很少在實際中使用咧纠。

滿滿的即視感。不過 RNN 帶來的提升的確離現(xiàn)實應用近了一大步泻骤。

本篇的模型十分樸素漆羔，是一個簡單的三層 RNN 。Token 使用的是 one-hot 編碼狱掂。輸入層使用單詞編碼和隱藏層進行拼接演痒。隱藏層使用 sigmoid 激活函數(shù)，輸出層使用 softmax 趋惨。訓練算法是 truncated backpropagation through time 鸟顺， SGD 。如果沒有明顯改善器虾，學習率每個 epoch 減半讯嫂。

Dynamic

模型中一個比較有趣的地方（也是讀這篇論文的原因）是使用了 dynamic 的方法。主要區(qū)別于傳統(tǒng)的 static 方法兆沙。Static 指的是模型在訓練階段結束之后欧芽，將參數(shù)固定，在測試過程中不再改變挤悉。Dynamic 方法則是在測試時渐裸，利用訓練的真實標簽繼續(xù)更新參數(shù)巫湘。

這種做法的一個結果是不再顯式地區(qū)分訓練集與測試集，因為所有的數(shù)據(jù)都只處理一次昏鹃。

(Graves, 2013)^[1] 中指出了 dynamic evaluation 比本篇論文報告的效果更好尚氛。

作者指出，效果和 cache 類似洞渤，但由于其在連續(xù)空間中學習阅嘶，如果兩個詞之間聯(lián)系比較緊密，那么測試數(shù)據(jù)中一個單詞的頻繁出現(xiàn)也會提高另一個單詞出現(xiàn)概率载迄。

另一篇專注研究 dynamic evaluation 的論文解讀請看 {% post_link dynamic-evaluation 這里 %}讯柔。

全文

作者認為 RNN 相比于 Bengio [3]^[2] 中的 FNN 的主要優(yōu)勢在于沒有指定固定的語境护昧，而是使用隱藏層的狀態(tài)概括之前所有的語境信息惋耙。優(yōu)點包括需要指定的超參數(shù)數(shù)量少湿酸，通用性強。缺點是難以捕捉長依賴問題，早在 1994 年的 [6]^[3] 中就已經(jīng)指出了厢呵。解讀請看這篇博客碌奉。

本篇將 RNN LM 引入 NLP 赐劣，使用的是最樸素的模型（本文發(fā)表于 2010 年）婉徘。實驗發(fā)現(xiàn)其效果遠好于（各種） n-gram 儒鹿。（從之后的發(fā)展來看，幾乎將 n-gram 送入歷史的廢紙堆了）。這一巨大的提升，打破了語言模型是關于各種 n-gram 以及只要有大量的數(shù)據(jù)就可以提升效果的神話。（結果現(xiàn)在出現(xiàn)了各種復雜的神經(jīng)網(wǎng)絡模型，以及只要有大量數(shù)據(jù)就可以提升效果的神話x）

Graves, Alex. "Generating sequences with recurrent neural networks." arXiv preprint arXiv:1308.0850 (2013). ?
Yoshua Bengio, Rejean Ducharme and Pascal Vincent. 2003. A
neural probabilistic language model. Journal of Machine Learning
Research, 3:1137-1155 ?
Yoshua Bengio and Patrice Simard and Paolo Frasconi. Learning Long-Term Dependencies with Gradient Descent is Difficult.
IEEE Transactions on Neural Networks, 5, 157-166. ?

?著作權歸作者所有,轉載或內容合作請聯(lián)系作者

人面猴
序言：七十年代末炮姨，一起剝皮案震驚了整個濱河市，隨后出現(xiàn)的幾起案子蛾派，更是在濱河造成了極大的恐慌夜焦，老刑警劉巖巷波，帶你破解...
沈念sama閱讀 211,123評論 6贊 490
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場離奇詭異抹镊，居然都是意外死亡姜性，警方通過查閱死者的電腦和手機，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 90,031評論 2贊 384
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門髓考，熙熙樓的掌柜王于貴愁眉苦臉地迎上來部念，“玉大人，你說我怎么就攤上這事氨菇±芰叮” “怎么了？”我有些...
開封第一講書人閱讀 156,723評論 0贊 345
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵查蓉，是天一觀的道長乌询。經(jīng)常有香客問我，道長豌研，這世上最難降的妖魔是什么妹田？我笑而不...
開封第一講書人閱讀 56,357評論 1贊 283
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮鹃共，結果婚禮上鬼佣，老公的妹妹穿的比我還像新娘。我一直安慰自己霜浴，他們只是感情好晶衷，可當我...
茶點故事閱讀 65,412評論 5贊 384
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著阴孟，像睡著了一般晌纫。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上永丝，一...
開封第一講書人閱讀 49,760評論 1贊 289
城市分裂傳說
那天锹漱，我揣著相機與錄音，去河邊找鬼慕嚷。笑死哥牍，一個胖子當著我的面吹牛，可吹牛的內容都是我干的闯冷。我是一名探鬼主播砂心，決...
沈念sama閱讀 38,904評論 3贊 405
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼蛇耀！你這毒婦竟也來了？” 一聲冷哼從身側響起坎弯，我...
開封第一講書人閱讀 37,672評論 0贊 266
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤纺涤，失蹤者是張志新（化名）和其女友劉穎译暂，沒想到半個月后，有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體撩炊，經(jīng)...
沈念sama閱讀 44,118評論 1贊 303
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡外永，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內容為張勛視角年9月15日...
茶點故事閱讀 36,456評論 2贊 325
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時候發(fā)現(xiàn)自己被綠了拧咳。大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片伯顶。...
茶點故事閱讀 38,599評論 1贊 340
活死人
序言：一個原本活蹦亂跳的男人離奇死亡，死狀恐怖骆膝，靈堂內的尸體忽然破棺而出祭衩，到底是詐尸還是另有隱情，我是刑警寧澤阅签，帶...
沈念sama閱讀 34,264評論 4贊 328
?日本核電站爆炸內幕
正文年R本政府宣布掐暮，位于F島的核電站，受9級特大地震影響政钟，放射性物質發(fā)生泄漏路克。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點故事閱讀 39,857評論 3贊 312
男人毒藥：我在死后第九天來索命
文/蒙蒙一养交、第九天我趴在偏房一處隱蔽的房頂上張望精算。院中可真熱鬧，春花似錦碎连、人聲如沸殖妇。這莊子的主人今日做“春日...
開封第一講書人閱讀 30,731評論 0贊 21
一樁弒父案破花，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽谦趣。三九已至，卻和暖如春座每，著一層夾襖步出監(jiān)牢的瞬間前鹅，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 31,956評論 1贊 264
情欲美人皮
我被黑心中介騙來泰國打工峭梳，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留舰绘，地道東北人。一個月前我還...
沈念sama閱讀 46,286評論 2贊 360
代替公主和親
正文我出身青樓葱椭，卻偏偏與公主長得像捂寿，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子孵运，可洞房花燭夜當晚...
茶點故事閱讀 43,465評論 2贊 348

論文筆記 | Recurrent neural network based language model

作者

摘要

引言

評論

模型

Dynamic

全文

推薦閱讀更多精彩內容