論文筆記 | Recurrent neural network based language model

作者

Tomas Mikolov
Martin Karafiat
Lukas Burget
Jan “Honza” Cernock
Sanjeev Khudanpur

摘要

塊引用表示評論软舌。

本文提出了一個基于 RNN 的語言模型(RNN LM)娩井。實驗表明與 backoff 語言模型相比呜投,困惑度(perplexity)可能下降 50% 朵耕。

簡單直接提出 RNN LM 炫隶,使用大量實驗證明和 n-gram 相比效果不錯(缺點是訓練復雜度比較高)淋叶。
由于模型比較簡單阎曹,因此在最后的評論中直接概括一下。這篇論文的引言寫得十分精彩煞檩,對問題的分析一針見血处嫌。(當然說得這么堅定也有實驗效果撐著呢,想必下筆的時候也是激動萬分斟湃。)我十分喜歡熏迹,主要呈現(xiàn)一下這部分。

引言

構建語言模型凝赛,就是處理序列預測問題(sequential data prediction)注暗。然而,很多自然語言方法都針對于特定的語言領域(very specific for language domain):假設自然語言可以使用分析樹(parse tree)來表示墓猎,需要考慮詞的形態(tài)學(morphology)捆昏、語法和語義。即使是基于 n-gram 的最通用的模型毙沾,也進行了假設:語言是由原子性的符號(也就是單詞)序列(也就是句子)所組成的骗卜。句子的結尾起著十分重要且特殊的作用。

特定于語言領域這個觀察十分有道理。 n-gram 以句子為單位本身已經(jīng)帶有很強的假設寇仓,給予了“句子”一個很高的地位举户,因此也就無法對句間關系建模。然而衡量語言模型好像沒有不用句子假設的遍烦,即使是下面提出的 RNN 也是如此俭嘁。這一段可能是為了反襯 RNN 的泛用性。

對簡單的 n-gram 研究到底有沒有取得顯著進步服猪,值得懷疑兄淫。如果從序列預測數(shù)據(jù)的角度來看,的確取得了很大進步蔓姚。主要靠 cache models (描述長語境信息)和 class-based models (通過相似詞之間共享參數(shù)改進短語境的參數(shù)估計)捕虽。其他進步大多能歸結到這兩類的效果上。

如果從實際應用的角度來看坡脐,那么幾乎沒有進展泄私。真實世界中的語音識別和機器翻譯的系統(tǒng)都是建立在大量的數(shù)據(jù)上的,一種流行的說法是我們只需要更多的數(shù)據(jù)就夠了备闲。學術界的模型通常很復雜并且僅僅在基于數(shù)量十分有限的數(shù)據(jù)集上效果才好晌端。事實上,大多數(shù)的先進技術只比簡單的 baseline 提高了一點恬砂,且很少在實際中使用咧纠。

滿滿的即視感。不過 RNN 帶來的提升的確離現(xiàn)實應用近了一大步泻骤。

評論

模型

本篇的模型十分樸素漆羔,是一個簡單的三層 RNN 。Token 使用的是 one-hot 編碼狱掂。輸入層使用單詞編碼和隱藏層進行拼接演痒。隱藏層使用 sigmoid 激活函數(shù),輸出層使用 softmax 趋惨。訓練算法是 truncated backpropagation through time 鸟顺, SGD 。如果沒有明顯改善器虾,學習率每個 epoch 減半讯嫂。

Dynamic

模型中一個比較有趣的地方(也是讀這篇論文的原因)是使用了 dynamic 的方法。主要區(qū)別于傳統(tǒng)的 static 方法兆沙。Static 指的是模型在訓練階段結束之后欧芽,將參數(shù)固定,在測試過程中不再改變挤悉。Dynamic 方法則是在測試時渐裸,利用訓練的真實標簽繼續(xù)更新參數(shù)巫湘。

這種做法的一個結果是不再顯式地區(qū)分訓練集與測試集,因為所有的數(shù)據(jù)都只處理一次昏鹃。

(Graves, 2013)[1] 中指出了 dynamic evaluation 比本篇論文報告的效果更好尚氛。

作者指出,效果和 cache 類似洞渤,但由于其在連續(xù)空間中學習阅嘶,如果兩個詞之間聯(lián)系比較緊密,那么測試數(shù)據(jù)中一個單詞的頻繁出現(xiàn)也會提高另一個單詞出現(xiàn)概率载迄。

另一篇專注研究 dynamic evaluation 的論文解讀請看 {% post_link dynamic-evaluation 這里 %}讯柔。

全文

作者認為 RNN 相比于 Bengio [3][2] 中的 FNN 的主要優(yōu)勢在于沒有指定固定的語境护昧,而是使用隱藏層的狀態(tài)概括之前所有的語境信息惋耙。優(yōu)點包括需要指定的超參數(shù)數(shù)量少湿酸,通用性強。缺點是難以捕捉長依賴問題,早在 1994 年的 [6][3] 中就已經(jīng)指出了厢呵。解讀請看這篇博客 碌奉。

本篇將 RNN LM 引入 NLP 赐劣,使用的是最樸素的模型(本文發(fā)表于 2010 年)婉徘。實驗發(fā)現(xiàn)其效果遠好于(各種) n-gram 儒鹿。(從之后的發(fā)展來看,幾乎將 n-gram 送入歷史的廢紙堆了)。這一巨大的提升,打破了語言模型是關于各種 n-gram 以及只要有大量的數(shù)據(jù)就可以提升效果的神話。(結果現(xiàn)在出現(xiàn)了各種復雜的神經(jīng)網(wǎng)絡模型,以及只要有大量數(shù)據(jù)就可以提升效果的神話x)


  1. Graves, Alex. "Generating sequences with recurrent neural networks." arXiv preprint arXiv:1308.0850 (2013). ?

  2. Yoshua Bengio, Rejean Ducharme and Pascal Vincent. 2003. A
    neural probabilistic language model. Journal of Machine Learning
    Research, 3:1137-1155 ?

  3. Yoshua Bengio and Patrice Simard and Paolo Frasconi. Learning Long-Term Dependencies with Gradient Descent is Difficult.
    IEEE Transactions on Neural Networks, 5, 157-166. ?

?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
  • 序言:七十年代末炮姨,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子蛾派,更是在濱河造成了極大的恐慌夜焦,老刑警劉巖巷波,帶你破解...
    沈念sama閱讀 211,123評論 6 490
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異抹镊,居然都是意外死亡姜性,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,031評論 2 384
  • 文/潘曉璐 我一進店門髓考,熙熙樓的掌柜王于貴愁眉苦臉地迎上來部念,“玉大人,你說我怎么就攤上這事氨菇±芰叮” “怎么了?”我有些...
    開封第一講書人閱讀 156,723評論 0 345
  • 文/不壞的土叔 我叫張陵查蓉,是天一觀的道長乌询。 經(jīng)常有香客問我,道長豌研,這世上最難降的妖魔是什么妹田? 我笑而不...
    開封第一講書人閱讀 56,357評論 1 283
  • 正文 為了忘掉前任,我火速辦了婚禮鹃共,結果婚禮上鬼佣,老公的妹妹穿的比我還像新娘。我一直安慰自己霜浴,他們只是感情好晶衷,可當我...
    茶點故事閱讀 65,412評論 5 384
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著阴孟,像睡著了一般晌纫。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上永丝,一...
    開封第一講書人閱讀 49,760評論 1 289
  • 那天锹漱,我揣著相機與錄音,去河邊找鬼慕嚷。 笑死哥牍,一個胖子當著我的面吹牛,可吹牛的內容都是我干的闯冷。 我是一名探鬼主播砂心,決...
    沈念sama閱讀 38,904評論 3 405
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼蛇耀!你這毒婦竟也來了?” 一聲冷哼從身側響起坎弯,我...
    開封第一講書人閱讀 37,672評論 0 266
  • 序言:老撾萬榮一對情侶失蹤纺涤,失蹤者是張志新(化名)和其女友劉穎译暂,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體撩炊,經(jīng)...
    沈念sama閱讀 44,118評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡外永,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 36,456評論 2 325
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了拧咳。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片伯顶。...
    茶點故事閱讀 38,599評論 1 340
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖骆膝,靈堂內的尸體忽然破棺而出祭衩,到底是詐尸還是另有隱情,我是刑警寧澤阅签,帶...
    沈念sama閱讀 34,264評論 4 328
  • 正文 年R本政府宣布掐暮,位于F島的核電站,受9級特大地震影響政钟,放射性物質發(fā)生泄漏路克。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 39,857評論 3 312
  • 文/蒙蒙 一养交、第九天 我趴在偏房一處隱蔽的房頂上張望精算。 院中可真熱鬧,春花似錦碎连、人聲如沸殖妇。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,731評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽谦趣。三九已至,卻和暖如春座每,著一層夾襖步出監(jiān)牢的瞬間前鹅,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,956評論 1 264
  • 我被黑心中介騙來泰國打工峭梳, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留舰绘,地道東北人。 一個月前我還...
    沈念sama閱讀 46,286評論 2 360
  • 正文 我出身青樓葱椭,卻偏偏與公主長得像捂寿,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子孵运,可洞房花燭夜當晚...
    茶點故事閱讀 43,465評論 2 348

推薦閱讀更多精彩內容