【NLP論文筆記】Universal Language Model Fine-tuning for Text Classification（ULMFiT 理解）

本文主要用于記錄發(fā)表于2018年的一篇論文。該論文首次提出了將遷移學(xué)習(xí)應(yīng)用在NLP領(lǐng)域冻记。本筆記主要為方便初學(xué)者快速入門睡毒，以及自我回顧。

論文鏈接：https://arxiv.org/pdf/1801.06146.pdf
開(kāi)源地址：http://nlp.fast.ai/ulmfit

基本目錄如下：

摘要
核心思想
總結(jié)

------------------第一菇 - 摘要------------------

1.1 論文摘要

遷移學(xué)習(xí)的成功已經(jīng)在計(jì)算機(jī)視覺(jué)領(lǐng)域取得了巨大的成功冗栗，但是在NLP領(lǐng)域還是不能夠很好的運(yùn)用演顾。本文作者提出了一種針對(duì)NLP領(lǐng)域的遷移學(xué)習(xí)方法，ULMFiT隅居，主要是介紹了很多在微調(diào)模型時(shí)候的小技巧钠至。作者的這種方法在六大文本分類任務(wù)上都取得了成功，并且在大部分?jǐn)?shù)據(jù)集上將誤差減少了18-24%胎源。此外棉钧，還有一個(gè)比較夸張的點(diǎn)，僅僅用了100個(gè)標(biāo)注數(shù)據(jù)涕蚤，就取得了等同于用100倍數(shù)據(jù)量訓(xùn)練出來(lái)的結(jié)果宪卿。

------------------第二菇 - 核心思想------------------

2.1 論文背景介紹

其實(shí)論文本身沒(méi)有提出什么特別的模型結(jié)構(gòu)，主要的重點(diǎn)就是放在介紹其實(shí)踐遷移學(xué)習(xí)的方法万栅。在開(kāi)篇介紹部分作者也解釋說(shuō)了佑钾，現(xiàn)階段的NLP的深度學(xué)習(xí)模型在有大量數(shù)據(jù)訓(xùn)練的基礎(chǔ)上，確是能取得不錯(cuò)的效果烦粒，但是大數(shù)據(jù)集常常很難獲取休溶，而現(xiàn)階段在NLP領(lǐng)域做的比較好的，也就是word embeddings那一層可以實(shí)現(xiàn)撒遣。然后作者也解釋了一下原因邮偎，他們認(rèn)為其實(shí)不能做遷移學(xué)習(xí)本身并不是語(yǔ)言模型（LM）不夠強(qiáng)大，而是我們?cè)谧鲱A(yù)訓(xùn)練的時(shí)候义黎，或者在遷移本身的訓(xùn)練上有很多的小技巧我們沒(méi)有很好的掌握，所以豁跑，作者才會(huì)提出一種全新的模式ULMFiT（Universal Language Model Fine-tuning）廉涕，來(lái)實(shí)踐NLP領(lǐng)域的遷移學(xué)習(xí)方法。

2.2 論文模型實(shí)踐方法

作者提出的實(shí)踐方法艇拍，第一個(gè)詞就是“universal”狐蜕，顯示了其通用性，作者對(duì)其的理解有如下幾個(gè)層面：
1）適用于任意的文本大小卸夕，數(shù)據(jù)類型层释，標(biāo)簽類型
2）單一的模型架構(gòu)和訓(xùn)練過(guò)程
3）不需要額外的特征過(guò)程與預(yù)訓(xùn)練
4）不需要額外領(lǐng)域?qū)Ｒ坏奈谋竞蜆?biāo)簽

看這描述是，如果能做到快集，那絕對(duì)是NLP領(lǐng)域的里程碑贡羔！接下來(lái)廉白，我們仔細(xì)看一下，作者實(shí)踐的步驟乖寒。

第一步 - 通用領(lǐng)域語(yǔ)言模型的預(yù)訓(xùn)練
類似ImageNet在CV的地位一樣猴蹂，NLP領(lǐng)域應(yīng)該也需要這樣的通用數(shù)據(jù)集，作者目前是用Wikitext-103來(lái)做預(yù)訓(xùn)練的楣嘁，這一步其實(shí)是最耗費(fèi)時(shí)間的（貴）磅轻，但是只需要做一次，就會(huì)為后續(xù)的下游NLP模型打好基礎(chǔ)逐虚。

第二步 - 目標(biāo)任務(wù)的語(yǔ)言模型微調(diào)
目標(biāo)任務(wù)的數(shù)據(jù)分布肯定是與我們的預(yù)訓(xùn)練數(shù)據(jù)分布不一樣的聋溜，因此，我們需要用目標(biāo)任務(wù)的數(shù)據(jù)來(lái)對(duì)我們的語(yǔ)言模型進(jìn)行微調(diào)訓(xùn)練叭爱。因?yàn)橛刑崆暗念A(yù)訓(xùn)練撮躁，因此這一步的微調(diào)需要一點(diǎn)小技巧，作者提出了2種設(shè)置學(xué)習(xí)率的小技巧涤伐，

1）分層學(xué)習(xí)率微調(diào)（Discriminative fine-tuning）
核心思想就是在微調(diào)的時(shí)候馒胆，作者認(rèn)為對(duì)所有的層都設(shè)置相同的學(xué)習(xí)率是不合理的，因?yàn)槊恳粚佣荚趯W(xué)習(xí)詞匯不同層面的表達(dá)特征凝果，因此在新的數(shù)據(jù)集上祝迂，每一層需要學(xué)習(xí)的程度也是不一樣的。因此作者提出的解決辦法就是為每一層都設(shè)置不同的學(xué)習(xí)率器净，因此反向傳播的公式就可以表達(dá)為型雳，

$\theta_t^{l} = \theta_{t-1}^l - \eta^l\cdot\bigtriangledown _{\theta^t}J(\theta)$

其中， $\eta^l$ 就是每一層的學(xué)習(xí)率山害。作者實(shí)驗(yàn)發(fā)現(xiàn)纠俭，當(dāng)最后的一層的學(xué)習(xí)率設(shè)置為 $\eta^L$ 的時(shí)候， $\eta^{l-1}=\frac{\eta^l}{2.6}$ 浪慌，時(shí)候效果最好冤荆。

2）斜三角學(xué)習(xí)率（Slanted triangular learning rates）
作者同時(shí)還認(rèn)為，在對(duì)任務(wù)語(yǔ)料微調(diào)訓(xùn)練的時(shí)候权纤，模型應(yīng)該在一開(kāi)始就快速收斂钓简，然后再慢慢精修。因此汹想，作者提出了一種新的學(xué)習(xí)率設(shè)置機(jī)制外邓，在一開(kāi)始訓(xùn)練的時(shí)候增加學(xué)習(xí)率，然后在線性衰減學(xué)習(xí)率古掏，公式如下损话，

STLR.png

其中， $T$ 就是訓(xùn)練的迭代次數(shù)槽唾， $cut\_face$ 就是學(xué)習(xí)率上升的迭代次數(shù)比率丧枪， $cut$ 就是學(xué)習(xí)率開(kāi)始衰減時(shí)候的迭代次數(shù)光涂， $ratio$ 就是學(xué)習(xí)率的衰減比例（最小／最大）豪诲， $\eta_t$ 就是某次迭代的學(xué)習(xí)率顶捷。然后作者實(shí)驗(yàn)發(fā)現(xiàn)，短時(shí)間的增加學(xué)習(xí)率屎篱，長(zhǎng)時(shí)間的衰減服赎，模型的擬合能力是最棒的～

第三步 - 目標(biāo)任務(wù)的分類模型微調(diào)
我們最終還是要來(lái)微調(diào)最后產(chǎn)生結(jié)果的分類模型。首先作者為了增強(qiáng)語(yǔ)言模型的表達(dá)能力交播，額外多加了兩個(gè)線性組合層重虑。因此，最終輸出到分類器層秦士，不僅僅來(lái)自語(yǔ)言模型的最后一層輸出缺厉，還包括了最大池化層，平均池化層隧土，

$h_c = [h_T, maxpool(H), meanpool(H)]$

在最終微調(diào)分類器的時(shí)候提针，作者又提出了一種新的訓(xùn)練技巧，逐層解凍（Gradual unfreezing）曹傀。簡(jiǎn)單來(lái)說(shuō)辐脖，就是作者任務(wù)最后一層會(huì)包括最通用的特征，因此皆愉，在訓(xùn)練時(shí)候嗜价，我們先訓(xùn)練最后一層（凍住其他層），而不是所有層一起來(lái)訓(xùn)練幕庐。然后在第二個(gè)EPOCH的時(shí)候久锥，再解凍倒數(shù)第二層來(lái)訓(xùn)練，然后以此類推异剥。

至此瑟由，整個(gè)流程已經(jīng)介紹完了，貼一張?jiān)撐牡膱D來(lái)幫大家梳理邏輯冤寿。

三階段.png

隨后在論文的實(shí)驗(yàn)部分错妖，作者也通過(guò)實(shí)驗(yàn)設(shè)定來(lái)證實(shí)自己提出的幾種微調(diào)模型的有效性。這里就不具體展開(kāi)疚沐，有興趣的朋友可以自己去查閱原始論文。

2.3 論文模型實(shí)踐

這里先留個(gè)坑潮模，以后有時(shí)間亮蛔，把ULMFiT的調(diào)參實(shí)踐也擺上來(lái)。

------------------第三菇 - 總結(jié)------------------

3.1 總結(jié)

到這里擎厢，整篇論文的核心思想及其創(chuàng)新點(diǎn)已經(jīng)說(shuō)清楚了究流。本論文主要集中在于闡述ULMFiT運(yùn)用于NLP遷移學(xué)習(xí)的步驟及其預(yù)訓(xùn)練和調(diào)參的思想辣吃，并且用具體的NLP實(shí)驗(yàn)證明了使用這一套架構(gòu)的原理，并證實(shí)了其可行性芬探。

簡(jiǎn)單總結(jié)一下本文就是先羅列了一下該論文的摘要神得，再具體介紹了一下ULMFiT流程和調(diào)參技巧⊥捣拢總的來(lái)說(shuō)哩簿，這篇論文提出的很多小技巧值得大家學(xué)習(xí)。希望大家讀完本文后能進(jìn)一步加深對(duì)該論文的理解酝静。有說(shuō)的不對(duì)的地方也請(qǐng)大家指出节榜，多多交流，大家一起進(jìn)步～??

最后編輯于：2020.01.04 11:48:10

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末别智，一起剝皮案震驚了整個(gè)濱河市宗苍，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌薄榛，老刑警劉巖讳窟，帶你破解...
沈念sama閱讀 211,123評(píng)論 6贊 490
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場(chǎng)離奇詭異敞恋，居然都是意外死亡丽啡，警方通過(guò)查閱死者的電腦和手機(jī)，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 90,031評(píng)論 2贊 384
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門耳舅，熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)碌上，“玉大人，你說(shuō)我怎么就攤上這事浦徊×笥瑁” “怎么了？”我有些...
開(kāi)封第一講書(shū)人閱讀 156,723評(píng)論 0贊 345
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵盔性，是天一觀的道長(zhǎng)霞丧。經(jīng)常有香客問(wèn)我，道長(zhǎng)冕香，這世上最難降的妖魔是什么蛹尝？我笑而不...
開(kāi)封第一講書(shū)人閱讀 56,357評(píng)論 1贊 283
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮悉尾，結(jié)果婚禮上突那，老公的妹妹穿的比我還像新娘。我一直安慰自己构眯，他們只是感情好愕难，可當(dāng)我...
茶點(diǎn)故事閱讀 65,412評(píng)論 5贊 384
惡毒庶女頂嫁案：這布局不是一般人想出來(lái)的
文/花漫我一把揭開(kāi)白布。她就那樣靜靜地躺著，像睡著了一般猫缭。火紅的嫁衣襯著肌膚如雪葱弟。梳的紋絲不亂的頭發(fā)上，一...
開(kāi)封第一講書(shū)人閱讀 49,760評(píng)論 1贊 289
城市分裂傳說(shuō)
那天猜丹，我揣著相機(jī)與錄音芝加，去河邊找鬼。笑死射窒，一個(gè)胖子當(dāng)著我的面吹牛藏杖，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播轮洋，決...
沈念sama閱讀 38,904評(píng)論 3贊 405
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開(kāi)眼制市，長(zhǎng)吁一口氣：“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼！你這毒婦竟也來(lái)了弊予？” 一聲冷哼從身側(cè)響起祥楣，我...
開(kāi)封第一講書(shū)人閱讀 37,672評(píng)論 0贊 266
萬(wàn)榮殺人案實(shí)錄
序言：老撾萬(wàn)榮一對(duì)情侶失蹤，失蹤者是張志新（化名）和其女友劉穎汉柒，沒(méi)想到半個(gè)月后误褪，有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 44,118評(píng)論 1贊 303
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡碾褂，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 36,456評(píng)論 2贊 325
?白月光啟示錄
正文我和宋清朗相戀三年兽间，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片正塌。...
茶點(diǎn)故事閱讀 38,599評(píng)論 1贊 340
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡嘀略，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出乓诽，到底是詐尸還是另有隱情帜羊，我是刑警寧澤，帶...
沈念sama閱讀 34,264評(píng)論 4贊 328
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布鸠天，位于F島的核電站讼育，受9級(jí)特大地震影響，放射性物質(zhì)發(fā)生泄漏稠集。R本人自食惡果不足惜奶段，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 39,857評(píng)論 3贊 312
男人毒藥：我在死后第九天來(lái)索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望剥纷。院中可真熱鬧痹籍，春花似錦、人聲如沸晦鞋。這莊子的主人今日做“春日...
開(kāi)封第一講書(shū)人閱讀 30,731評(píng)論 0贊 21
一樁弒父案刺洒，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)。三九已至吼砂，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間鼎文，已是汗流浹背渔肩。一陣腳步聲響...
開(kāi)封第一講書(shū)人閱讀 31,956評(píng)論 1贊 264
情欲美人皮
我被黑心中介騙來(lái)泰國(guó)打工，沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留拇惋，地道東北人周偎。一個(gè)月前我還...
沈念sama閱讀 46,286評(píng)論 2贊 360
代替公主和親
正文我出身青樓，卻偏偏與公主長(zhǎng)得像撑帖，于是被迫代替她去往敵國(guó)和親蓉坎。傳聞我的和親對(duì)象是個(gè)殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 43,465評(píng)論 2贊 348