【NLP論文筆記】Supervised Learning of Universal Sentence Representations from Natural Language Inferenc...

本文主要用于記錄Facebook AI研究中心于2017年提出的一種基于監(jiān)督學(xué)習(xí)的句向量表達(dá)方式。該文也是業(yè)界最先一批提出句向量預(yù)訓(xùn)練概念的論文崖面。本筆記主要為方便初學(xué)者快速入門唾糯,以及自我回顧柄驻。

論文鏈接:https://arxiv.org/pdf/1705.02364.pdf
Github:https://github.com/facebookresearch/InferSent

基本目錄如下:

  1. 摘要
  2. 核心思想
  3. 總結(jié)

------------------第一菇 - 摘要------------------

1.1 論文摘要

當(dāng)代比較成熟的NLP系統(tǒng)的底層特征都僅僅依賴于從大規(guī)模語料庫中訓(xùn)練出來的詞向量县习。而對于那些長句或是段落的特征向量的表達(dá)掘而,目前的研究還遠(yuǎn)遠(yuǎn)不夠迫悠。僅有的一些依賴于非監(jiān)督學(xué)習(xí)得到的句向量表達(dá)鹏漆,也因為未能達(dá)到預(yù)期效果而被棄用。本論文提出了一種基于SNLI語料庫預(yù)訓(xùn)練出來的通用的句向量的表達(dá)创泄,且經(jīng)過實驗驗證艺玲,該種方法訓(xùn)練得到的句向量,在多個NLP基礎(chǔ)任務(wù)中都表現(xiàn)出了卓越的效果鞠抑。同時饭聚,本論文還希望效仿ImageNet數(shù)據(jù)集(多數(shù)現(xiàn)今模型都在其上面預(yù)訓(xùn)練)在CV領(lǐng)域的地位一樣,基于推理的數(shù)據(jù)集(SNLI)搁拙,也能成為NLP領(lǐng)域的標(biāo)桿(即通用的預(yù)訓(xùn)練數(shù)據(jù)集)

------------------第二菇 - 核心思想------------------

2.1 句向量的表達(dá)

自從word2vec詞向量訓(xùn)練方法被提出以后秒梳,在NLP學(xué)術(shù)界就仿佛打開了潘多拉魔盒一般,各種基于分布式表達(dá)的詞向量的訓(xùn)練如雨后春筍一般冒出箕速,比較著名的都有(glove,fasttext酪碘。。等)盐茎。但是兴垦,如何去捕獲在一句話或一個段落中詞與詞之間的關(guān)聯(lián)關(guān)系,即如何去表達(dá)一個完整的句向量字柠,始終是一個未解決的問題探越。

本文就是想去嘗試,推出一種通用的句向量模型的有監(jiān)督的訓(xùn)練方法窑业。其中有倆個問題需要去解決钦幔,
1)選用哪一種神經(jīng)網(wǎng)絡(luò)模型?
2)選用哪一種數(shù)據(jù)集去訓(xùn)練該網(wǎng)絡(luò)模型常柄?

因此节槐,說白了搀庶,該論文就是用多種模型在多種數(shù)據(jù)集上去訓(xùn)練得到一個句向量模型,再將訓(xùn)練得到的句向量模型運用于其他各個NLP的下游任務(wù)铜异,通過比較在下游任務(wù)中的表現(xiàn)哥倔,來反推出,哪一種句向量模型是更具有通用性的~當(dāng)然揍庄,從論文的標(biāo)題我們也應(yīng)該能看出來咆蒿,訓(xùn)練的語料庫其實就是SNLI(該語料庫是斯坦福大學(xué)所維護(hù)的)。

簡單來說蚂子,該語料庫就是去推理判斷每一組句子的關(guān)系(一共有570k個句子對)沃测,其中,對應(yīng)的標(biāo)簽有3個食茎,分別為(entailment, contradiction, neutral)蒂破。相信,在讀的各位别渔,如果是對句向量或是句句匹配任務(wù)有研究的同學(xué)附迷,應(yīng)該對該數(shù)據(jù)集并不陌生(甚至可以說是,檢驗新的模型的必測數(shù)據(jù)集哈哈)哎媚。而論文中喇伯,對該數(shù)據(jù)集訓(xùn)練出來的句向量效果最佳的表現(xiàn),解釋為拨与,high-level understanding task that involves reasoning about the semantic relationship within sentences稻据。意思就是,必須要完全理解了句子的意思买喧,才能對倆句話的關(guān)系作出準(zhǔn)確的判斷捻悯。(而不像其他簡單的任務(wù),可能就是詞詞匹配淤毛,或是距離匹配)

2.2 預(yù)訓(xùn)練方法

有了訓(xùn)練語料秋度,那就是選擇神經(jīng)網(wǎng)絡(luò)模型的問題了。因為钱床,該SNLI語料庫中是句子對的形式,因此埠居,有兩種方式來生成最終的特征向量
1)單獨分別對每一個句子生成句向量查牌。
2)對倆個句子同時生成句向量。

基于本文的目標(biāo)滥壕,是提出一種通用的句向量的表達(dá)模型纸颜,顯然第一種方法更合適,而對于生成的每一組句向量绎橘,我們也會進(jìn)行concact處理胁孙,整合生成特征句子唠倦,再輸入到最后一層分類器中′探希基礎(chǔ)的訓(xùn)練模型架構(gòu)如下圖所示稠鼻,

Generic NLI training scheme.jpg

因此,本文其實是著重實驗了多個(7個)句向量的生成模型架構(gòu)狂票。主要的模型架構(gòu)闡述如下

1)LSTM +GRU
該模型架構(gòu)就是最普通最簡單的LSTM模型候齿,當(dāng)然是雙向的。同時也參考了SkipThought中的方法闺属,即將BI-GRU的慌盯,前向最后時刻狀態(tài)與后向最后時刻狀態(tài)相疊加。

2)BiLSTM with mean/max pooling
這個就是取BiLSTM結(jié)果的時候的處理方式不同掂器,mean pooling就是把所有時刻的狀態(tài)值取平均亚皂,max pooling就是取最大值。具體的示意圖如下国瓮,也比較簡單灭必,

Bi-LSTM max-pooling network.jpg
  1. Self-attentive network
    該方法可以參考我的另一篇論文筆記。思路也比較簡單巍膘,就是對句子中對每一個詞都計算得出一個權(quán)重厂财,再相加得出句向量。

4)Hierarchical ConvNet
其實就是一個4層的卷積網(wǎng)絡(luò)峡懈,每一層經(jīng)過max pooling都會得到一個句向量的表達(dá)璃饱,最后將4層得出的concact就是最終的句向量表達(dá),思路也比較簡單肪康,示意圖如下荚恶,

Hierarchical ConvNet architecture.jpg
2.3 實驗方法

之后,就是具體的實驗部分磷支,作者將上述訓(xùn)練得到的句向量谒撼,分別運用于12項NLP任務(wù)之中,在比較上述幾種模型的同時雾狈,也比較了其他各種生成句向量的方法廓潜。當(dāng)然,結(jié)論肯定是上述利用SNLI的句向量表達(dá)要優(yōu)于其他網(wǎng)絡(luò)訓(xùn)練出的句向量善榛,且最佳的模型為BiLSTM + Max Pooling辩蛋。具體的實驗過程本文不作展開,有興趣的同學(xué)可以參考原論文移盆,當(dāng)然本文也有開源代碼(基于pytorch)悼院,大家可以仔細(xì)研讀,作為入門的baseline也是相當(dāng)不錯的咒循。

------------------第三菇 - 總結(jié)------------------

3.1 總結(jié)

到這里据途,整篇論文的核心思想及其創(chuàng)新點已經(jīng)說清楚了绞愚。本文主要是推出了一種預(yù)訓(xùn)練句向量的思路,并且給出了最佳的預(yù)訓(xùn)練數(shù)據(jù)及最佳的預(yù)訓(xùn)練模型颖医,并且通過實驗論證了其可行性位衩。當(dāng)然,不得不承認(rèn)便脊,離通用的句向量模型還有很長的路要走~哈哈~

簡單總結(jié)一下本文就是先羅列了一下該論文的摘要蚂四,再具體介紹了一下本文作者的思路,也簡單表述了一下哪痰,其中的模型細(xì)節(jié)及訓(xùn)練細(xì)節(jié)遂赠。希望大家讀完本文后能進(jìn)一步加深對該論文的理解。有說的不對的地方也請大家指出晌杰,多多交流跷睦,大家一起進(jìn)步~??

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市肋演,隨后出現(xiàn)的幾起案子抑诸,更是在濱河造成了極大的恐慌,老刑警劉巖爹殊,帶你破解...
    沈念sama閱讀 222,681評論 6 517
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件蜕乡,死亡現(xiàn)場離奇詭異,居然都是意外死亡梗夸,警方通過查閱死者的電腦和手機(jī)层玲,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 95,205評論 3 399
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來反症,“玉大人辛块,你說我怎么就攤上這事∏Π” “怎么了润绵?”我有些...
    開封第一講書人閱讀 169,421評論 0 362
  • 文/不壞的土叔 我叫張陵,是天一觀的道長胞谈。 經(jīng)常有香客問我尘盼,道長,這世上最難降的妖魔是什么烦绳? 我笑而不...
    開封第一講書人閱讀 60,114評論 1 300
  • 正文 為了忘掉前任卿捎,我火速辦了婚禮,結(jié)果婚禮上爵嗅,老公的妹妹穿的比我還像新娘。我一直安慰自己笨蚁,他們只是感情好睹晒,可當(dāng)我...
    茶點故事閱讀 69,116評論 6 398
  • 文/花漫 我一把揭開白布趟庄。 她就那樣靜靜地躺著,像睡著了一般伪很。 火紅的嫁衣襯著肌膚如雪戚啥。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 52,713評論 1 312
  • 那天锉试,我揣著相機(jī)與錄音猫十,去河邊找鬼。 笑死呆盖,一個胖子當(dāng)著我的面吹牛拖云,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播应又,決...
    沈念sama閱讀 41,170評論 3 422
  • 文/蒼蘭香墨 我猛地睜開眼宙项,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了株扛?” 一聲冷哼從身側(cè)響起尤筐,我...
    開封第一講書人閱讀 40,116評論 0 277
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎洞就,沒想到半個月后盆繁,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 46,651評論 1 320
  • 正文 獨居荒郊野嶺守林人離奇死亡旬蟋,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 38,714評論 3 342
  • 正文 我和宋清朗相戀三年油昂,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片咖为。...
    茶點故事閱讀 40,865評論 1 353
  • 序言:一個原本活蹦亂跳的男人離奇死亡秕狰,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出躁染,到底是詐尸還是另有隱情鸣哀,我是刑警寧澤,帶...
    沈念sama閱讀 36,527評論 5 351
  • 正文 年R本政府宣布吞彤,位于F島的核電站我衬,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏饰恕。R本人自食惡果不足惜挠羔,卻給世界環(huán)境...
    茶點故事閱讀 42,211評論 3 336
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望埋嵌。 院中可真熱鬧破加,春花似錦、人聲如沸雹嗦。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,699評論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至锭环,卻和暖如春聪全,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背辅辩。 一陣腳步聲響...
    開封第一講書人閱讀 33,814評論 1 274
  • 我被黑心中介騙來泰國打工难礼, 沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人玫锋。 一個月前我還...
    沈念sama閱讀 49,299評論 3 379
  • 正文 我出身青樓蛾茉,卻偏偏與公主長得像,于是被迫代替她去往敵國和親景醇。 傳聞我的和親對象是個殘疾皇子臀稚,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 45,870評論 2 361

推薦閱讀更多精彩內(nèi)容