關(guān)于ELMo你不知道的一些細(xì)節(jié)

今年四月份做了關(guān)于elmo復(fù)現(xiàn)和微調(diào)方面的工作玄柏。近期在內(nèi)部和鳳巢做了兩次關(guān)于elmo的分享八拱,感覺大家對(duì)這個(gè)模型較為陌生柱恤,發(fā)現(xiàn)其中有些細(xì)節(jié)和經(jīng)驗(yàn)值得拿出來說一說,希望對(duì)你會(huì)有所幫助拷况。

? ? ? ? ELMo全稱Embeddings from Language Models作煌,是2018年allen nlp的發(fā)布的大規(guī)模語義模型,paper為《Deep contextualized word representations》赚瘦。

? ? ? ? 既然有Bert為什么要講ELMo粟誓?個(gè)人認(rèn)為,其實(shí)ELMO微調(diào)方式有一定創(chuàng)新性起意,給人以啟發(fā)鹰服。

? ? ? 以下是根據(jù)個(gè)人經(jīng)驗(yàn)梳理出來的你值得關(guān)注的一些細(xì)節(jié)。? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?

細(xì)節(jié)一:elmo的網(wǎng)絡(luò)結(jié)構(gòu)是雙向雙層的lstm,如何實(shí)現(xiàn)雙向的lstm的呢揽咕?

? ? ? 與Bert在預(yù)訓(xùn)練目標(biāo)中使用masked language model來實(shí)現(xiàn)雙向不同悲酷,ELMo的雙向概念實(shí)際是在網(wǎng)絡(luò)結(jié)構(gòu)中體現(xiàn)的。輸入的embedding通過lstm的hidden state作為正向輸出亲善,embedding做reverse后的結(jié)果再通過lstm的hidden state反向輸出舔涎,正向輸出與反向輸出做concat。最后輸出實(shí)際是個(gè)lauguage model逗爹,基于前面的詞計(jì)算下一個(gè)詞的概率。

細(xì)節(jié)二:與Bert的相比,ELMo微調(diào)是如何實(shí)現(xiàn)的掘而?

? ? ? ELMo的微調(diào)從嚴(yán)格意義上來說挟冠,不是真正的微調(diào),預(yù)訓(xùn)練網(wǎng)絡(luò)結(jié)果是fix的袍睡。 整體來說知染,是把句子輸入到預(yù)訓(xùn)練網(wǎng)絡(luò)的embedding,與下游任務(wù)word embedding做concat斑胜,concat的結(jié)果整體作為下游NLP任務(wù)的輸出控淡。圖為上游ELMO網(wǎng)絡(luò)遷移到下游閱讀理解bidaf網(wǎng)絡(luò)中。

ELMo遷移到下游NLP任務(wù)

細(xì)節(jié)三:ELMo的語義表示輸出是如何處理的止潘?

ELMo的語義表示輸出計(jì)算公式如下:

其中掺炭,hk 代表三層的輸出(分別是embedding層,第一層lstm凭戴,第二層lstm)涧狮,與W相乘的權(quán)重參數(shù), 通過 個(gè)softmax得到? , 權(quán)重參數(shù)W加入 L2 正則么夫,防止擬合者冤。

r是整體的縮放因 ,為的是與下游的任務(wù) embedding概率分布統(tǒng)一 档痪。

代碼里還有個(gè)小技巧涉枫,word embeding層是256維,所以他把相同word embedding做個(gè)concat腐螟,與lstm輸出的516維統(tǒng)一起來愿汰。

從這些細(xì)節(jié)處理可以看出ELMo在微調(diào)階段的處理與Bert有挺大的不同。

細(xì)節(jié)四:elmo適合哪些下游NLP 任務(wù)遭垛?

ELMo在短本任務(wù)上表現(xiàn)好尼桶。ELMo遷移到下游網(wǎng)絡(luò)中, 一個(gè)是答案較短的數(shù)據(jù)集锯仪,提升有3-4個(gè)點(diǎn)泵督, 一個(gè)答案較長(zhǎng)的數(shù)據(jù)集,提升只有0.5 左右庶喜。在實(shí)驗(yàn)中小腊,我們對(duì)比過詞法分析和閱讀理解任務(wù),其在詞法分析效果好于閱讀理解久窟。

細(xì)節(jié)五:elmo還有哪些值得注意的參數(shù)細(xì)節(jié)秩冈?

1. dropout的處理方式:訓(xùn)練時(shí)候設(shè)置為0.5,為防止過擬合斥扛。infer階段dropout設(shè)置為0入问。

2.r值對(duì)微調(diào)階段影響很大。r值對(duì)語義表示的輸出調(diào)節(jié)與下游NLP任務(wù)的閾值有較大幫助。

3.No L2 和 L2效果差不多芬失。elmo的語義表示輸出公式中權(quán)重參數(shù)W中加入了L2正則楣黍,從實(shí)驗(yàn)結(jié)果來,沒有L2正則對(duì)結(jié)果影響不大棱烂,猜想可能是dropout的設(shè)置過大租漂,導(dǎo)致L2對(duì)結(jié)果不產(chǎn)生影響。

圖為ELMo遷移到下游網(wǎng)絡(luò)的結(jié)果颊糜,紅色的baseline為百度詞法分析LAC哩治。

細(xì)節(jié)六: 如何訓(xùn)練自己的elmo中文預(yù)訓(xùn)練模型?

? ? ? 準(zhǔn)備約3G的中文文檔數(shù)據(jù)衬鱼。GPU:8卡GPU业筏,顯存大于22GB,調(diào)節(jié)batch_size馁启,適合于顯存大小驾孔,最大限度利用顯存資源。訓(xùn)練時(shí)間約為一周惯疙,7天翠勉。

細(xì)節(jié)七:ELMO微調(diào)訓(xùn)練周期長(zhǎng)的下游任務(wù),如何在較短時(shí)間看是否靠譜霉颠?

? ? ? 有個(gè)技巧是把finetune階段dropout往大了調(diào)对碌,使其快速過擬合≥镔耍看峰值是否符合預(yù)期朽们。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市诉位,隨后出現(xiàn)的幾起案子骑脱,更是在濱河造成了極大的恐慌,老刑警劉巖苍糠,帶你破解...
    沈念sama閱讀 211,348評(píng)論 6 491
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件叁丧,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡岳瞭,警方通過查閱死者的電腦和手機(jī)拥娄,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,122評(píng)論 2 385
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來瞳筏,“玉大人稚瘾,你說我怎么就攤上這事∫唬” “怎么了摊欠?”我有些...
    開封第一講書人閱讀 156,936評(píng)論 0 347
  • 文/不壞的土叔 我叫張陵丢烘,是天一觀的道長(zhǎng)。 經(jīng)常有香客問我凄硼,道長(zhǎng)铅协,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 56,427評(píng)論 1 283
  • 正文 為了忘掉前任摊沉,我火速辦了婚禮,結(jié)果婚禮上痒给,老公的妹妹穿的比我還像新娘说墨。我一直安慰自己,他們只是感情好苍柏,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,467評(píng)論 6 385
  • 文/花漫 我一把揭開白布尼斧。 她就那樣靜靜地躺著,像睡著了一般试吁。 火紅的嫁衣襯著肌膚如雪棺棵。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,785評(píng)論 1 290
  • 那天熄捍,我揣著相機(jī)與錄音烛恤,去河邊找鬼。 笑死余耽,一個(gè)胖子當(dāng)著我的面吹牛缚柏,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播碟贾,決...
    沈念sama閱讀 38,931評(píng)論 3 406
  • 文/蒼蘭香墨 我猛地睜開眼币喧,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來了袱耽?” 一聲冷哼從身側(cè)響起杀餐,我...
    開封第一講書人閱讀 37,696評(píng)論 0 266
  • 序言:老撾萬榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎朱巨,沒想到半個(gè)月后史翘,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 44,141評(píng)論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡蔬崩,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,483評(píng)論 2 327
  • 正文 我和宋清朗相戀三年恶座,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片沥阳。...
    茶點(diǎn)故事閱讀 38,625評(píng)論 1 340
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡跨琳,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出桐罕,到底是詐尸還是另有隱情脉让,我是刑警寧澤桂敛,帶...
    沈念sama閱讀 34,291評(píng)論 4 329
  • 正文 年R本政府宣布,位于F島的核電站溅潜,受9級(jí)特大地震影響术唬,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜滚澜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,892評(píng)論 3 312
  • 文/蒙蒙 一粗仓、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧设捐,春花似錦借浊、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,741評(píng)論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至槐沼,卻和暖如春曙蒸,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背岗钩。 一陣腳步聲響...
    開封第一講書人閱讀 31,977評(píng)論 1 265
  • 我被黑心中介騙來泰國(guó)打工纽窟, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人凹嘲。 一個(gè)月前我還...
    沈念sama閱讀 46,324評(píng)論 2 360
  • 正文 我出身青樓师倔,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親周蹭。 傳聞我的和親對(duì)象是個(gè)殘疾皇子趋艘,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,492評(píng)論 2 348

推薦閱讀更多精彩內(nèi)容

  • 本文上兩篇系列 NLP的巨人肩膀(上) NLP的巨人肩膀(中) 4.6 Bidirectional Encoder...
    weizier閱讀 6,399評(píng)論 1 22
  • 本文另兩篇系列 NLP的巨人肩膀(上) NLP的巨人肩膀(下) 3. 梯子的一級(jí)半 除了在word級(jí)別的embed...
    weizier閱讀 6,580評(píng)論 0 18
  • 我有一個(gè)可愛的芭比娃娃瓷胧。她長(zhǎng)著金黃色的頭發(fā),有一雙美麗的大眼睛棚愤,一個(gè)櫻桃小嘴搓萧。她穿著粉紅色的長(zhǎng)裙,裙子上還...
    王子瑜sky閱讀 200評(píng)論 0 0
  • 那就上車吧宛畦,帶你去一個(gè)有趣的地方瘸洛,她指了指停在路邊的那輛紅色轎車。 一個(gè)帶著幽藍(lán)色燈光...
    大雁的文字閱讀 144評(píng)論 0 1
  • 現(xiàn)在我在寫這篇的時(shí)候次和,是2018年的最后一天反肋,跟往年一樣,年終感慨肯定得是要有的踏施,想來2018還是發(fā)生了很多事情的...
    隨便一名字閱讀 154評(píng)論 0 3