ELMo 原理解析

本文首發(fā)于我的個(gè)人博客:Sui Xin's Blog
原文:https://suixinblog.cn/2019/09/elmo.html
作者:Sui Xin

ELMo (Embeddings from Language Models) 是一個(gè)深度上下文相關(guān)的詞嵌入語言模型咱筛。運(yùn)用了多層雙向 LSTM 編碼器融撞。
論文:Deep contextualized word representations

模型架構(gòu)

ELMo

整體上,ELMo 采用了多層雙向 LSTM 編碼器(上圖為雙層)構(gòu)建語言模型淮椰,最終取各層 LSTM 的 hidden state 與初始的 word embedding 構(gòu)成下游任務(wù)的輸入簿透。

Bi-LSTM LM

前向的語言模型為:
p\left(t_{1}, t_{2}, \ldots, t_{N}\right)=\prod_{k=1}^{N} p\left(t_{k} | t_{1}, t_{2}, \ldots, t_{k-1}\right)
后向的語言模型為:
p\left(t_{1}, t_{2}, \ldots, t_{N}\right)=\prod_{k=1}^{N} p\left(t_{k} | t_{k+1}, t_{k+2}, \ldots, t_{N}\right)
最終的語言模型極大似然函數(shù)為:
\begin{array}{l}{\sum_{k=1}^{N}\left(\log p\left(t_{k} | t_{1}, \ldots, t_{k-1} ; \Theta_{x}, \vec{\Theta}_{L S T M}, \Theta_{s}\right)\right.}{\left.+\log p\left(t_{k} | t_{k+1}, \ldots, t_{N} ; \Theta_{x}, \overleftarrow \Theta_{L S T M}, \Theta_{s}\right)\right)}\end{array}
其中妒蛇,\Theta_{x} 是 token 表示層的參數(shù)菱属,\Theta_{s} 是 softmax 層的參數(shù)引瀑,這兩個(gè)參數(shù)在前向和后向的語言模型中是共享的肛宋,只有 LSTM 的參數(shù)不同州藕。

ELMo

對(duì)于一個(gè) token t_kL 層的 Bi-LSTM 可以得到 2L+1 個(gè)表示酝陈,最終通過拼接得到 L+1 個(gè)特征:
\begin{aligned} R_{k} &=\left\{\mathbf{x}_{k}^{L M}, \overrightarrow{\mathbf{h}}_{k, j}^{L M}, \overleftarrow{\mathbf{h}}_{k, j}^{L M} | j=1, \ldots, L\right\} \\ &=\left\{\mathbf{h}_{k, j}^{L M} | j=0, \ldots, L\right\} \end{aligned}
其中床玻,\mathbf{h}_{k, 0}^{L M}=[\mathbf{x}_{k}^{L M}; \mathbf{x}_{k}^{L M}] 是 token embedding 重復(fù)拼接得到的向量,\mathbf{h}_{k, j}^{L M}=[\overrightarrow{\mathbf{h}}_{k, j}^{L M}; \overleftarrow{\mathbf{h}}_{k, j}^{L M}] 是雙向的 LSTM 層 hidden state 拼接得到的向量沉帮。
對(duì)于下游的監(jiān)督學(xué)習(xí)任務(wù)锈死,一般的做法是直接取 LSTM 最頂層的 hidden state 作為特征,但 ELMo 認(rèn)為模型不同層學(xué)到的是不同的信息穆壕,所以應(yīng)該對(duì)得到的 L+1 個(gè)特征計(jì)算一個(gè)加權(quán)組合:
\mathbf{E} \mathbf{L} \mathbf{M} \mathbf{o}_{k}^{t a s k}=E\left(R_{k} ; \Theta^{t a s k}\right)=\gamma^{t a s k} \sum_{j=0}^{L} s_{j}^{t a s k} \mathbf{h}_{k, j}^{L M}
其中待牵,s_{j}^{t a s k} 是一個(gè) softmax 歸一化的權(quán)重系數(shù),用于指示每一層應(yīng)該放置多少關(guān)注度喇勋,\gamma^{t a s k} 是一個(gè)全局的縮放系數(shù)缨该,實(shí)驗(yàn)證明其非常重要。

下游任務(wù)使用

對(duì)于一部分任務(wù)川背,將原始的嵌入向量和 ELMo 加權(quán)向量拼接即可作為下游任務(wù)的特征:\left[\mathbf{x}_{k} ; \mathbf{E} \mathbf{L} \mathbf{M} \mathbf{o}_{k}^{t a s k}\right]
對(duì)于一部分任務(wù)贰拿,將 LSTM 某些中間層的嵌入向量和 ELMo 加權(quán)向量拼接可提升效果:\left[\mathbf{h}_{k} ; \mathbf{E} \mathbf{L} \mathbf{M} \mathbf{o}_{k}^{t a s k}\right]
某些情況下蛤袒,在下游任務(wù)中 fine-tuning 可極大的提升效果。

模型特點(diǎn)

優(yōu)勢(shì)

  • 上下文相關(guān)的 contextual 語言模型:減輕一詞多義的影響壮不;
  • 雙向編碼語言模型汗盘;
  • 模型深皱碘。
  • 不同的層捕獲到不同的自然語言信息:較低層捕獲到語法信息询一,較高層捕獲到語義信息。

缺點(diǎn)

  • 是偽的雙向模型癌椿;
  • 特征抽取器為 LSTM 而不是更強(qiáng)的 Transformer健蕊。

參考

官方網(wǎng)址:https://allennlp.org/elmo
官方 GitHub:https://github.com/allenai/bilm-tf

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市踢俄,隨后出現(xiàn)的幾起案子缩功,更是在濱河造成了極大的恐慌,老刑警劉巖都办,帶你破解...
    沈念sama閱讀 206,378評(píng)論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件嫡锌,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡琳钉,警方通過查閱死者的電腦和手機(jī)势木,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,356評(píng)論 2 382
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來歌懒,“玉大人啦桌,你說我怎么就攤上這事〖霸恚” “怎么了甫男?”我有些...
    開封第一講書人閱讀 152,702評(píng)論 0 342
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)验烧。 經(jīng)常有香客問我板驳,道長(zhǎng),這世上最難降的妖魔是什么碍拆? 我笑而不...
    開封第一講書人閱讀 55,259評(píng)論 1 279
  • 正文 為了忘掉前任若治,我火速辦了婚禮,結(jié)果婚禮上倔监,老公的妹妹穿的比我還像新娘直砂。我一直安慰自己,他們只是感情好浩习,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,263評(píng)論 5 371
  • 文/花漫 我一把揭開白布静暂。 她就那樣靜靜地躺著,像睡著了一般谱秽。 火紅的嫁衣襯著肌膚如雪洽蛀。 梳的紋絲不亂的頭發(fā)上摹迷,一...
    開封第一講書人閱讀 49,036評(píng)論 1 285
  • 那天,我揣著相機(jī)與錄音郊供,去河邊找鬼峡碉。 笑死,一個(gè)胖子當(dāng)著我的面吹牛驮审,可吹牛的內(nèi)容都是我干的鲫寄。 我是一名探鬼主播,決...
    沈念sama閱讀 38,349評(píng)論 3 400
  • 文/蒼蘭香墨 我猛地睜開眼疯淫,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼地来!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起熙掺,我...
    開封第一講書人閱讀 36,979評(píng)論 0 259
  • 序言:老撾萬榮一對(duì)情侶失蹤未斑,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后币绩,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體蜡秽,經(jīng)...
    沈念sama閱讀 43,469評(píng)論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 35,938評(píng)論 2 323
  • 正文 我和宋清朗相戀三年缆镣,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了芽突。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 38,059評(píng)論 1 333
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡费就,死狀恐怖诉瓦,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情力细,我是刑警寧澤睬澡,帶...
    沈念sama閱讀 33,703評(píng)論 4 323
  • 正文 年R本政府宣布,位于F島的核電站眠蚂,受9級(jí)特大地震影響煞聪,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜逝慧,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,257評(píng)論 3 307
  • 文/蒙蒙 一昔脯、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧笛臣,春花似錦云稚、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,262評(píng)論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春鲸拥,著一層夾襖步出監(jiān)牢的瞬間拐格,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,485評(píng)論 1 262
  • 我被黑心中介騙來泰國(guó)打工刑赶, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留捏浊,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 45,501評(píng)論 2 354
  • 正文 我出身青樓撞叨,卻偏偏與公主長(zhǎng)得像金踪,于是被迫代替她去往敵國(guó)和親惜纸。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,792評(píng)論 2 345