5WordEmbedding(下)-深度學習

Word Embedding 之深度學習

RNN:

RNN引入了隱狀態(tài)h（hidden state）的概念，h1接收到前一個隱狀態(tài)h0和當前輸入x1,結合權重和bias，輸出y1

image.png

RNN存在很多問題, 如序列足夠長RNN會遺漏掉比較早時刻的信息边败。當然還有反向傳播時候面臨梯度消失的問題放可，所以原生態(tài)RNN沒法用，LSTM在RNN基礎上做了優(yōu)化价匠。

LSTM：

LSTM除了RNN的h隱狀態(tài)又引入一條貫穿頂部的”傳送帶” Cell 狀態(tài) C, LSTM的關鍵之處就在于這個Cell的狀態(tài)正塌。

image.png

三個門：嘀略，遺忘門（下圖1）洼哎，輸入門（下圖2讶请，3）弥雹，輸出門（下圖4）抵窒。門與門之間通過一個sigmoid[0,1]和一個點乘操作組成, 結果0不能通過，1可以通過颗品。

image.png

回到LSTM為什么能解決RNN的不足苍碟，首先LSTM顧名思義“長短期記憶網絡”啥供，隨著C的加入稠集，LSTM有對長期記憶的處理奶段，同時“門”的加入進行了選擇性的保留和添加，所以也可以對短期以及進行處理巍杈。同時“門”的設計中忧饭，每個激活函數(shù)都是sigmoid[0,1], 使其輸出要嘛接近0扛伍，要嘛接近1.門為0時筷畦，說明上一時刻對當前時刻沒有影響，也就沒必要傳遞回來更新參數(shù)了。所以這樣很大程度上減輕了梯度消失發(fā)生的概率鳖宾。

LSTM在keras中的實際應用：

數(shù)據(jù)表-2D 形狀 = (樣本數(shù)吼砂，特征數(shù))
序列類-3D 形狀 = (樣本數(shù)，步長鼎文，特征數(shù))
圖像類-4D 形狀 = (樣本數(shù)渔肩，寬，高拇惋，通道數(shù))
視屏類-5D 形狀 = (樣本數(shù)周偎，幀數(shù)，寬撑帖，高蓉坎，通道數(shù))

這里重點說說序列類，輸入shape(samples, timesteps, input_dim)胡嘿，這里的timesteps可以理解為input_length蛉艾。比如100條句子，每條句子有13個單詞衷敌，每個單詞200維勿侯，shape(100, 13, 200)。當然這個是比較簡單的解釋缴罗，實際中因每條句子長度不一樣助琐，需將句子設置為最長長度，句子長度不足的padding補0瞒爬。keras中model.add(LSTM(128,....))看下圖代碼中表示是隱層ht是128維弓柱。

輸出時，當return_sequence = True時侧但，返回3D張量 shape(samples, timesteps, output_dim)

否則矢空，返回shape(samples, output_dim) 2D張量

image.png

keras現(xiàn)在被tensorflow封裝的好，當然用tf也可以實現(xiàn)禀横，下面是多層LSTM用TF實現(xiàn)

image.png

GRU：

GRU在LSTM基礎上做了變種屁药，組合了遺忘門和輸入門到一個單獨的“更新門”，同時也結合了cell狀態(tài)C和隱狀態(tài)h柏锄，變得比LSTM更簡單酿箭。

image.png

查了一些論文，說這兩種方法基本上一樣趾娃。如果數(shù)據(jù)少用GRU更快缭嫡，如果數(shù)據(jù)多，LSTM也許會有更好的結果.

ELMO

雙層雙向LSTM抬闷，由一個向前和向后語言模型構成妇蛀，目標函數(shù)取這兩個方向的最大似然耕突。相對于最基本的LSTM，ELMO相當于deep model. 從之前討論深度學習的本質來看评架，ELMO比LSTM提取到了更多詞義眷茁，句法，上下文關系纵诞，long term dependency等等特征信息上祈。所以ELMO目的在解決一詞多義的問題，即在不同的上下文環(huán)境下浙芙，哪怕是同一個詞登刺，也會表達出不同的含義。

image.png

Elmo由RNN演變而來嗡呼，所以具備了時序模型類一個最大問題：無法并行計算（計算的本質）塘砸，咱們的GPU再強大，core再多晤锥，提速也不理想掉蔬。但是不用時序模型，又沒法“記憶”矾瘾。有沒有一種方法即可以讓計算機并行計算女轿，模型又具備“記憶”功能。Attention就這樣橫空出世壕翩。

Transformer

首先看幾幅圖蛉迹，來自論文“Why Self-Attention?....”和張俊林的博文

image.png

這樣一對比，是不是看出來Transformer在各項指標上都碾壓了RNN和CNN放妈。為什么會這樣北救？

image.png

上圖就是transformer的內部構造，除了大家都知道的self-attention在發(fā)揮作用外芜抒，還有transform里的各個“部件”也發(fā)揮著作用珍策。一起先看看self-attention

image.png

Query貫穿整個流程，與Key發(fā)生交互后輸出value宅倒，這就是attention抽象流程圖攘宙，具體是怎么樣了？

image.png

”Thinking”輸入是one-hot編碼拐迁，假設通過embedding形成1 * 4矩陣蹭劈，再與q權重wq(4 * 3)矩陣相乘得出個1 * 3矩陣的q值，同樣的分別得到k與v值线召。q與k的值得到score铺韧，為了更好normalization轉換后進行softmax得到概率，再與v值相乘輸出缓淹。從這可以看出q值分別與每個詞的k值相乘得到score哈打，然后判斷每個詞與自己的相關性工窍。這里與每個詞都相乘了再判斷，所以attention解決了RNN句子太長會損失最初信息的問題前酿，attention“記住”了所有詞的信息。另外因為attention每個詞都是一樣的相乘鹏溯，所以解決了RNN無法并行計算的問題罢维。只是因為attention的加入，transformer才表現(xiàn)的這么好嗎丙挽？做個小實驗肺孵，用transformer的內部構造，把self-attention替換成雙向RNN和CNN颜阐，看看最后結果

image.png

可以看出替換了雙向RNN和CNN后平窘，性能得到不同幅度的提升。Transformer有什么神構造這么厲害凳怨？看下圖

image.png

把x輸入向量與attention后z向量做相加和歸一化（add&Normalize）瑰艘，在減少信息損失的同時，讓分布更均勻肤舞，這樣便于訓練梯度紫新。做完后，向量z1做一次前饋神經網絡提取更細致的特征李剖，然后與提取前的輸入結合再做一次add&normalize芒率。Transformer的架構就是一個優(yōu)化框架。Multi-head attention使用不同的attention關注點的特征篙顺，一開始是隨機初始化偶芍，通過訓練輸入到前饋神經網絡后獲取不同w值，這么多組都輸入到前饋神經網絡是不合理的德玫，所以為了解決這個問題匪蟀，需要再初始化一個矩陣w，和多個attention結果做乘法最終變換成前饋神經網絡可以接收的大小宰僧。

最后就是encoder - decoder萄窜。 Self-attention 是自身去做attention，輸入和輸出是一樣長撒桨，encoder-decoder attention對編碼輸入和解碼輸出做attention,可以不是一樣長查刻。Decoder后再經過Linear線性計算，然后做一次softmax.

image.png

Bert

雙向transformer,相當于把ELMO中的LSTM替換成transformer.

image.png

Transformer XL

RNN主要的問題是梯度消失和梯度爆炸的問題凤类，而且其捕捉上下文的長度沒有Transformer那么強大穗泵，而Transformer雖然能力比較強，但是在預測時會受到訓練時所設定的最大長度限制谜疤。兩者都局限在捕捉長期依賴性上佃延。

Transformer規(guī)定輸入大小為512现诀，這意味著我們需要對原始的輸入文本進行裁剪或填充.剪裁填充后，整個文章被割裂履肃，這樣文本如果跨片段就無法學習仔沿。Transformer XL做了兩件事：XL把上一次處理的片段存儲起來，在當前片段的處理中會把這部分信息添加進來尺棋，這便是“延長”的含義封锉。這樣做便完成了上下文之間的遷移。第二件事是使用相對編碼位置膘螟，Transformer原本的位置embedding是一種絕對的位置編碼成福。XL做第一件事時，絕對位置編碼會發(fā)生變化荆残。

XLNet

BERT 雖然用了深層雙向信息奴艾，但沒有對被遮掩（Mask）的 token 之間的關系進行直接學習，因此 XLNet 通過提出 Permutation Language Model （PLM）對其進行了學習内斯。

更多的數(shù)據(jù)蕴潦，還有用 Transformer-XL 中的技巧帶來的更大范圍上下文，對模型有正向加強俘闯。這就是為什么XLNet數(shù)據(jù)上能跑過Bert.

image.png

最近的新聞品擎，F(xiàn)acebook AI團隊 RoBERTa 采用Bert-Large，并通過更多的數(shù)據(jù)和更長時間的訓練來提升預訓練的過程备徐，最終結果超過XLNet萄传。其實到這里，我對NLP還是有點失望的蜜猾，自從Bert誕生再到Transformer XL再到XLNet, Google大佬們引領這AI進入了需要更多數(shù)據(jù)和更強計算力才能跑贏各項指標的時代秀菱。不客氣的講一句，我這有大量數(shù)據(jù)又有超強計算力蹭睡，用什么模型不都一樣能跑出不錯的分數(shù)衍菱，這樣讓“算法”不知不覺中從核心變成了輔助，讓數(shù)據(jù)量和計算機的算力成為了主角肩豁。更致命的一點是脊串，數(shù)據(jù)如果都需要TPU來跑了，工業(yè)界又有多少能承擔的起清钥？又怎么落地了琼锋？

最后編輯于：2019.10.14 16:33:31

?著作權歸作者所有,轉載或內容合作請聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市祟昭，隨后出現(xiàn)的幾起案子缕坎，更是在濱河造成了極大的恐慌，老刑警劉巖篡悟，帶你破解...
沈念sama閱讀 219,427評論 6贊 508
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件谜叹，死亡現(xiàn)場離奇詭異匾寝，居然都是意外死亡，警方通過查閱死者的電腦和手機荷腊，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 93,551評論 3贊 395
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門艳悔，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人女仰，你說我怎么就攤上這事猜年。” “怎么了董栽？”我有些...
開封第一講書人閱讀 165,747評論 0贊 356
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長企孩。經常有香客問我锭碳，道長，這世上最難降的妖魔是什么勿璃？我笑而不...
開封第一講書人閱讀 58,939評論 1贊 295
?港島之戀（遺憾婚禮）
正文為了忘掉前任擒抛，我火速辦了婚禮，結果婚禮上补疑，老公的妹妹穿的比我還像新娘歧沪。我一直安慰自己，他們只是感情好莲组，可當我...
茶點故事閱讀 67,955評論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布诊胞。她就那樣靜靜地躺著，像睡著了一般锹杈。火紅的嫁衣襯著肌膚如雪撵孤。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 51,737評論 1贊 305
城市分裂傳說
那天竭望，我揣著相機與錄音邪码，去河邊找鬼。笑死咬清，一個胖子當著我的面吹牛闭专，可吹牛的內容都是我干的。我是一名探鬼主播旧烧，決...
沈念sama閱讀 40,448評論 3贊 420
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼影钉，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了掘剪？” 一聲冷哼從身側響起斧拍，我...
開封第一講書人閱讀 39,352評論 0贊 276
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎杖小，沒想到半個月后肆汹，有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體愚墓，經...
沈念sama閱讀 45,834評論 1贊 317
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內容為張勛視角年9月15日...
茶點故事閱讀 37,992評論 3贊 338
?白月光啟示錄
正文我和宋清朗相戀三年昂勉，在試婚紗的時候發(fā)現(xiàn)自己被綠了浪册。大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點故事閱讀 40,133評論 1贊 351
活死人
序言：一個原本活蹦亂跳的男人離奇死亡岗照，死狀恐怖村象，靈堂內的尸體忽然破棺而出，到底是詐尸還是另有隱情攒至，我是刑警寧澤厚者，帶...
沈念sama閱讀 35,815評論 5贊 346
?日本核電站爆炸內幕
正文年R本政府宣布，位于F島的核電站迫吐，受9級特大地震影響库菲，放射性物質發(fā)生泄漏。R本人自食惡果不足惜志膀，卻給世界環(huán)境...
茶點故事閱讀 41,477評論 3贊 331
男人毒藥：我在死后第九天來索命
文/蒙蒙一熙宇、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧溉浙，春花似錦烫止、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 32,022評論 0贊 22
一樁弒父案馆蠕，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至惊奇，卻和暖如春荆几，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背赊时。一陣腳步聲響...
開封第一講書人閱讀 33,147評論 1贊 272
情欲美人皮
我被黑心中介騙來泰國打工吨铸，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留，地道東北人祖秒。一個月前我還...
沈念sama閱讀 48,398評論 3贊 373
代替公主和親
正文我出身青樓诞吱，卻偏偏與公主長得像，于是被迫代替她去往敵國和親竭缝。傳聞我的和親對象是個殘疾皇子房维，可洞房花燭夜當晚...
茶點故事閱讀 45,077評論 2贊 355

5WordEmbedding(下)-深度學習

Word Embedding 之深度學習

RNN:

LSTM：

GRU：

ELMO

Bert

Transformer XL

XLNet

推薦閱讀更多精彩內容