Bert系列（1）：從語言模型和Transformer開始

最近在工作中用bert做了不少NLP的算法任務(wù)社牲，但是對bert的前世今生總感覺了解不夠深入莺丑，通過開源社區(qū)的知識分享和原始論文的研讀谴返，做了以下學(xué)習(xí)筆記，結(jié)合工作中遇到場景命贴，爭取做到溫故知新：

博客來源：【1】http://jalammar.github.io/illustrated-transformer/

? ? ? ? ? ? ? ? ? 【2】https://zhuanlan.zhihu.com/p/48508221

? ? ? ? ? ? ? ? ? 【3】https://zhuanlan.zhihu.com/p/46833276

1. Language Model

語言模型來輔助NLP任務(wù)已經(jīng)得到了學(xué)術(shù)界較為廣泛的探討道宅，通常有兩種方式：

1.1 Feature-based方法

Feature-based指利用語言模型的中間結(jié)果也就是LM embedding, 將其作為額外的特征，引入到原任務(wù)的模型中胸蛛，例如在下圖中培己，采用了兩個單向RNN構(gòu)成的語言模型，將語言模型的中間結(jié)果

引入到序列標(biāo)注模型中胚泌，如下圖所示，其中左邊部分為序列標(biāo)注模型肃弟，也就是task-specific model玷室，每個任務(wù)可能不同零蓉，右邊是前向LM(Left-to-right)和后向LM(Right-To-Left), 兩個LM的結(jié)果進(jìn)行了合并，并將LM embedding與詞向量穷缤、第一層RNN輸出敌蜂、第二層RNN輸出進(jìn)行了concat操作。

Feature-based

1.2 Fine-tuning方法

Fine-tuning方式是指在已經(jīng)訓(xùn)練好的語言模型的基礎(chǔ)上津肛，加入少量的task-specific parameters, 例如對于分類問題在語言模型基礎(chǔ)上加一層softmax網(wǎng)絡(luò)章喉，然后在新的語料上重新訓(xùn)練來進(jìn)行fine-tune。

又比如身坐，針對實體識別秸脱，fine-tuning的方式就是在語言模型的基礎(chǔ)上加一層CRF層，并在實體標(biāo)注的訓(xùn)練語料重新訓(xùn)練模型部蛇。

首先語言模型采用了Transformer Decoder的方法來進(jìn)行訓(xùn)練摊唇，采用文本預(yù)測作為語言模型訓(xùn)練任務(wù)，訓(xùn)練完畢之后涯鲁，加一層Linear Project來完成分類/相似度計算等NLP任務(wù)巷查。因此總結(jié)來說，LM + Fine-Tuning的方法工作包括兩步：（1）構(gòu)造語言模型抹腿，采用大的語料A來訓(xùn)練語言模型（2）在語言模型基礎(chǔ)上增加少量神經(jīng)網(wǎng)絡(luò)層來完成specific task例如序列標(biāo)注岛请、分類等，然后采用有標(biāo)記的語料B來有監(jiān)督地訓(xùn)練模型警绩，這個過程中語言模型的參數(shù)并不固定崇败，依然是trainable variables.

2. Transformer

2.1 什么是Transformer

個人理解：一個解決長期依賴的，不依賴順序的房蝉，并行的特征抽取器僚匆。

Transformer中拋棄了傳統(tǒng)的CNN和RNN，整個網(wǎng)絡(luò)結(jié)構(gòu)完全是由Attention機(jī)制組成搭幻。更準(zhǔn)確地講咧擂，Transformer由且僅由self-Attention和Feed Forward Neural Network組成。

采用Attention機(jī)制的原因是考慮到RNN（或者LSTM檀蹋，GRU等）的計算限制為是順序的松申，也就是說RNN相關(guān)算法只能從左向右依次計算或者從右向左依次計算，這種機(jī)制帶來了兩個問題：（1）時間片 t的計算依賴 t-1時刻的計算結(jié)果俯逾，這樣限制了模型的并行能力贸桶；（2）順序計算的過程中信息會丟失，盡管LSTM等門機(jī)制的結(jié)構(gòu)一定程度上緩解了長期依賴的問題桌肴，但是對于特別長期的依賴現(xiàn)象,LSTM依舊無能為力皇筛。

首先它使用了Attention機(jī)制，將序列中的任意兩個位置之間的距離是縮小為一個常量坠七；其次它不是類似RNN的順序結(jié)構(gòu)水醋，因此具有更好的并行性旗笔，符合現(xiàn)有的GPU框架。

Transformer的本質(zhì)上是一個Encoder-Decoder的結(jié)構(gòu)拄踪，可以按下圖結(jié)構(gòu)進(jìn)行理解：

Encoder-Decoder結(jié)構(gòu)

如論文中所設(shè)置的蝇恶，編碼器由6個編碼block組成，同樣解碼器是6個解碼block組成惶桐。與所有的生成模型相同的是撮弧，編碼器的輸出會作為解碼器的輸入，如下圖所示：

encoder-decoder交互

在Transformer的encoder中姚糊，數(shù)據(jù)首先會經(jīng)過一個叫做‘self-attention’的模塊得到一個加權(quán)之后的特征向量 Z 贿衍，這個 Z 便是論文公式1中的 [公式1] ：

特征向量z

得到 [公式1]之后，它會被送到encoder的下一個模塊叛拷，即Feed Forward Neural Network舌厨。這個全連接有兩層，第一層的激活函數(shù)是ReLU忿薇，第二層是一個線性激活函數(shù)裙椭，可以表示為：

Feed Forward Neural Network

在最底層的block中，x將直接作為Transformer的輸入署浩，而在其他層中揉燃，輸入則是上一個block的輸出。

x在第一層encoder直接作為輸入

Decoder的結(jié)構(gòu)如下圖所示筋栋，它和encoder的不同之處在于Decoder多了一個Encoder-Decoder Attention炊汤，兩個Attention分別用于計算輸入和輸出的權(quán)值：Self-Attention：當(dāng)前翻譯和已經(jīng)翻譯的前文之間的關(guān)系；Encoder-Decoder Attention：當(dāng)前翻譯和編碼的特征向量之間的關(guān)系弊攘。

2.2 Self-Attention

Self-Attention是Transformer最核心的內(nèi)容,其核心內(nèi)容是為輸入向量的每個單詞學(xué)習(xí)一個權(quán)重

權(quán)重學(xué)習(xí)示意圖

在self-attention中抢腐，每個單詞有3個不同的向量，它們分別是Query向量（ Q）襟交，Key向量（ K ）和Value向量（V）迈倍，長度均是64。它們是通過3個不同的權(quán)值矩陣由嵌入向量 [公式] 乘以三個不同的權(quán)值矩陣 W(q),W(k),W(v)得到捣域，其中三個矩陣的尺寸也是相同的啼染。均是 512*64。

具體步驟

self-attention單個Query計算流程

self-attention整體結(jié)構(gòu)

Multi-Head Attention:Multi-Head Attention相當(dāng)于h個不同的self-attention的集成（ensemble）焕梅，在這里我們以h=8舉例說明迹鹅。Multi-Head Attention的輸出分成3步：

將數(shù)據(jù)X分別輸入到圖13所示的8個self-attention中，得到8個加權(quán)后的特征矩陣：

特征矩陣

將8個Z(i)按列拼成一個大的特征矩陣贞言；特征矩陣經(jīng)過一層全連接后得到輸出Z 斜棚。

Multi-Head Attention

2.3?Position Embedding

截止到已經(jīng)介紹的模塊，Transformer模型并還沒有具備捕捉順序序列的能力，也就是說無論句子的結(jié)構(gòu)怎么打亂弟蚀，Transformer都會得到類似的結(jié)果脂新。Transformer目前只是一個功能更強(qiáng)大的詞袋模型而已。

為了解決這個問題粗梭，論文中在編碼詞向量時引入了位置編碼（Position Embedding）的特征。具體地說级零，位置編碼會在詞向量中加入了單詞的位置信息断医，這樣Transformer就能區(qū)分不同位置的單詞了。通過下圖編碼公式進(jìn)行位置編碼奏纪。

編碼公式

根據(jù)一下兩個正余弦公式原理? 鉴嗤，這為模型捕捉單詞之間的相對位置關(guān)系提供了保障。

正余弦公式原理

2.4 Summary

Transformer整體網(wǎng)絡(luò)結(jié)構(gòu)

decoder解碼之后序调，解碼的特征向量經(jīng)過一層激活函數(shù)為softmax的全連接層之后得到反映每個單詞概率的輸出向量醉锅。此時便可以通過CTC等損失函數(shù)訓(xùn)練模型了。

而一個完整可訓(xùn)練的網(wǎng)絡(luò)結(jié)構(gòu)便是encoder和decoder的堆疊发绢，如左圖完整的Transformer的結(jié)構(gòu)硬耍。

Transformer本質(zhì)上也只是一個全連接（或者是一維卷積）加Attention的結(jié)合體。

Transformer的設(shè)計最大的帶來性能提升的關(guān)鍵是將任意兩個單詞的距離是1边酒，這對解決NLP中棘手的長期依賴問題是非常有效的经柴。

Transformer失去的位置信息其實在NLP中非常重要，且捕捉局部特征的能力比較缺失墩朦，而論文中在特征向量中加入Position Embedding也只是一個權(quán)宜之計坯认。

Transformer是第一個用純attention搭建的模型（特征抽取器），不僅計算速度更快氓涣，在翻譯任務(wù)上獲得了更好的結(jié)果牛哺，也為后續(xù)的BERT模型做了鋪墊。

論文參考

Reference：

[1] Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need [C]//Advances in Neural Information Processing Systems. 2017: 5998-6008.

[2] Bahdanau D, Cho K, Bengio Y. Neural machine translation by jointly learning to align and translate[J]. arXiv preprint arXiv:1409.0473, 2014.

[3] Devlin J, Chang M W, Lee K, et al. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding[J]. arXiv preprint arXiv:1810.04805, 2018.

[4] He K, Zhang X, Ren S, et al. Deep residual learning for image recognition[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2016: 770-778.

[5]Peters, Matthew, et al. "Semi-supervised sequence tagging with bidirectional language models."Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). Vol. 1. 2017.

[6]Peters M, Neumann M, Iyyer M, et al. Deep Contextualized Word Representations[C]//Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long Papers). 2018, 1: 2227-2237.

[7]Radford A, Narasimhan K, Salimans T, et al. Improving language understanding by generative pre-training[J]. URL?https://s3-us-west-2. amazonaws. com/openai-assets/research-covers/language-unsupervised/language_ understanding_paper. pdf, 2018.

[8]Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[C]//Advances in Neural Information Processing Systems. 2017: 5998-6008.

[9]Pre-training of Deep Bidirectional Transformers for Language Understanding

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末劳吠，一起剝皮案震驚了整個濱河市引润，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌赴背，老刑警劉巖椰拒，帶你破解...
沈念sama閱讀 221,695評論 6贊 515
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場離奇詭異凰荚，居然都是意外死亡燃观，警方通過查閱死者的電腦和手機(jī)，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 94,569評論 3贊 399
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門便瑟，熙熙樓的掌柜王于貴愁眉苦臉地迎上來缆毁，“玉大人，你說我怎么就攤上這事到涂〖箍颍” “怎么了颁督？”我有些...
開封第一講書人閱讀 168,130評論 0贊 360
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長浇雹。經(jīng)常有香客問我沉御，道長，這世上最難降的妖魔是什么昭灵？我笑而不...
開封第一講書人閱讀 59,648評論 1贊 297
?港島之戀（遺憾婚禮）
正文為了忘掉前任吠裆，我火速辦了婚禮，結(jié)果婚禮上烂完，老公的妹妹穿的比我還像新娘试疙。我一直安慰自己，他們只是感情好抠蚣，可當(dāng)我...
茶點故事閱讀 68,655評論 6贊 397
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布祝旷。她就那樣靜靜地躺著，像睡著了一般嘶窄。火紅的嫁衣襯著肌膚如雪怀跛。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 52,268評論 1贊 309
城市分裂傳說
那天护侮，我揣著相機(jī)與錄音敌完，去河邊找鬼。笑死羊初，一個胖子當(dāng)著我的面吹牛滨溉，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播长赞，決...
沈念sama閱讀 40,835評論 3贊 421
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼晦攒，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了得哆？” 一聲冷哼從身側(cè)響起脯颜，我...
開封第一講書人閱讀 39,740評論 0贊 276
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎贩据，沒想到半個月后栋操，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 46,286評論 1贊 318
?護(hù)林員之死
正文獨居荒郊野嶺守林人離奇死亡饱亮，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 38,375評論 3贊 340
?白月光啟示錄
正文我和宋清朗相戀三年矾芙，在試婚紗的時候發(fā)現(xiàn)自己被綠了。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片近上。...
茶點故事閱讀 40,505評論 1贊 352
活死人
序言：一個原本活蹦亂跳的男人離奇死亡剔宪，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情葱绒，我是刑警寧澤感帅，帶...
沈念sama閱讀 36,185評論 5贊 350
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站地淀，受9級特大地震影響失球，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜帮毁，卻給世界環(huán)境...
茶點故事閱讀 41,873評論 3贊 333
男人毒藥：我在死后第九天來索命
文/蒙蒙一她倘、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧作箍，春花似錦、人聲如沸前硫。這莊子的主人今日做“春日...
開封第一講書人閱讀 32,357評論 0贊 24
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽屹电。三九已至阶剑，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間危号，已是汗流浹背牧愁。一陣腳步聲響...
開封第一講書人閱讀 33,466評論 1贊 272
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留外莲，地道東北人猪半。一個月前我還...
沈念sama閱讀 48,921評論 3贊 376
代替公主和親
正文我出身青樓，卻偏偏與公主長得像偷线，于是被迫代替她去往敵國和親磨确。傳聞我的和親對象是個殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點故事閱讀 45,515評論 2贊 359