Bert系列(1):從語言模型和Transformer開始

最近在工作中用bert做了不少NLP的算法任務(wù)社牲,但是對bert的前世今生總感覺了解不夠深入莺丑,通過開源社區(qū)的知識分享和原始論文的研讀谴返,做了以下學(xué)習(xí)筆記,結(jié)合工作中遇到場景命贴,爭取做到溫故知新:

博客來源:【1】http://jalammar.github.io/illustrated-transformer/

? ? ? ? ? ? ? ? ? 【2】https://zhuanlan.zhihu.com/p/48508221

? ? ? ? ? ? ? ? ? 【3】https://zhuanlan.zhihu.com/p/46833276

1. Language Model

語言模型來輔助NLP任務(wù)已經(jīng)得到了學(xué)術(shù)界較為廣泛的探討道宅,通常有兩種方式:

1.1 Feature-based方法

Feature-based指利用語言模型的中間結(jié)果也就是LM embedding, 將其作為額外的特征,引入到原任務(wù)的模型中胸蛛,例如在下圖中培己,采用了兩個單向RNN構(gòu)成的語言模型,將語言模型的中間結(jié)果

引入到序列標(biāo)注模型中胚泌,如下圖所示,其中左邊部分為序列標(biāo)注模型肃弟,也就是task-specific model玷室,每個任務(wù)可能不同零蓉,右邊是前向LM(Left-to-right)和后向LM(Right-To-Left), 兩個LM的結(jié)果進(jìn)行了合并,并將LM embedding與詞向量穷缤、第一層RNN輸出敌蜂、第二層RNN輸出進(jìn)行了concat操作。

Feature-based

1.2 Fine-tuning方法

Fine-tuning方式是指在已經(jīng)訓(xùn)練好的語言模型的基礎(chǔ)上津肛,加入少量的task-specific parameters, 例如對于分類問題在語言模型基礎(chǔ)上加一層softmax網(wǎng)絡(luò)章喉,然后在新的語料上重新訓(xùn)練來進(jìn)行fine-tune。

又比如身坐,針對實體識別秸脱,fine-tuning的方式就是在語言模型的基礎(chǔ)上加一層CRF層,并在實體標(biāo)注的訓(xùn)練語料重新訓(xùn)練模型部蛇。

首先語言模型采用了Transformer Decoder的方法來進(jìn)行訓(xùn)練摊唇,采用文本預(yù)測作為語言模型訓(xùn)練任務(wù),訓(xùn)練完畢之后涯鲁,加一層Linear Project來完成分類/相似度計算等NLP任務(wù)巷查。因此總結(jié)來說,LM + Fine-Tuning的方法工作包括兩步:(1)構(gòu)造語言模型抹腿,采用大的語料A來訓(xùn)練語言模型(2)在語言模型基礎(chǔ)上增加少量神經(jīng)網(wǎng)絡(luò)層來完成specific task例如序列標(biāo)注岛请、分類等,然后采用有標(biāo)記的語料B來有監(jiān)督地訓(xùn)練模型警绩,這個過程中語言模型的參數(shù)并不固定崇败,依然是trainable variables.


2. Transformer

2.1 什么是Transformer

個人理解:一個解決長期依賴的,不依賴順序的房蝉,并行的特征抽取器僚匆。

Transformer中拋棄了傳統(tǒng)的CNN和RNN,整個網(wǎng)絡(luò)結(jié)構(gòu)完全是由Attention機(jī)制組成搭幻。更準(zhǔn)確地講咧擂,Transformer由且僅由self-Attention和Feed Forward Neural Network組成。

采用Attention機(jī)制的原因是考慮到RNN(或者LSTM檀蹋,GRU等)的計算限制為是順序的松申,也就是說RNN相關(guān)算法只能從左向右依次計算或者從右向左依次計算,這種機(jī)制帶來了兩個問題:(1)時間片 t的計算依賴 t-1時刻的計算結(jié)果俯逾,這樣限制了模型的并行能力贸桶;(2)順序計算的過程中信息會丟失,盡管LSTM等門機(jī)制的結(jié)構(gòu)一定程度上緩解了長期依賴的問題桌肴,但是對于特別長期的依賴現(xiàn)象,LSTM依舊無能為力皇筛。

首先它使用了Attention機(jī)制,將序列中的任意兩個位置之間的距離是縮小為一個常量坠七;其次它不是類似RNN的順序結(jié)構(gòu)水醋,因此具有更好的并行性旗笔,符合現(xiàn)有的GPU框架。

Transformer的本質(zhì)上是一個Encoder-Decoder的結(jié)構(gòu)拄踪,可以按下圖結(jié)構(gòu)進(jìn)行理解:


Encoder-Decoder結(jié)構(gòu)

如論文中所設(shè)置的蝇恶,編碼器由6個編碼block組成,同樣解碼器是6個解碼block組成惶桐。與所有的生成模型相同的是撮弧,編碼器的輸出會作為解碼器的輸入,如下圖所示:


encoder-decoder交互

在Transformer的encoder中姚糊,數(shù)據(jù)首先會經(jīng)過一個叫做‘self-attention’的模塊得到一個加權(quán)之后的特征向量 Z 贿衍,這個 Z 便是論文公式1中的 [公式1] :


特征向量z

得到 [公式1]之后,它會被送到encoder的下一個模塊叛拷,即Feed Forward Neural Network舌厨。這個全連接有兩層,第一層的激活函數(shù)是ReLU忿薇,第二層是一個線性激活函數(shù)裙椭,可以表示為:

Feed Forward Neural Network

在最底層的block中,x將直接作為Transformer的輸入署浩,而在其他層中揉燃,輸入則是上一個block的輸出。

x在第一層encoder直接作為輸入

Decoder的結(jié)構(gòu)如下圖所示筋栋,它和encoder的不同之處在于Decoder多了一個Encoder-Decoder Attention炊汤,兩個Attention分別用于計算輸入和輸出的權(quán)值:Self-Attention:當(dāng)前翻譯和已經(jīng)翻譯的前文之間的關(guān)系;Encoder-Decoder Attention:當(dāng)前翻譯和編碼的特征向量之間的關(guān)系弊攘。

2.2 Self-Attention

Self-Attention是Transformer最核心的內(nèi)容,其核心內(nèi)容是為輸入向量的每個單詞學(xué)習(xí)一個權(quán)重

權(quán)重學(xué)習(xí)示意圖

在self-attention中抢腐,每個單詞有3個不同的向量,它們分別是Query向量( Q)襟交,Key向量( K )和Value向量(V)迈倍,長度均是64。它們是通過3個不同的權(quán)值矩陣由嵌入向量 [公式] 乘以三個不同的權(quán)值矩陣 W(q),W(k),W(v)得到捣域,其中三個矩陣的尺寸也是相同的啼染。均是 512*64。


具體步驟


self-attention單個Query計算流程


self-attention整體結(jié)構(gòu)

Multi-Head Attention:Multi-Head Attention相當(dāng)于h個不同的self-attention的集成(ensemble)焕梅,在這里我們以h=8舉例說明迹鹅。Multi-Head Attention的輸出分成3步:

將數(shù)據(jù)X分別輸入到圖13所示的8個self-attention中,得到8個加權(quán)后的特征矩陣:

特征矩陣

將8個Z(i)按列拼成一個大的特征矩陣贞言;特征矩陣經(jīng)過一層全連接后得到輸出Z 斜棚。


Multi-Head Attention

2.3?Position Embedding

截止到已經(jīng)介紹的模塊,Transformer模型并還沒有具備捕捉順序序列的能力,也就是說無論句子的結(jié)構(gòu)怎么打亂弟蚀,Transformer都會得到類似的結(jié)果脂新。Transformer目前只是一個功能更強(qiáng)大的詞袋模型而已。

為了解決這個問題粗梭,論文中在編碼詞向量時引入了位置編碼(Position Embedding)的特征。具體地說级零,位置編碼會在詞向量中加入了單詞的位置信息断医,這樣Transformer就能區(qū)分不同位置的單詞了。通過下圖編碼公式進(jìn)行位置編碼奏纪。

編碼公式

根據(jù)一下兩個正余弦公式原理? 鉴嗤,這為模型捕捉單詞之間的相對位置關(guān)系提供了保障。

正余弦公式原理

2.4 Summary


Transformer整體網(wǎng)絡(luò)結(jié)構(gòu)

decoder解碼之后序调,解碼的特征向量經(jīng)過一層激活函數(shù)為softmax的全連接層之后得到反映每個單詞概率的輸出向量醉锅。此時便可以通過CTC等損失函數(shù)訓(xùn)練模型了。

而一個完整可訓(xùn)練的網(wǎng)絡(luò)結(jié)構(gòu)便是encoder和decoder的堆疊发绢,如左圖完整的Transformer的結(jié)構(gòu)硬耍。

Transformer本質(zhì)上也只是一個全連接(或者是一維卷積)加Attention的結(jié)合體。

Transformer的設(shè)計最大的帶來性能提升的關(guān)鍵是將任意兩個單詞的距離是1边酒,這對解決NLP中棘手的長期依賴問題是非常有效的经柴。

Transformer失去的位置信息其實在NLP中非常重要,且捕捉局部特征的能力比較缺失墩朦,而論文中在特征向量中加入Position Embedding也只是一個權(quán)宜之計坯认。

Transformer是第一個用純attention搭建的模型(特征抽取器),不僅計算速度更快氓涣,在翻譯任務(wù)上獲得了更好的結(jié)果牛哺,也為后續(xù)的BERT模型做了鋪墊。

論文參考

Reference:

[1] Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need [C]//Advances in Neural Information Processing Systems. 2017: 5998-6008.

[2] Bahdanau D, Cho K, Bengio Y. Neural machine translation by jointly learning to align and translate[J]. arXiv preprint arXiv:1409.0473, 2014.

[3] Devlin J, Chang M W, Lee K, et al. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding[J]. arXiv preprint arXiv:1810.04805, 2018.

[4] He K, Zhang X, Ren S, et al. Deep residual learning for image recognition[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2016: 770-778.

[5]Peters, Matthew, et al. "Semi-supervised sequence tagging with bidirectional language models."Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). Vol. 1. 2017.

[6]Peters M, Neumann M, Iyyer M, et al. Deep Contextualized Word Representations[C]//Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long Papers). 2018, 1: 2227-2237.

[7]Radford A, Narasimhan K, Salimans T, et al. Improving language understanding by generative pre-training[J]. URL?https://s3-us-west-2. amazonaws. com/openai-assets/research-covers/language-unsupervised/language_ understanding_paper. pdf, 2018.

[8]Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[C]//Advances in Neural Information Processing Systems. 2017: 5998-6008.

[9]Pre-training of Deep Bidirectional Transformers for Language Understanding

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末劳吠,一起剝皮案震驚了整個濱河市引润,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌赴背,老刑警劉巖椰拒,帶你破解...
    沈念sama閱讀 221,695評論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異凰荚,居然都是意外死亡燃观,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,569評論 3 399
  • 文/潘曉璐 我一進(jìn)店門便瑟,熙熙樓的掌柜王于貴愁眉苦臉地迎上來缆毁,“玉大人,你說我怎么就攤上這事到涂〖箍颍” “怎么了颁督?”我有些...
    開封第一講書人閱讀 168,130評論 0 360
  • 文/不壞的土叔 我叫張陵,是天一觀的道長浇雹。 經(jīng)常有香客問我沉御,道長,這世上最難降的妖魔是什么昭灵? 我笑而不...
    開封第一講書人閱讀 59,648評論 1 297
  • 正文 為了忘掉前任吠裆,我火速辦了婚禮,結(jié)果婚禮上烂完,老公的妹妹穿的比我還像新娘试疙。我一直安慰自己,他們只是感情好抠蚣,可當(dāng)我...
    茶點故事閱讀 68,655評論 6 397
  • 文/花漫 我一把揭開白布祝旷。 她就那樣靜靜地躺著,像睡著了一般嘶窄。 火紅的嫁衣襯著肌膚如雪怀跛。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 52,268評論 1 309
  • 那天护侮,我揣著相機(jī)與錄音敌完,去河邊找鬼。 笑死羊初,一個胖子當(dāng)著我的面吹牛滨溉,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播长赞,決...
    沈念sama閱讀 40,835評論 3 421
  • 文/蒼蘭香墨 我猛地睜開眼晦攒,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了得哆?” 一聲冷哼從身側(cè)響起脯颜,我...
    開封第一講書人閱讀 39,740評論 0 276
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎贩据,沒想到半個月后栋操,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 46,286評論 1 318
  • 正文 獨居荒郊野嶺守林人離奇死亡饱亮,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 38,375評論 3 340
  • 正文 我和宋清朗相戀三年矾芙,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片近上。...
    茶點故事閱讀 40,505評論 1 352
  • 序言:一個原本活蹦亂跳的男人離奇死亡剔宪,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情葱绒,我是刑警寧澤感帅,帶...
    沈念sama閱讀 36,185評論 5 350
  • 正文 年R本政府宣布,位于F島的核電站地淀,受9級特大地震影響失球,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜帮毁,卻給世界環(huán)境...
    茶點故事閱讀 41,873評論 3 333
  • 文/蒙蒙 一她倘、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧作箍,春花似錦、人聲如沸前硫。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,357評論 0 24
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽屹电。三九已至阶剑,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間危号,已是汗流浹背牧愁。 一陣腳步聲響...
    開封第一講書人閱讀 33,466評論 1 272
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留外莲,地道東北人猪半。 一個月前我還...
    沈念sama閱讀 48,921評論 3 376
  • 正文 我出身青樓,卻偏偏與公主長得像偷线,于是被迫代替她去往敵國和親磨确。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 45,515評論 2 359

推薦閱讀更多精彩內(nèi)容