BERT泛讀系列(二)—— BERT論文筆記

一姊扔、寫在前面的話

BERT模型其實一直想寫筆記,但一直沒寫梅誓,主要原因就是在研究完Transformer之后恰梢,BERT幾乎一讀就懂佛南,沒有在額外加入太多的東西,但另一方法嵌言,BERT在實踐上可以說是結(jié)合很多深度學習領(lǐng)域有效的方法的一個大禮包嗅回,仔細研究BERT模型可以發(fā)現(xiàn)很多目前最前沿有效的方法。故這次蹭著論文學習小組需要寫筆記摧茴,記錄了一下自己關(guān)于BERT的理解绵载,后續(xù)會在這個的基礎上加入代碼分解。

二苛白、BERT的整體結(jié)構(gòu)

BERT 的模型結(jié)構(gòu)是一個多層雙向Transformer 編碼器娃豹,整體的模型結(jié)構(gòu)其實就是Transformer,但BERT的創(chuàng)新點在于:

  1. 引入了掩碼使得Transformer編碼器能夠使用雙向信息
  2. 加入兩個預訓練任務购裙,實現(xiàn)NLP領(lǐng)域的遷移學習

三懂版、輸入表示

BERT在預訓練階段輸入基本和Transformer結(jié)構(gòu)是相同的,主要的區(qū)別是加入了CLS和SEP兩個特殊字符躏率,每個序列的第一個標記始終是特殊分類嵌入CLS定续,該特殊標記對應的最終隱藏狀態(tài)(即Transformer 的輸出)被用作分類任務中該序列的總表示。對于非分類任務禾锤,這個最終隱藏狀態(tài)將被忽略私股,SEP則是用來區(qū)別被打包到一起的句子對輸入。

1. WordPiece

BERT在處理輸入時恩掷,會采用WordPiece方法對輸入進行分割倡鲸。WordPiece字面理解是把word拆成piece一片一片,其主要使用雙字節(jié)編碼(BPE黄娘,Byte-Pair Encoding)的方式來實現(xiàn)的峭状。BPE的過程可以理解為把一個單詞再拆分,使得我們的此表會變得精簡逼争,并且寓意更加清晰优床。比如"loved","loving","loves"這三個單詞。其實本身的語義都是“愛”的意思誓焦,但是如果我們以單詞為單位胆敞,那它們就算不一樣的詞,在英語中不同后綴的詞非常的多杂伟,就會使得詞表變的很大移层,訓練速度變慢,訓練的效果也不是太好赫粥。BPE算法通過訓練观话,能夠把上面的3個單詞拆分成"lov","ed","ing","es"幾部分,這樣可以把詞的本身的意思和時態(tài)分開越平,有效的減少了詞表的數(shù)量频蛔。

2. Segment Embeddings

為了對被打包在一起輸入的句子對灵迫,除了使用上面的SEP標示之外,BERT會給第一個句子的每個標記添加一個可訓練的句子 A嵌入晦溪,給第二個句子的每個標記添加一個可訓練的句子 B 嵌入龟再,例如A嵌入都是0,B嵌入都是1尼变。

3. Position Embeddings

位置嵌入其實就是對輸入的每個位置訓練一個向量利凑,在原論文中使用如下公式得到位置嵌入:

但現(xiàn)在的BERT代碼中似乎換成和隨機生成詞向量一樣,通過訓練得到位置嵌入嫌术,這也是一般獲得位置嵌入的方法哀澈。

四、Transformer編碼器

基本上就是從原論文照搬結(jié)構(gòu)度气,參考之前的筆記:《Attention is All You Need》論文筆記

五割按、預訓練任務

1. 遮蔽語言模型

BERT為了訓練擁有雙向句子信息的模型采用了一種隨機遮蔽一定比例的輸入標記,然后預測那些被遮蔽的標記的預訓練任務磷籍。BERT在每個序列中隨機遮蔽 15% 的標記适荣,然后通過最后使用softmax去預測被遮蔽的字,但直接使用這樣的預訓練任務會有兩個問題:

  1. 預訓練和微調(diào)之間造成了不匹配院领,因為 [MASK] 標記在微調(diào)期間從未出現(xiàn)過
  2. 使用 Transformer 的每批次數(shù)據(jù)中只有 15% 的標記被預測弛矛,這意味著模型可能需要更多的預訓練步驟來收斂

為了解決問題一(問題二還有待優(yōu)化),BERT采用了以下的操作:

  1. 80% 的情況下:用 [MASK] 替換被選擇的單詞比然,例如丈氓,my dog is hairy → my dog is [MASK]
  2. 10% 的情況下:用一個隨機單詞替換被選擇的單詞,例如强法,my dog is hairy → my dog is apple
  3. 10% 的情況下:保持被選擇的單詞不變万俗,例如,my dog is hairy → my dog is hairy
2. 句子預測

BERT為了訓練一個理解句子關(guān)系的模型饮怯,預訓練了一個下一句預測的二元分類任務:例如對每一個輸入的句子對(句子A和句子B)闰歪,50% 的情況下 B 是真的在 A 后面的下一個句子,50% 的情況下是來自語料庫的隨機句子蓖墅。

六库倘、微調(diào)

可以看到,BERT的微調(diào)非常簡單置媳,通過對最后一層的簡單改造即可遷移到自己的NLP任務中于樟。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市拇囊,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌靶橱,老刑警劉巖寥袭,帶你破解...
    沈念sama閱讀 216,651評論 6 501
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件路捧,死亡現(xiàn)場離奇詭異,居然都是意外死亡传黄,警方通過查閱死者的電腦和手機杰扫,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,468評論 3 392
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來膘掰,“玉大人章姓,你說我怎么就攤上這事∈堵瘢” “怎么了凡伊?”我有些...
    開封第一講書人閱讀 162,931評論 0 353
  • 文/不壞的土叔 我叫張陵,是天一觀的道長窒舟。 經(jīng)常有香客問我系忙,道長,這世上最難降的妖魔是什么惠豺? 我笑而不...
    開封第一講書人閱讀 58,218評論 1 292
  • 正文 為了忘掉前任银还,我火速辦了婚禮,結(jié)果婚禮上洁墙,老公的妹妹穿的比我還像新娘蛹疯。我一直安慰自己涯贞,他們只是感情好考抄,可當我...
    茶點故事閱讀 67,234評論 6 388
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著筒饰,像睡著了一般狼纬。 火紅的嫁衣襯著肌膚如雪羹呵。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,198評論 1 299
  • 那天疗琉,我揣著相機與錄音冈欢,去河邊找鬼。 笑死盈简,一個胖子當著我的面吹牛凑耻,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播柠贤,決...
    沈念sama閱讀 40,084評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼香浩,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了臼勉?” 一聲冷哼從身側(cè)響起邻吭,我...
    開封第一講書人閱讀 38,926評論 0 274
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎宴霸,沒想到半個月后囱晴,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體膏蚓,經(jīng)...
    沈念sama閱讀 45,341評論 1 311
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,563評論 2 333
  • 正文 我和宋清朗相戀三年畸写,在試婚紗的時候發(fā)現(xiàn)自己被綠了驮瞧。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 39,731評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡枯芬,死狀恐怖论笔,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情千所,我是刑警寧澤狂魔,帶...
    沈念sama閱讀 35,430評論 5 343
  • 正文 年R本政府宣布,位于F島的核電站真慢,受9級特大地震影響毅臊,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜黑界,卻給世界環(huán)境...
    茶點故事閱讀 41,036評論 3 326
  • 文/蒙蒙 一管嬉、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧朗鸠,春花似錦蚯撩、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,676評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至忆家,卻和暖如春犹菇,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背芽卿。 一陣腳步聲響...
    開封第一講書人閱讀 32,829評論 1 269
  • 我被黑心中介騙來泰國打工揭芍, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人卸例。 一個月前我還...
    沈念sama閱讀 47,743評論 2 368
  • 正文 我出身青樓称杨,卻偏偏與公主長得像,于是被迫代替她去往敵國和親筷转。 傳聞我的和親對象是個殘疾皇子姑原,可洞房花燭夜當晚...
    茶點故事閱讀 44,629評論 2 354

推薦閱讀更多精彩內(nèi)容

  • BERT:Pre-training of Deep Bidirectional Transformer for L...
    EdwardLee閱讀 5,095評論 0 3
  • 摘要:圖解锭汛,2018年自然語言處理領(lǐng)域最成功的方向! 2018年是自然語言處理的轉(zhuǎn)折點,能捕捉潛在意義和關(guān)系的方式...
    城市中迷途小書童閱讀 1,951評論 0 18
  • 對于宇宙來說店乐,我們是多么渺小的艰躺。不用說幾億光年呻袭,就是光一秒照到的地方我們都到不了眨八。更不用說幾光年、幾十光年左电、幾百光...
    努力活著珍惜閱讀 418評論 0 0
  • 死神篓足,好似萬物終結(jié)的歸宿 它段誊,悲傷、恐怖 穿梭在鋼鐵怪獸所鑄就的宮殿 好似在召喚著那些 迷茫栈拖、恐懼中的靈魂 突然连舍,...
    魘客閱讀 271評論 2 3
  • 昨天是9月10號,一年度的教師節(jié)涩哟。頭天晚上已經(jīng)跟女兒商量好了索赏,給老師買禮物,女兒高高興興的去上學了贴彼。上午...
    相信女兒閱讀 292評論 3 4