(九)再談embedding——bert詳解(實戰(zhàn))中

????????Google開源的BERT的確很良心柠贤,代碼寫得非常好病毡,是一個不錯的學習案例,這里我從實戰(zhàn)的角度從預訓練到下游任務實戰(zhàn)做一個全面的梳理内狗。原理部分的講解請參考我上篇博客

這里簡單說下環(huán)境:

? ? tensorflow 1.11.0(用1.4版本的朋友建議還是裝個CUDA9.0做個升級吧义锥,我想google之后的開源應該都是基于這個版本的柳沙,所以為了能看到原汁原味的代碼,還是妥協(xié)下吧0璞丁)

? ? 我也嘗試過pytorch的版本赂鲤,但畢竟不是官方的代碼,從學習的角度建議還是用tensorflow的柱恤。

Part1:模型預訓練

1.數(shù)據(jù)準備

官方給的數(shù)據(jù)形式是這樣的:

英文數(shù)據(jù)

這里也貼一份中文樣本數(shù)據(jù):

段和段之間用空格隔開数初,如果你的語料不是這種格式,需要事先進行處理梗顺,英文的官方使用的是NLP的?spaCy工具包進行的句子切割泡孩,中文的話,根據(jù)標點符號切就行啦寺谤。

2.生成Vocab

????根據(jù)語料生成詞典仑鸥,這里注意加上以下字符,如果是中文就分個詞

3.運行create_pretraining_data.py,關于這個代碼变屁,我在這做個梳理吧眼俊,雖然沒啥原理性的東西,但萬事開頭難敞贡,NLP的數(shù)據(jù)處理永遠是至關重要的一步泵琳。

這個程序是用來生成tfrecord的,另外論文中提到的所有數(shù)據(jù)處理過程都在這個程序中誊役。

- 創(chuàng)建tokenizer获列,很多人也許會困惑這個啥,這是Google AI Language Team寫的一個字符處理的工具蛔垢,按照代碼里的使用就行击孩。

-逐行讀入數(shù)據(jù):

官方代碼這里是這么處理每一行英文數(shù)據(jù)的,實際上可以簡單理解為做了個分詞操作吧鹏漆。

接下來就是將數(shù)據(jù)轉(zhuǎn)換成任務需要的形式了巩梢,也就是文章中的兩個任務masked lm,next sentences prediction。

? ? ? ? - 對于一份數(shù)據(jù)艺玲,可以每次將masked 設定的位置都不一樣括蝠,也就是可以做個數(shù)據(jù)擴充,代碼中的dupe_factor就是將數(shù)據(jù)重復多次進行處理饭聚。

最終的數(shù)據(jù)的結(jié)果忌警,我們可以打印幾條看看:

至于處理規(guī)則這里就不講了,論文里對如何做mask和生成next也講的比較詳細 秒梳。

3.模型預訓練

這個部分主要梳理下模型預訓練的代碼法绵,即run_pretraining.py箕速。

??????? 首先準備一個config文件夾,里面放bert_config.json文件朋譬,這個文件最好在剛才進行數(shù)據(jù)預處理的時候就生成以下盐茎,內(nèi)容可以參考官方提供的預訓練模型的內(nèi)容。

- (1)設置run config

tf.contrib.learn.RunConfig用于管理Estimator運行的控制信息徙赢,代碼中用的*.tpu.RunConfig字柠,主要是還有些tpu的設置,這里主要設置好checkpoints_steps和output_dir就行犀忱。

- (2)建立模型model_fn_builder,主要是建立好里面的model_fn的回掉函數(shù)募谎,里面的內(nèi)容我后續(xù)會說明。

- (3)建立estimator API

- (4)建立input_fn_builder回掉函數(shù)阴汇,核心是里面的input_fn(params)回掉函數(shù)数冬,params是固定參數(shù),是一個詞典搀庶,里面有batch size(創(chuàng)建estimator 傳入)等參數(shù)拐纱。

上面這5步幾乎是靠回調(diào)函數(shù)完成的,可讀性并不是很好哥倔,我下面會具體說一下細節(jié)秸架。

注:train的第一步就是調(diào)用input_fn,讀取record,并產(chǎn)生一個batch的數(shù)據(jù)咆蒿。

然后就進到model_fn中創(chuàng)建模型东抹,傳入的fearure數(shù)據(jù)如下:

接下來就是創(chuàng)建模型:

模型里面的內(nèi)容如下:

- embedding:word,position,token type embedding(將這三個embedding相加),得到最后的embedding_output

- encoder :?

? ? ? ? - 根據(jù)input創(chuàng)建mask? 函數(shù):create_attention_mask_from_input_mask

? ? ? ? -?transformer_model 這個部分應該算整個代碼的核心了沃测,代碼并不難,主要看看是不是論文里講的那樣:

masked忽略

? ? ? ? ? ? ? ?- self-attention

? ? ? ? ? ? ? ? - 殘差+layer-norm(黃色框)

這里比論文里多了一層線性層(紅色框)

? ? ? ? ? ? ? ? - Feed forward layer(intermediate)

?????????????????- 殘差+layer-norm

- 計算loss

先來看第一個get_masked_lm_output

????-?get_masked_lm_output中的gather_indexes函數(shù)就根據(jù)positions(masked的位置)從transformer的輸出層里把相應的step給挑出來缭黔,例如這個句子masked了20個詞,那么輸出的唯獨就是[64,20,96]蒂破,再接著做一個非線性變化+layer_norm(貌似論文里這塊沒有講)

接下來就是全連接層了馏谨,這塊做法和CBOW一樣,直接乘最開始初始化的embedding矩陣:

最后的輸出的概率值(64*20附迷,749):

注意這里20是指mask的最大個數(shù)惧互,不一定20個詞全mask了,所以要配合label_weights一起算

再看next_sentence_example_loss

這里注意BERT做句子層面的分類喇伯,都是用的0step的[CLS]標簽喊儡,這里的get_pooled_output是0_step隱藏層接了一個非線性變化的結(jié)果:

句子層面的分類比較簡單,借一個線性層就行啦稻据。

最后把兩個部分的loss加起來就行了

至此BERT的預訓練就梳理到這里管宵。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市攀甚,隨后出現(xiàn)的幾起案子箩朴,更是在濱河造成了極大的恐慌,老刑警劉巖秋度,帶你破解...
    沈念sama閱讀 212,718評論 6 492
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件炸庞,死亡現(xiàn)場離奇詭異,居然都是意外死亡荚斯,警方通過查閱死者的電腦和手機埠居,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,683評論 3 385
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來事期,“玉大人滥壕,你說我怎么就攤上這事∈奁” “怎么了绎橘?”我有些...
    開封第一講書人閱讀 158,207評論 0 348
  • 文/不壞的土叔 我叫張陵,是天一觀的道長唠倦。 經(jīng)常有香客問我称鳞,道長,這世上最難降的妖魔是什么稠鼻? 我笑而不...
    開封第一講書人閱讀 56,755評論 1 284
  • 正文 為了忘掉前任冈止,我火速辦了婚禮,結(jié)果婚禮上候齿,老公的妹妹穿的比我還像新娘熙暴。我一直安慰自己,他們只是感情好慌盯,可當我...
    茶點故事閱讀 65,862評論 6 386
  • 文/花漫 我一把揭開白布周霉。 她就那樣靜靜地躺著,像睡著了一般润匙。 火紅的嫁衣襯著肌膚如雪诗眨。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 50,050評論 1 291
  • 那天孕讳,我揣著相機與錄音匠楚,去河邊找鬼。 笑死厂财,一個胖子當著我的面吹牛芋簿,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播璃饱,決...
    沈念sama閱讀 39,136評論 3 410
  • 文/蒼蘭香墨 我猛地睜開眼与斤,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起撩穿,我...
    開封第一講書人閱讀 37,882評論 0 268
  • 序言:老撾萬榮一對情侶失蹤磷支,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后食寡,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體雾狈,經(jīng)...
    沈念sama閱讀 44,330評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,651評論 2 327
  • 正文 我和宋清朗相戀三年抵皱,在試婚紗的時候發(fā)現(xiàn)自己被綠了善榛。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 38,789評論 1 341
  • 序言:一個原本活蹦亂跳的男人離奇死亡呻畸,死狀恐怖移盆,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情伤为,我是刑警寧澤咒循,帶...
    沈念sama閱讀 34,477評論 4 333
  • 正文 年R本政府宣布,位于F島的核電站钮呀,受9級特大地震影響剑鞍,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜爽醋,卻給世界環(huán)境...
    茶點故事閱讀 40,135評論 3 317
  • 文/蒙蒙 一蚁署、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧蚂四,春花似錦光戈、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,864評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至跷睦,卻和暖如春筷弦,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背抑诸。 一陣腳步聲響...
    開封第一講書人閱讀 32,099評論 1 267
  • 我被黑心中介騙來泰國打工烂琴, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人蜕乡。 一個月前我還...
    沈念sama閱讀 46,598評論 2 362
  • 正文 我出身青樓奸绷,卻偏偏與公主長得像,于是被迫代替她去往敵國和親层玲。 傳聞我的和親對象是個殘疾皇子号醉,可洞房花燭夜當晚...
    茶點故事閱讀 43,697評論 2 351

推薦閱讀更多精彩內(nèi)容