????????Google開源的BERT的確很良心柠贤,代碼寫得非常好病毡,是一個不錯的學習案例,這里我從實戰(zhàn)的角度從預訓練到下游任務實戰(zhàn)做一個全面的梳理内狗。原理部分的講解請參考我上篇博客。
這里簡單說下環(huán)境:
? ? tensorflow 1.11.0(用1.4版本的朋友建議還是裝個CUDA9.0做個升級吧义锥,我想google之后的開源應該都是基于這個版本的柳沙,所以為了能看到原汁原味的代碼,還是妥協(xié)下吧0璞丁)
? ? 我也嘗試過pytorch的版本赂鲤,但畢竟不是官方的代碼,從學習的角度建議還是用tensorflow的柱恤。
Part1:模型預訓練
1.數(shù)據(jù)準備
官方給的數(shù)據(jù)形式是這樣的:
這里也貼一份中文樣本數(shù)據(jù):
段和段之間用空格隔開数初,如果你的語料不是這種格式,需要事先進行處理梗顺,英文的官方使用的是NLP的?spaCy工具包進行的句子切割泡孩,中文的話,根據(jù)標點符號切就行啦寺谤。
2.生成Vocab
????根據(jù)語料生成詞典仑鸥,這里注意加上以下字符,如果是中文就分個詞
3.運行create_pretraining_data.py,關于這個代碼变屁,我在這做個梳理吧眼俊,雖然沒啥原理性的東西,但萬事開頭難敞贡,NLP的數(shù)據(jù)處理永遠是至關重要的一步泵琳。
這個程序是用來生成tfrecord的,另外論文中提到的所有數(shù)據(jù)處理過程都在這個程序中誊役。
- 創(chuàng)建tokenizer获列,很多人也許會困惑這個啥,這是Google AI Language Team寫的一個字符處理的工具蛔垢,按照代碼里的使用就行击孩。
-逐行讀入數(shù)據(jù):
官方代碼這里是這么處理每一行英文數(shù)據(jù)的,實際上可以簡單理解為做了個分詞操作吧鹏漆。
接下來就是將數(shù)據(jù)轉(zhuǎn)換成任務需要的形式了巩梢,也就是文章中的兩個任務masked lm,next sentences prediction。
? ? ? ? - 對于一份數(shù)據(jù)艺玲,可以每次將masked 設定的位置都不一樣括蝠,也就是可以做個數(shù)據(jù)擴充,代碼中的dupe_factor就是將數(shù)據(jù)重復多次進行處理饭聚。
最終的數(shù)據(jù)的結(jié)果忌警,我們可以打印幾條看看:
至于處理規(guī)則這里就不講了,論文里對如何做mask和生成next也講的比較詳細 秒梳。
3.模型預訓練
這個部分主要梳理下模型預訓練的代碼法绵,即run_pretraining.py箕速。
??????? 首先準備一個config文件夾,里面放bert_config.json文件朋譬,這個文件最好在剛才進行數(shù)據(jù)預處理的時候就生成以下盐茎,內(nèi)容可以參考官方提供的預訓練模型的內(nèi)容。
- (1)設置run config
tf.contrib.learn.RunConfig用于管理Estimator運行的控制信息徙赢,代碼中用的*.tpu.RunConfig字柠,主要是還有些tpu的設置,這里主要設置好checkpoints_steps和output_dir就行犀忱。
- (2)建立模型model_fn_builder,主要是建立好里面的model_fn的回掉函數(shù)募谎,里面的內(nèi)容我后續(xù)會說明。
- (3)建立estimator API
- (4)建立input_fn_builder回掉函數(shù)阴汇,核心是里面的input_fn(params)回掉函數(shù)数冬,params是固定參數(shù),是一個詞典搀庶,里面有batch size(創(chuàng)建estimator 傳入)等參數(shù)拐纱。
上面這5步幾乎是靠回調(diào)函數(shù)完成的,可讀性并不是很好哥倔,我下面會具體說一下細節(jié)秸架。
注:train的第一步就是調(diào)用input_fn,讀取record,并產(chǎn)生一個batch的數(shù)據(jù)咆蒿。
然后就進到model_fn中創(chuàng)建模型东抹,傳入的fearure數(shù)據(jù)如下:
接下來就是創(chuàng)建模型:
模型里面的內(nèi)容如下:
- embedding:word,position,token type embedding(將這三個embedding相加),得到最后的embedding_output
- encoder :?
? ? ? ? - 根據(jù)input創(chuàng)建mask? 函數(shù):create_attention_mask_from_input_mask
? ? ? ? -?transformer_model 這個部分應該算整個代碼的核心了沃测,代碼并不難,主要看看是不是論文里講的那樣:
? ? ? ? ? ? ? ?- self-attention
? ? ? ? ? ? ? ? - 殘差+layer-norm(黃色框)
? ? ? ? ? ? ? ? - Feed forward layer(intermediate)
?????????????????- 殘差+layer-norm
- 計算loss
先來看第一個get_masked_lm_output
????-?get_masked_lm_output中的gather_indexes函數(shù)就根據(jù)positions(masked的位置)從transformer的輸出層里把相應的step給挑出來缭黔,例如這個句子masked了20個詞,那么輸出的唯獨就是[64,20,96]蒂破,再接著做一個非線性變化+layer_norm(貌似論文里這塊沒有講)
接下來就是全連接層了馏谨,這塊做法和CBOW一樣,直接乘最開始初始化的embedding矩陣:
最后的輸出的概率值(64*20附迷,749):
注意這里20是指mask的最大個數(shù)惧互,不一定20個詞全mask了,所以要配合label_weights一起算
再看next_sentence_example_loss
這里注意BERT做句子層面的分類喇伯,都是用的0step的[CLS]標簽喊儡,這里的get_pooled_output是0_step隱藏層接了一個非線性變化的結(jié)果:
句子層面的分類比較簡單,借一個線性層就行啦稻据。
最后把兩個部分的loss加起來就行了
至此BERT的預訓練就梳理到這里管宵。