鏈接:我不太懂BERT系列——BERT預訓練實操總結(微信公眾號文章)
2020.1.4
本文三個內容:
1.數據預處理以及訓練數據生成
數據生成總結:
1.中文全詞mask
bert的MLM模型:Masked Language Model(MLM)
MLM:隨機屏蔽掉部分輸入token,然后再去預測這些被屏蔽掉的token。
WWM(whole word mask)機制:中文詞匯的全詞mask機制
2.動態(tài)mask
3.給中文分詞工具添加增強詞庫
2.預訓練性能優(yōu)化
單機多卡
多機多卡
3.預訓練效果調優(yōu)
梯度累加
SOTA model:state-of-the-art model搂妻,并不是特指某個具體的模型谍肤,而是指在該項研究任務中在跳,目前最好/最先進的模型岁忘。
SOTA result:state-of-the-art result舵稠,指的是在該項研究任務中蠢壹,目前最好的模型的結果/性能/表現嗓违。