Transformer結(jié)構(gòu)
Self-Attention
上圖是論文中 Transformer 的內(nèi)部結(jié)構(gòu)圖没佑,左側(cè)為 Encoder block棠涮,右側(cè)為 Decoder block品山。紅色圈中的部分為 Multi-Head Attention席吴,是由多個 Self-Attention組成的,可以看到 Encoder block 包含一個 Multi-Head Attention计露,而 Decoder block 包含兩個 Multi-Head Attention (其中有一個用到 Masked)著榴。Multi-Head Attention 上方還包括一個 Add & Norm 層添履,Add 表示殘差連接 (Residual Connection) 用于防止網(wǎng)絡(luò)退化,Norm 表示 Layer Normalization兄渺,用于對每一層的激活值進行歸一化缝龄。
Bert模型結(jié)構(gòu)
-
干了啥事?
輸入部分:
Input=token emb + segment emb+ position emb
CLS向量+句子+sep分割
cls向量是啥:
預(yù)訓(xùn)練如何做
// MLM-掩碼語言模型
無監(jiān)督
AR挂谍,也就是autoregressive叔壤,我們稱之為自回歸模型;只能考慮單側(cè)的信息口叙,典型的就是GPT
P(我愛吃飯) = P(我)P(愛|我)P(吃|我愛)P(飯|我愛吃)炼绘;AE,也就是autoencoding妄田,我們稱之為自編碼模型俺亮;從損壞的輸入數(shù)據(jù)中預(yù)測重建原始數(shù)據(jù)∨蹦牛可以使用上下文的信息
mask之后:【我愛mask飯】文本重建之后預(yù)測脚曾,前提假設(shè),mask目標相互獨立
P(我愛吃飯|我愛mask飯)=P(吃|我愛飯)
隨機mask15%單詞启具,10%替換成其他本讥,10%保持不變,80%替換為mask鲁冯。
// NSP任務(wù)
為了做下一句預(yù)測拷沸。
NSP樣本如下:
- 從訓(xùn)練語料庫中取出兩個連續(xù)的段落作為正樣本
- 從不同的文檔中隨機創(chuàng)建一對段落作為負樣本
缺點:主題預(yù)測和連貫性預(yù)測合并為一個單項任務(wù)
微調(diào)的玩法?
代碼讀一讀
https://zhuanlan.zhihu.com/p/360988428
僅供學(xué)習(xí) 無關(guān)利益
https://www.youtube.com/watch?v=ugWDIIOHtPA&list=PLJV_el3uVTsOK_ZK5L0Iv_EQoL1JefRL4&index=61
https://zhuanlan.zhihu.com/p/338817680
https://arxiv.org/pdf/1810.04805.pdf
https://www.bilibili.com/video/BV1Ey4y1874y?from=search&seid=10522068071476269918&spm_id_from=333.337.0.0
https://zhuanlan.zhihu.com/p/51413773