2022-10-10 Bert模型

關(guān)注點1:Transformer

1. embedding層:把離散字符轉(zhuǎn)化為數(shù)字

Embedding

1.1 token embeddings:用于區(qū)分文本內(nèi)容,1個文本字符對應(yīng)768維的向量,1個token embeddings輸出N(字符數(shù))x 768維的矩陣
1.2 segment embeddings:用于區(qū)分哪一句話,輸出也是N x 768維的矩陣吏祸,同一句對應(yīng)的向量是相同的
1.3 position embeddings:用于確定文本位置门粪,輸出也是N x 768維的矩陣
因此得到3個N x 768矩陣棘劣,3個矩陣相加赋兵,輸出一個新的N x 768的矩陣

2. self-attention層:

attention機制

通過神經(jīng)網(wǎng)絡(luò),計算句子中字符的權(quán)重w桦他,從而對輸入進行一定的加權(quán)(更關(guān)注某部分)ps: 原始輸入文本x和decoder后的輸出文本yt-1均需輸入attention層進行權(quán)重的計算蔫巩。


self-attention

區(qū)別于傳統(tǒng)attention,不涉及輸出的再輸入快压。WQ,WK,WV是線性層(768x768),與X(10x768)相乘后得到10x768矩陣圆仔,隨機初始化后訓(xùn)練更新。



QxKT計算出文本的權(quán)每個字與其他字的相關(guān)性蔫劣,softmax歸一化得到權(quán)重坪郭,是self-attention,dk涉及多頭機制拦宣,再乘以V(和原本數(shù)量相乘)
獲得文本與其他文本的相關(guān)

多頭機制:把原本的10x768矩陣切分為12個10x64的矩陣截粗,在不同子空間訓(xùn)練模型,獲得12個完全不同的self-attention矩陣鸵隧,最后拼接,從而提升模型效果意推。


多頭機制multi-head

3. LayerNorm(殘差機制)

把embedding層和self-attention層輸出相加豆瘫,有助于保留一些原始信息,防止過擬合


LayerNorm(殘差機制)

4. Feed Forward層(前饋層)

注:相比于CNN菊值,RNN外驱,隨著長度增加育灸,距離很遠的數(shù)據(jù)也不會丟失。
優(yōu)勢:數(shù)據(jù)更全昵宇、更完整
優(yōu)勢:無距離限制磅崭,且可以并行,速度較快

調(diào)用方式

from transformers import BertModel
bert

關(guān)注點2:預(yù)訓(xùn)練方法

通過海量的不需要標注的數(shù)據(jù)訓(xùn)練得到bert預(yù)訓(xùn)練參數(shù)



隨機遮擋: 學(xué)習(xí)每個字的意思

預(yù)測是否為下一句話:學(xué)習(xí)兩句話之前的關(guān)聯(lián)

Bert實際上就是個文本編碼器瓦哎,將文本向量化砸喻,本質(zhì)上與LSTM,CNN等沒有差異(ps.文本長度不一致蒋譬,需要用0補齊)
下游任務(wù)中的使用

預(yù)訓(xùn)練模型的發(fā)展

1. ELMo

使用的是雙向LSTM割岛,預(yù)訓(xùn)練任務(wù)是單向預(yù)測(前N個字預(yù)測后1個字)

2.GPT

GPT:使用transformer,預(yù)訓(xùn)練任務(wù)還是單項預(yù)測犯助,增加了有監(jiān)督訓(xùn)練

3. Ernie-baidu

百度模型:在中文上表現(xiàn)更好癣漆,加入了先驗知識,但導(dǎo)致不通用

4. Ernie-Tsinghua

清華模型:引入知識圖譜

5. GPT2

GPT2:語言生成能力強剂买,大數(shù)據(jù)大模型

6. UNILM

彌補bert生成文本的缺陷惠爽,通過MASK機制增加單向LM

7.Transformer-XL&XLNet

Transformer中position embedding有長度限制

一次bert解決不了,往下傳遞

相對位置編碼

8.Roberta

Roberta

9.SpanBert

改變訓(xùn)練目標對模型也有提升

10. ALBERT

解決模型參數(shù)過多的問題

11. T5

利用seq2seq方式:邁向NLP的大一統(tǒng)

12.GPT3

超大模型瞬哼,目標是不要調(diào)參

未來方向

參考資料:
八斗學(xué)院講座筆記(侵刪)

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末疆股,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子倒槐,更是在濱河造成了極大的恐慌旬痹,老刑警劉巖,帶你破解...
    沈念sama閱讀 206,013評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件讨越,死亡現(xiàn)場離奇詭異两残,居然都是意外死亡,警方通過查閱死者的電腦和手機把跨,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,205評論 2 382
  • 文/潘曉璐 我一進店門人弓,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人着逐,你說我怎么就攤上這事崔赌。” “怎么了耸别?”我有些...
    開封第一講書人閱讀 152,370評論 0 342
  • 文/不壞的土叔 我叫張陵健芭,是天一觀的道長。 經(jīng)常有香客問我秀姐,道長慈迈,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 55,168評論 1 278
  • 正文 為了忘掉前任省有,我火速辦了婚禮痒留,結(jié)果婚禮上谴麦,老公的妹妹穿的比我還像新娘。我一直安慰自己伸头,他們只是感情好匾效,可當我...
    茶點故事閱讀 64,153評論 5 371
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著恤磷,像睡著了一般面哼。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上碗殷,一...
    開封第一講書人閱讀 48,954評論 1 283
  • 那天精绎,我揣著相機與錄音,去河邊找鬼锌妻。 笑死代乃,一個胖子當著我的面吹牛,可吹牛的內(nèi)容都是我干的仿粹。 我是一名探鬼主播搁吓,決...
    沈念sama閱讀 38,271評論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼吭历!你這毒婦竟也來了堕仔?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 36,916評論 0 259
  • 序言:老撾萬榮一對情侶失蹤晌区,失蹤者是張志新(化名)和其女友劉穎摩骨,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體朗若,經(jīng)...
    沈念sama閱讀 43,382評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡恼五,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 35,877評論 2 323
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了哭懈。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片灾馒。...
    茶點故事閱讀 37,989評論 1 333
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖遣总,靈堂內(nèi)的尸體忽然破棺而出睬罗,到底是詐尸還是另有隱情,我是刑警寧澤旭斥,帶...
    沈念sama閱讀 33,624評論 4 322
  • 正文 年R本政府宣布容达,位于F島的核電站,受9級特大地震影響琉预,放射性物質(zhì)發(fā)生泄漏董饰。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 39,209評論 3 307
  • 文/蒙蒙 一圆米、第九天 我趴在偏房一處隱蔽的房頂上張望卒暂。 院中可真熱鬧,春花似錦娄帖、人聲如沸也祠。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,199評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽诈嘿。三九已至,卻和暖如春削葱,著一層夾襖步出監(jiān)牢的瞬間奖亚,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,418評論 1 260
  • 我被黑心中介騙來泰國打工析砸, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留昔字,地道東北人。 一個月前我還...
    沈念sama閱讀 45,401評論 2 352
  • 正文 我出身青樓首繁,卻偏偏與公主長得像作郭,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子弦疮,可洞房花燭夜當晚...
    茶點故事閱讀 42,700評論 2 345

推薦閱讀更多精彩內(nèi)容