2022-10-10 Bert模型

關(guān)注點1：Transformer

1. embedding層：把離散字符轉(zhuǎn)化為數(shù)字

Embedding

1.1 token embeddings：用于區(qū)分文本內(nèi)容，1個文本字符對應(yīng)768維的向量，1個token embeddings輸出N（字符數(shù)）x 768維的矩陣
1.2 segment embeddings:用于區(qū)分哪一句話,輸出也是N x 768維的矩陣吏祸，同一句對應(yīng)的向量是相同的
1.3 position embeddings:用于確定文本位置门粪，輸出也是N x 768維的矩陣
因此得到3個N x 768矩陣棘劣，3個矩陣相加赋兵，輸出一個新的N x 768的矩陣

2. self-attention層:

attention機制

通過神經(jīng)網(wǎng)絡(luò)，計算句子中字符的權(quán)重w桦他，從而對輸入進行一定的加權(quán)（更關(guān)注某部分）ps: 原始輸入文本x和decoder后的輸出文本yt-1均需輸入attention層進行權(quán)重的計算蔫巩。

self-attention

區(qū)別于傳統(tǒng)attention，不涉及輸出的再輸入快压。WQ,WK,WV是線性層（768x768）,與X（10x768）相乘后得到10x768矩陣圆仔，隨機初始化后訓(xùn)練更新。

QxKT計算出文本的權(quán)每個字與其他字的相關(guān)性蔫劣，softmax歸一化得到權(quán)重坪郭，是self-attention，dk涉及多頭機制拦宣，再乘以V（和原本數(shù)量相乘）

獲得文本與其他文本的相關(guān)

多頭機制：把原本的10x768矩陣切分為12個10x64的矩陣截粗，在不同子空間訓(xùn)練模型，獲得12個完全不同的self-attention矩陣鸵隧，最后拼接，從而提升模型效果意推。

多頭機制multi-head

3. LayerNorm(殘差機制)

把embedding層和self-attention層輸出相加豆瘫，有助于保留一些原始信息，防止過擬合

LayerNorm(殘差機制)

4. Feed Forward層（前饋層）

注：相比于CNN菊值，RNN外驱，隨著長度增加育灸，距離很遠的數(shù)據(jù)也不會丟失。

優(yōu)勢：數(shù)據(jù)更全昵宇、更完整

優(yōu)勢：無距離限制磅崭，且可以并行，速度較快

調(diào)用方式

from transformers import BertModel

bert

關(guān)注點2：預(yù)訓(xùn)練方法

通過海量的不需要標注的數(shù)據(jù)訓(xùn)練得到bert預(yù)訓(xùn)練參數(shù)

隨機遮擋: 學(xué)習(xí)每個字的意思

預(yù)測是否為下一句話：學(xué)習(xí)兩句話之前的關(guān)聯(lián)

Bert實際上就是個文本編碼器瓦哎，將文本向量化砸喻，本質(zhì)上與LSTM，CNN等沒有差異（ps.文本長度不一致蒋譬，需要用0補齊）

下游任務(wù)中的使用

預(yù)訓(xùn)練模型的發(fā)展

1. ELMo

使用的是雙向LSTM割岛，預(yù)訓(xùn)練任務(wù)是單向預(yù)測（前N個字預(yù)測后1個字）

2.GPT

GPT:使用transformer，預(yù)訓(xùn)練任務(wù)還是單項預(yù)測犯助，增加了有監(jiān)督訓(xùn)練

3. Ernie-baidu

百度模型：在中文上表現(xiàn)更好癣漆，加入了先驗知識，但導(dǎo)致不通用

4. Ernie-Tsinghua

清華模型：引入知識圖譜

5. GPT2

GPT2：語言生成能力強剂买，大數(shù)據(jù)大模型

6. UNILM

彌補bert生成文本的缺陷惠爽，通過MASK機制增加單向LM

7.Transformer-XL&XLNet

Transformer中position embedding有長度限制

一次bert解決不了，往下傳遞

相對位置編碼

8.Roberta

Roberta

9.SpanBert

改變訓(xùn)練目標對模型也有提升

10. ALBERT

解決模型參數(shù)過多的問題

11. T5

利用seq2seq方式：邁向NLP的大一統(tǒng)

12.GPT3

超大模型瞬哼，目標是不要調(diào)參

未來方向

參考資料：
八斗學(xué)院講座筆記（侵刪）

最后編輯于：2023.03.17 10:10:12

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末疆股，一起剝皮案震驚了整個濱河市，隨后出現(xiàn)的幾起案子倒槐，更是在濱河造成了極大的恐慌旬痹，老刑警劉巖，帶你破解...
沈念sama閱讀 206,013評論 6贊 481
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件讨越，死亡現(xiàn)場離奇詭異两残，居然都是意外死亡，警方通過查閱死者的電腦和手機把跨，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 88,205評論 2贊 382
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門人弓，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人着逐，你說我怎么就攤上這事崔赌。” “怎么了耸别？”我有些...
開封第一講書人閱讀 152,370評論 0贊 342
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵健芭，是天一觀的道長。經(jīng)常有香客問我秀姐，道長慈迈，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 55,168評論 1贊 278
?港島之戀（遺憾婚禮）
正文為了忘掉前任省有，我火速辦了婚禮痒留，結(jié)果婚禮上谴麦，老公的妹妹穿的比我還像新娘。我一直安慰自己伸头，他們只是感情好匾效，可當我...
茶點故事閱讀 64,153評論 5贊 371
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著恤磷，像睡著了一般面哼。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上碗殷，一...
開封第一講書人閱讀 48,954評論 1贊 283
城市分裂傳說
那天精绎，我揣著相機與錄音，去河邊找鬼锌妻。笑死代乃，一個胖子當著我的面吹牛，可吹牛的內(nèi)容都是我干的仿粹。我是一名探鬼主播搁吓，決...
沈念sama閱讀 38,271評論 3贊 399
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼吭历！你這毒婦竟也來了堕仔？” 一聲冷哼從身側(cè)響起，我...
開封第一講書人閱讀 36,916評論 0贊 259
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤晌区，失蹤者是張志新（化名）和其女友劉穎摩骨，沒想到半個月后，有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體朗若，經(jīng)...
沈念sama閱讀 43,382評論 1贊 300
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡恼五，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 35,877評論 2贊 323
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時候發(fā)現(xiàn)自己被綠了哭懈。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片灾馒。...
茶點故事閱讀 37,989評論 1贊 333
活死人
序言：一個原本活蹦亂跳的男人離奇死亡，死狀恐怖遣总，靈堂內(nèi)的尸體忽然破棺而出睬罗，到底是詐尸還是另有隱情，我是刑警寧澤旭斥，帶...
沈念sama閱讀 33,624評論 4贊 322
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布容达，位于F島的核電站，受9級特大地震影響琉预，放射性物質(zhì)發(fā)生泄漏董饰。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點故事閱讀 39,209評論 3贊 307
男人毒藥：我在死后第九天來索命
文/蒙蒙一圆米、第九天我趴在偏房一處隱蔽的房頂上張望卒暂。院中可真熱鬧，春花似錦娄帖、人聲如沸也祠。這莊子的主人今日做“春日...
開封第一講書人閱讀 30,199評論 0贊 19
一樁弒父案近速，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽诈嘿。三九已至，卻和暖如春削葱，著一層夾襖步出監(jiān)牢的瞬間奖亚，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 31,418評論 1贊 260
情欲美人皮
我被黑心中介騙來泰國打工析砸，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留昔字，地道東北人。一個月前我還...
沈念sama閱讀 45,401評論 2贊 352
代替公主和親
正文我出身青樓首繁，卻偏偏與公主長得像作郭，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子弦疮，可洞房花燭夜當晚...
茶點故事閱讀 42,700評論 2贊 345