【NLP論文筆記】RoBERTa: A Robustly Optimized BERT Pretraining Approach(RoBERTa)

本文主要用于記錄華盛頓大學和FacebookAI聯(lián)合發(fā)表于2019年的一篇論文(準確講只能是報告哈哈~)。該論文提出的RoBERTa模型其實是對初代BERT的訓練方法的改進。本筆記主要為方便初學者快速入門恋拍,以及自我回顧。

為了更好的理解本文褐缠,建議讀者先對Bert模型有深入的理解(畢竟本文很多知識點都是建立在Bert之上的)蹂匹,這里也貼一個我之前的一篇論文筆記是專門來講Bert的,大家也可以看一下加深理解蚤认。

論文鏈接:https://arxiv.org/pdf/1907.11692.pdf

基本目錄如下:

  1. 摘要
  2. 核心思想
  3. 總結(jié)

------------------第一菇 - 摘要------------------

1.1 論文摘要

預訓練的語言模型在這倆年取得了巨大的突破米苹,但是如何比較各預訓練模型的優(yōu)劣顯然是一個很有挑戰(zhàn)的問題。主要是因為訓練真的很耗錢砰琢。蘸嘶。良瞧。以及用不同的數(shù)據(jù)集,用不同的預訓練參數(shù)训唱,都會對最后的結(jié)果產(chǎn)生不同的影響褥蚯。本文就重點研究了一些預訓練參數(shù)和訓練批大小對BERT模型的影響。研究表面况增,BERT遠遠沒有被充分訓練赞庶,如果訓練充分且技巧運用得到,其表現(xiàn)完全能超過(或不遜色于)后來的預訓練模型(XLNet等)巡通。這不尘执,該論文的升級版BERT模型,就又刷新了多項NLP基礎任務的記錄~

------------------第二菇 - 核心思想------------------

2.1 核心思想

本文提出了模型名為RoBERTa宴凉,看名字也知道誊锭,其并沒有對BERT系模型本身架構(gòu)做出了調(diào)整,而只是用不同的訓練方法(不同的數(shù)據(jù))弥锄,訓練得到了一個新的模型而已丧靡。具體改進的地方???4個,

1)訓練模型的時間更長籽暇,批大小更大温治,以及更多的數(shù)據(jù)。

該論文中戒悠,模型用了超過160GB的訓練語料(BERT只有16GB)熬荆,主要新增的語料是CC-NEWS,該語料集包含從2016年到2019年的6300萬英文文章绸狐,其他的語料也都是開源的卤恳。訓練的批大小,在本文也被證明是很影響其表現(xiàn)的一個因素(且可以并行訓練)寒矿,本來采用的是一個批大小為8K突琳。

總之,這里總結(jié)一句話就是:用更多的語料+更長的訓練時間+更大的批大小 = 更多的資源消耗(??)= 更好的效果7唷2鹑凇!~~~

2)去除掉BERT中“預測下一個句子”任務的LOSS啊终。

本文另一個比較有趣的發(fā)現(xiàn)是镜豹,預測下一個句子的任務被證明其效果起到了“負面作用”。其實這個結(jié)論也是實驗得出的蓝牲,但就感覺上來講逛艰,如果要作預測下一個句子但任務,相當于有時候模型的輸入搞旭,會來自多個不同的文本散怖,這可能會“hurt”模型來學習文本間的依賴關系菇绵,所以本文也建議,模型的輸入最好還是屬于同一個文本的镇眷。所以本文咬最,也取消了原先BERT的這一個LOSS,實驗證明其效果也有略微提升欠动。

3)用更長的句子來訓練永乌。

本文還有一個改進就是每一個句子的輸入更長,增大了max_seq具伍,這有利于學習詞之間的依賴翅雏。另外值得一提的是,其擴大了原先BERT使用的sub-char的大小人芽,用以讓模型學會看到更多的未登陸詞(這個還有待研究)

4)動態(tài)更改訓練數(shù)據(jù)中的遮罩詞

這一個訓練方法的更改也顯而易見望几,原先BERT只有在每一個EPOCH開始訓練的時候更改遮罩詞(shuffle),而本論文作者發(fā)現(xiàn)萤厅,每一個句子輸入的時候橄抹,動態(tài)生成遮罩詞的方法,會比原先的訓練方法得到的效果更好惕味。楼誓。。(蠻黑科技的理論)

大概本文的更新就是這些名挥,哎疟羹,反正基本上正常人或者公司的財力物力是不可能復現(xiàn)這些的了,只能當個看客禀倔,再祈禱各位金主爸爸們開源了哈哈~榄融!

------------------第三菇 - 總結(jié)------------------

3.1 總結(jié)

到這里,整篇論文的核心思想及其創(chuàng)新點已經(jīng)說清楚了蹋艺。本論文主要集中在于闡述RoBERTa的核心思想剃袍,并且介紹了很多訓練BERT系模型的技巧黄刚,并附上了詳實的對比實驗捎谨,來驗證模型的可行性。

簡單總結(jié)一下本文就是先羅列了一下該論文的摘要憔维,再具體介紹了一下自己對RoBERTa的理解涛救,同時根據(jù)自己的經(jīng)驗和作者的結(jié)論提出了一些優(yōu)化訓練技巧,希望能幫到大家业扒,也有助于自己復習检吆。總的來說程储,這篇論文對初代BERT的改進是眾多改進版本中比較成功的也比較簡單易懂蹭沛。希望大家讀完本文后能進一步加深對BERT結(jié)構(gòu)優(yōu)化的理解和運用臂寝。有說的不對的地方也請大家指出,多多交流摊灭,大家一起進步~??

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末咆贬,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子帚呼,更是在濱河造成了極大的恐慌掏缎,老刑警劉巖,帶你破解...
    沈念sama閱讀 216,692評論 6 501
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件煤杀,死亡現(xiàn)場離奇詭異眷蜈,居然都是意外死亡,警方通過查閱死者的電腦和手機沈自,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,482評論 3 392
  • 文/潘曉璐 我一進店門酌儒,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人酥泛,你說我怎么就攤上這事今豆。” “怎么了柔袁?”我有些...
    開封第一講書人閱讀 162,995評論 0 353
  • 文/不壞的土叔 我叫張陵呆躲,是天一觀的道長。 經(jīng)常有香客問我捶索,道長插掂,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,223評論 1 292
  • 正文 為了忘掉前任腥例,我火速辦了婚禮辅甥,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘燎竖。我一直安慰自己璃弄,他們只是感情好,可當我...
    茶點故事閱讀 67,245評論 6 388
  • 文/花漫 我一把揭開白布构回。 她就那樣靜靜地躺著夏块,像睡著了一般。 火紅的嫁衣襯著肌膚如雪纤掸。 梳的紋絲不亂的頭發(fā)上脐供,一...
    開封第一講書人閱讀 51,208評論 1 299
  • 那天,我揣著相機與錄音借跪,去河邊找鬼政己。 笑死,一個胖子當著我的面吹牛掏愁,可吹牛的內(nèi)容都是我干的歇由。 我是一名探鬼主播卵牍,決...
    沈念sama閱讀 40,091評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼笼沥,長吁一口氣:“原來是場噩夢啊……” “哼最岗!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起鲸郊,我...
    開封第一講書人閱讀 38,929評論 0 274
  • 序言:老撾萬榮一對情侶失蹤赦肃,失蹤者是張志新(化名)和其女友劉穎溅蛉,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體他宛,經(jīng)...
    沈念sama閱讀 45,346評論 1 311
  • 正文 獨居荒郊野嶺守林人離奇死亡船侧,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,570評論 2 333
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了厅各。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片镜撩。...
    茶點故事閱讀 39,739評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖队塘,靈堂內(nèi)的尸體忽然破棺而出袁梗,到底是詐尸還是另有隱情,我是刑警寧澤憔古,帶...
    沈念sama閱讀 35,437評論 5 344
  • 正文 年R本政府宣布遮怜,位于F島的核電站,受9級特大地震影響鸿市,放射性物質(zhì)發(fā)生泄漏锯梁。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 41,037評論 3 326
  • 文/蒙蒙 一焰情、第九天 我趴在偏房一處隱蔽的房頂上張望陌凳。 院中可真熱鬧,春花似錦内舟、人聲如沸合敦。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,677評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽充岛。三九已至,卻和暖如春批狱,著一層夾襖步出監(jiān)牢的瞬間裸准,已是汗流浹背展东。 一陣腳步聲響...
    開封第一講書人閱讀 32,833評論 1 269
  • 我被黑心中介騙來泰國打工赔硫, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人盐肃。 一個月前我還...
    沈念sama閱讀 47,760評論 2 369
  • 正文 我出身青樓爪膊,卻偏偏與公主長得像权悟,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子推盛,可洞房花燭夜當晚...
    茶點故事閱讀 44,647評論 2 354

推薦閱讀更多精彩內(nèi)容