本文主要用于記錄華盛頓大學和FacebookAI聯(lián)合發(fā)表于2019年的一篇論文(準確講只能是報告哈哈~)。該論文提出的RoBERTa模型其實是對初代BERT的訓練方法的改進。本筆記主要為方便初學者快速入門恋拍,以及自我回顧。
為了更好的理解本文褐缠,建議讀者先對Bert模型有深入的理解(畢竟本文很多知識點都是建立在Bert之上的)蹂匹,這里也貼一個我之前的一篇論文筆記是專門來講Bert的,大家也可以看一下加深理解蚤认。
論文鏈接:https://arxiv.org/pdf/1907.11692.pdf
基本目錄如下:
- 摘要
- 核心思想
- 總結(jié)
------------------第一菇 - 摘要------------------
1.1 論文摘要
預訓練的語言模型在這倆年取得了巨大的突破米苹,但是如何比較各預訓練模型的優(yōu)劣顯然是一個很有挑戰(zhàn)的問題。主要是因為訓練真的很耗錢砰琢。蘸嘶。良瞧。以及用不同的數(shù)據(jù)集,用不同的預訓練參數(shù)训唱,都會對最后的結(jié)果產(chǎn)生不同的影響褥蚯。本文就重點研究了一些預訓練參數(shù)和訓練批大小對BERT模型的影響。研究表面况增,BERT遠遠沒有被充分訓練赞庶,如果訓練充分且技巧運用得到,其表現(xiàn)完全能超過(或不遜色于)后來的預訓練模型(XLNet等)巡通。這不尘执,該論文的升級版BERT模型,就又刷新了多項NLP基礎任務的記錄~
------------------第二菇 - 核心思想------------------
2.1 核心思想
本文提出了模型名為RoBERTa宴凉,看名字也知道誊锭,其并沒有對BERT系模型本身架構(gòu)做出了調(diào)整,而只是用不同的訓練方法(不同的數(shù)據(jù))弥锄,訓練得到了一個新的模型而已丧靡。具體改進的地方???4個,
1)訓練模型的時間更長籽暇,批大小更大温治,以及更多的數(shù)據(jù)。
該論文中戒悠,模型用了超過160GB的訓練語料(BERT只有16GB)熬荆,主要新增的語料是CC-NEWS,該語料集包含從2016年到2019年的6300萬英文文章绸狐,其他的語料也都是開源的卤恳。訓練的批大小,在本文也被證明是很影響其表現(xiàn)的一個因素(且可以并行訓練)寒矿,本來采用的是一個批大小為8K突琳。
總之,這里總結(jié)一句話就是:用更多的語料+更長的訓練時間+更大的批大小 = 更多的資源消耗(??)= 更好的效果7唷2鹑凇!~~~
2)去除掉BERT中“預測下一個句子”任務的LOSS啊终。
本文另一個比較有趣的發(fā)現(xiàn)是镜豹,預測下一個句子的任務被證明其效果起到了“負面作用”。其實這個結(jié)論也是實驗得出的蓝牲,但就感覺上來講逛艰,如果要作預測下一個句子但任務,相當于有時候模型的輸入搞旭,會來自多個不同的文本散怖,這可能會“hurt”模型來學習文本間的依賴關系菇绵,所以本文也建議,模型的輸入最好還是屬于同一個文本的镇眷。所以本文咬最,也取消了原先BERT的這一個LOSS,實驗證明其效果也有略微提升欠动。
3)用更長的句子來訓練永乌。
本文還有一個改進就是每一個句子的輸入更長,增大了max_seq具伍,這有利于學習詞之間的依賴翅雏。另外值得一提的是,其擴大了原先BERT使用的sub-char的大小人芽,用以讓模型學會看到更多的未登陸詞(這個還有待研究)
4)動態(tài)更改訓練數(shù)據(jù)中的遮罩詞
這一個訓練方法的更改也顯而易見望几,原先BERT只有在每一個EPOCH開始訓練的時候更改遮罩詞(shuffle),而本論文作者發(fā)現(xiàn)萤厅,每一個句子輸入的時候橄抹,動態(tài)生成遮罩詞的方法,會比原先的訓練方法得到的效果更好惕味。楼誓。。(蠻黑科技的理論)
大概本文的更新就是這些名挥,哎疟羹,反正基本上正常人或者公司的財力物力是不可能復現(xiàn)這些的了,只能當個看客禀倔,再祈禱各位金主爸爸們開源了哈哈~榄融!
------------------第三菇 - 總結(jié)------------------
3.1 總結(jié)
到這里,整篇論文的核心思想及其創(chuàng)新點已經(jīng)說清楚了蹋艺。本論文主要集中在于闡述RoBERTa的核心思想剃袍,并且介紹了很多訓練BERT系模型的技巧黄刚,并附上了詳實的對比實驗捎谨,來驗證模型的可行性。
簡單總結(jié)一下本文就是先羅列了一下該論文的摘要憔维,再具體介紹了一下自己對RoBERTa的理解涛救,同時根據(jù)自己的經(jīng)驗和作者的結(jié)論提出了一些優(yōu)化訓練技巧,希望能幫到大家业扒,也有助于自己復習检吆。總的來說程储,這篇論文對初代BERT的改進是眾多改進版本中比較成功的也比較簡單易懂蹭沛。希望大家讀完本文后能進一步加深對BERT結(jié)構(gòu)優(yōu)化的理解和運用臂寝。有說的不對的地方也請大家指出,多多交流摊灭,大家一起進步~??