Roberta: A robustly optimized bert pretraining approach
Citation: 1669 (2021-09-09)
1. Motivation
近年來(lái)有多個(gè)著名的預(yù)訓(xùn)練模型被提出,如BERT[2]、Transformer-XL[3],作者從另一個(gè)角度出發(fā)厅各,發(fā)掘是不是可以對(duì)BERT進(jìn)行優(yōu)化,而不是完全從其它的角度(比如考慮類似Transformer-XL考慮更長(zhǎng)的序列西篓,類似XL-Net從自回歸角度出發(fā))难衰。
2. (Robustly optimized BERT approach) RoBERTa
本文最大的貢獻(xiàn)在于提出了基于與BERT相同的網(wǎng)絡(luò)結(jié)構(gòu)捏卓,但是使用不同的訓(xùn)練方式榜配,能得到非常好的效果否纬。工作本身很solid(也很貴:))描述起來(lái)就很簡(jiǎn)單了。
2.1 Static vs. Dynamic Masking
這一點(diǎn)主要是由于原生的BERT實(shí)現(xiàn)蛋褥,對(duì)于不同的epoch临燃,mask是固定的;改成了動(dòng)態(tài)mask。
2.2 Model Input Format and Next Sentence Prediction
作者通過(guò)實(shí)驗(yàn)發(fā)現(xiàn)去除Next Sentence Prediction的loss膜廊,效果能有所提升乏沸。認(rèn)為BERT原始的消融實(shí)驗(yàn)里可能只是去除了NSP loss,但是仍然保留了NSP的輸入format爪瓜,從而效果下降蹬跃,顯得NSP比較重要。
2.3 Training with large batches
用更大的batch去訓(xùn)練铆铆。
2.4 Text Encoding
用Byte-Pair Encoding(BPE)炬转。即對(duì)語(yǔ)料切成字符,然后統(tǒng)計(jì)相鄰的兩個(gè)字符的頻次算灸,將頻次最高的相鄰字符合并新的字符加入詞表,并將語(yǔ)料中所有的這兩個(gè)相鄰字符替換成新字符驻啤;重復(fù)這樣的操作菲驴,直到滿足一定的條件比如單詞數(shù)量到一定程度。
與原生BERT相比骑冗,RoBERTa不對(duì)語(yǔ)料做preprocess以及tokenization赊瞬。
2.5 More Data and training epoch
更多的訓(xùn)練數(shù)據(jù),更長(zhǎng)的訓(xùn)練步驟贼涩。
3. Experiment
優(yōu)點(diǎn)&思考:
(1)一個(gè)工作巧涧,看似已經(jīng)做到頂了,但實(shí)際上仍然還有可以挖的點(diǎn)遥倦;思路要更開(kāi)闊一點(diǎn)谤绳。
4. References
[1] Liu, Yinhan, et al. "Roberta: A robustly optimized bert pretraining approach." arXiv preprint arXiv:1907.11692 (2019).
[2] Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. Bert: Pre-training of deep bidirectional transformers for language understanding. arXiv preprint arXiv:1810.04805, 2018.
[3] Dai, Zihang, et al. "Transformer-xl: Attentive language models beyond a fixed-length context." arXiv preprint arXiv:1901.02860 (2019).