提出機構:阿里巴巴達摩院
論文鏈接:https://arxiv.org/pdf/1908.04577.pdf
作者認為Bert的預訓練任務忽略了語言結構(language structure)信息,因此StructBert在Bert原有的MaskLM的訓練目標上秃症,增加了兩個基于語言結構的訓練目標:詞序(word-level ordering)和句序(sentence-level ordering)任務捞蚂。
Contribution
原理
Input Representation和模型架構同Bert实牡,即多層Transformer血久。
改進在于保存了Bert現(xiàn)有的預訓練任務MaskLM和NSP的情況下亏较,新增了兩個預訓練目標:Word Structural Objective和Sentence Structural Objective袄友。
Word Structural Objective
從未被mask的序列中隨機選擇部分子序列(使用超參數(shù)K來確定子序列長度捉貌,論文選擇的K值=3,即trigram)暖侨,將子序列中的詞序打亂凶伙,讓模型重建原來的詞序。作者從重新排列的子序列中選擇5%它碎,進行詞序的打亂。
Sentence Structural Objective
給定句子對(S1, S2)显押,判斷S2是否是S1的下一個句子扳肛,或上一個句子,或毫無關聯(lián)的句子(從NSP的0/1分類變成了三分類問題)乘碑。
采樣時挖息,對于一個句子S,1/3的概率采樣S的下一句組成句對兽肤,1/3的概率采樣S的上一句組成句對套腹,1/3的概率隨機采樣一個其他文檔的句子組成句對。
句子的輸入格式同Bert相同资铡,也是用[SEP]分隔电禀。
預訓練細節(jié)
Base和Large模型和Bert的架構保持一致。
實驗結果
Glue
用了grid search進行了調(diào)參
SNLI
句對關系數(shù)據(jù)集笤休。
SQuAD
針對兩個新提出的Objective的消融實驗