0. 摘要
我們介紹了一種新的基于上下文的深度單詞表示怎抛,這種表示既建模了復(fù)雜的單詞使用特征偿乖,也建模了這些表示在不同的語境下的區(qū)別矗钟。我們的詞向量是雙向語言模型下內(nèi)部狀態(tài)的函數(shù)新症,這個(gè)雙向語言模型是通過大量的語料預(yù)訓(xùn)練的恳蹲。研究表明虐块,這些表示可以比較容易的加入到先有的模型中,并且顯著提升了6個(gè)NLP問題的SOA嘉蕾,包括問答贺奠、文本蘊(yùn)含關(guān)系、情感分析错忱。我們還給出了一個(gè)分析儡率,該分析表明挂据,暴露預(yù)訓(xùn)練網(wǎng)絡(luò)深度內(nèi)容是非常重要的,它允許下游模型將它混合半監(jiān)督信號(hào)儿普。
1. 引言
預(yù)訓(xùn)練在很多神經(jīng)語言模型中是非常關(guān)鍵的組成部分崎逃,然而,學(xué)習(xí)高質(zhì)量的表示是比較有挑戰(zhàn)性的眉孩。這需要較好的建模兩個(gè)方面:1. 單詞表示的復(fù)雜特征(語義和語法)个绍。2.根據(jù)上下文變化。本文中浪汪,介紹了一種新的“上下文相關(guān)的深度”表示巴柿,可以直接應(yīng)對這兩項(xiàng)挑戰(zhàn),還可以輕易的整合到其他的先有模型中死遭。還能顯著的提高一系列自然語言理解任務(wù)的SOA广恢。
我們和傳統(tǒng)的表示不同的地方在于:我們的表示中,每一個(gè)token對應(yīng)的表示都是整個(gè)句子的函數(shù)呀潭。我們的向量表示钉迷,是從大量語料中,用雙向LSTM訓(xùn)練得出的一對語言模型蜗侈。所以篷牌,我們稱之為Elmo(embedding from language model)表示。不像之前學(xué)習(xí)向量的方法踏幻,elmo表示是很深度的枷颊,因?yàn)樗请p向LSTM所有中間層的線性組合。更特殊的是该面,對每一個(gè)特殊任務(wù)夭苗,都學(xué)一個(gè)特殊的線性組合,相比于僅適用最上層的表示隔缀,這樣可以顯著的提升表現(xiàn)题造。
把內(nèi)部的狀態(tài)用這種方式組合起來,可以組合出非常豐富的單詞表示猾瘸。進(jìn)一步分析表明界赔,較高層的LSTM狀態(tài)捕捉了上下文相關(guān)的單詞含義(可以用于監(jiān)督訓(xùn)練的詞義消歧任務(wù)),而較低層次的LSTM狀態(tài)捕捉了語法相關(guān)的含義(可以用于詞性標(biāo)注)牵触。同時(shí)暴露這些信號(hào)是很有好處的淮悼,這有助于學(xué)好的模型針對不同的下游任務(wù)選擇不同的半監(jiān)督類型。
進(jìn)一步的試驗(yàn)表明揽思,elmo向量在實(shí)踐中非常有效袜腥。我們先是表明了它可以很容易的整合到6個(gè)不同的挑戰(zhàn)性的自然語言理解任務(wù)的現(xiàn)有模型中。比如:上下文承接任務(wù)钉汗、問答任務(wù)羹令、情感分析鲤屡。僅僅是加入elmo向量,就可以顯著的提升每一個(gè)任務(wù)的SOA福侈,包括一項(xiàng)20%的提升酒来。cove也是一項(xiàng)上下文相關(guān)的表示,它是用感知機(jī)translation編碼器癌刽。但elmo比voce的表現(xiàn)更好役首。最后cove和elmo都表明深度表示都比僅用LSTM最高層的表示效果要好。我們訓(xùn)練好的模型和代碼都是公開的显拜,我們希望elmo可以為其他NLP任務(wù)取得類似的進(jìn)展衡奥。
2. 相關(guān)工作
單詞向量可以捕捉到句法和語義信息,并且可以通過無監(jiān)督的文本來訓(xùn)練得到远荠,使用預(yù)訓(xùn)練的單詞向量是很多NLP問題的SOA解決方案架構(gòu)的組成元素矮固。比如問答、上下文承接判斷和詞性標(biāo)注譬淳。然而档址,這些方法來學(xué)習(xí)詞向量,每個(gè)單詞只能得到一個(gè)上下文相關(guān)的向量表示邻梆。
之前嘗試克服傳統(tǒng)詞向量表示缺點(diǎn)的方法守伸,要么是利用詞根來豐富詞向量,要么是為單詞的每一個(gè)含義單獨(dú)學(xué)一個(gè)向量浦妄。我們的方法也借鑒了這兩種策略尼摹,利用字符級(jí)別的卷積可以獲得跟詞根單元類似的收益。然后我們無縫融合了多含義的信息到下游任務(wù)剂娄,不需要顯式訓(xùn)練蠢涝,就可以預(yù)測預(yù)定義好的含義類別。
其他相關(guān)工作也關(guān)注于學(xué)習(xí)上下文相關(guān)的向量表示阅懦。context2vec使用一個(gè)雙向的lstm來對一個(gè)錨點(diǎn)單詞的上下文進(jìn)行編碼和二。其他使用編碼器來學(xué)習(xí)上下文的編碼方式(包括錨點(diǎn)詞在內(nèi))要么使用監(jiān)督學(xué)習(xí)的神經(jīng)感知機(jī)翻譯系統(tǒng),要么是無監(jiān)督的語言模型耳胎。這些方法都依賴于大規(guī)模的訓(xùn)練語料惯吕,盡管神經(jīng)感知機(jī)的方法受限于語料的并行化規(guī)模。這篇論文中怕午,我們利用大量單語言數(shù)據(jù)混埠,訓(xùn)練數(shù)據(jù)包含了3000萬個(gè)句子。我們還把這種方法推廣到深度上下文表示上诗轻,而且我們證明了這可以在多項(xiàng)NLP任務(wù)中表現(xiàn)良好。
之前的工作還表明:深度雙向RNN的不同層可以編碼不同類型的信息揭北。比如:在LSTM的低層表示中引入多任務(wù)句法分析監(jiān)督訓(xùn)練任務(wù)扳炬,有助于提升高層表示任務(wù)的總體表現(xiàn)吏颖,比如依賴分析、CCG super 標(biāo)注恨樟。在一個(gè)基于RNN的編碼解碼機(jī)器翻譯系統(tǒng)中半醉,一個(gè)雙層LSTM編碼器,使用第一層的表示來完成POS(詞性標(biāo)注)任務(wù)的效果比使用第二層要好劝术。最終本文證明缩多,LSTM的最高層用于編碼上下文可以學(xué)到單詞的含義表示。我們發(fā)現(xiàn)养晋,我們修改過的elmo語言模型也可以捕捉到類似的信號(hào)衬吆,這對混合了這些不同類型的下游半監(jiān)督任務(wù)學(xué)習(xí)模型很有幫助。
還有一些使用語言模型來預(yù)訓(xùn)練一個(gè)編碼器解碼器對绳泉,和一個(gè)序列自動(dòng)編碼器逊抡,然后對特定的任務(wù)進(jìn)行精調(diào)(fine tune)。相比之下零酪,使用雙向lstm和無標(biāo)注的數(shù)據(jù)來進(jìn)行預(yù)訓(xùn)練冒嫡,我們修改了權(quán)重,然后增加了針對任務(wù)的模型部分四苇,這就使得我們可以利用大量豐富而通用的雙向lstm表示來完成下游任務(wù)孝凌,這樣下游任務(wù)就僅僅需要很少量的標(biāo)注數(shù)據(jù)了。
3. Elmo:語言模型的嵌入表示
不像目前的大多數(shù)詞向量月腋,elmo詞向量是整個(gè)輸入語句的函數(shù)蟀架。他們是通過一個(gè)雙向lstm +字符cnn模型計(jì)算得來的,是內(nèi)部網(wǎng)絡(luò)狀態(tài)的線性組合罗售。這一步驟辜窑,使得我們可以做大量語料的半監(jiān)督學(xué)習(xí)來完成預(yù)訓(xùn)練,并且可以很容易的把它融合到其他現(xiàn)存的神經(jīng)網(wǎng)絡(luò)NLP架構(gòu)中寨躁。
3.1 雙向語言模型
給定N個(gè)token穆碎,(t1,t2,….tn),前向的語言模型計(jì)算了系列中給定t1~tk-1的情況下tk出現(xiàn)的概率:
在最近的SOA神經(jīng)網(wǎng)絡(luò)語言模型中职恳,通過字符級(jí)的CNN計(jì)算了上下文無關(guān)的token表示:
然后把它傳給前向LSTM的L層所禀,在每一個(gè)位置k上,LSTM的每一層都輸出一個(gè)上下文相關(guān)的表示:
其中:j= 1~L
最高層的LSTM輸出:
放钦,經(jīng)過一個(gè)softmax之后被用于預(yù)測下一個(gè)token:tk+1出現(xiàn)的概率色徘。
反向的LSTM跟正向的類似,僅僅是輸入序列經(jīng)過了一個(gè)反轉(zhuǎn)操禀,給定后面的token來預(yù)測上一個(gè)token出現(xiàn)的概率褂策。
雙向LSTM就是把前向和后向LSTM結(jié)合起來。我們的目標(biāo)函數(shù)是讓前向和后向的聯(lián)合log似然概率最大:
和softmax層的參數(shù)
進(jìn)行綁定(即兩個(gè)LSTM共用一套參數(shù)),而LSTM的其他參數(shù)則各自獨(dú)立斤寂」⒑福總的來說,這個(gè)方法跟另一篇文獻(xiàn)的方法很像遍搞。區(qū)別僅在于我們把兩個(gè)方向的LSTM的部分參數(shù)進(jìn)行了綁定罗侯。在下一部分,我們介紹了有別于其他論文的創(chuàng)新點(diǎn):我們的單詞表示是雙向LSTM各層的線性組合溪猿。
3.2 ELMO
elmo是一個(gè)根據(jù)任務(wù)而定的biLM的內(nèi)部向量的線性組合钩杰。每一個(gè)token tk,一個(gè)L層的biLM會(huì)計(jì)算2L+1個(gè)表示(就是最初的1個(gè)x和2個(gè)L層每層一個(gè)的向量诊县,總計(jì)2L+1):
為了融合到下游模型中讲弄,elmo吧R中所有的層打碎成一個(gè)向量
最簡單的情況下,elmo只用最頂層:
這就是某些論文中的情況翎冲,可以看做是本文的一個(gè)特例垂睬。而更普遍的做法,我們可以把所有的biLM層做一個(gè)線性組合:
其中:stask是softmax正則化權(quán)重抗悍,rtask是縮放系數(shù)驹饺,允許根據(jù)任務(wù)來縮放所有的elmo向量。r在優(yōu)化實(shí)踐過程中有比較重要的作用缴渊。biLM的每一層都有不同的激活分布赏壹,某些情況下還可以在調(diào)整權(quán)重之前用于層的正則化。
3.3 在NLP任務(wù)中使用biLM模型
給定一個(gè)預(yù)訓(xùn)練的biLM和一個(gè)監(jiān)督訓(xùn)練的NLP任務(wù)模型衔沼。使用biLM來提升模型效果是非常容易的蝌借。我們運(yùn)行一下biLM,然后記錄下每個(gè)單詞每一層的表示指蚁。然后菩佑,我們讓最后一層的任務(wù)來學(xué)習(xí)這些表示的線性組合。
首先凝化,考慮一下稍坯,不使用biLM時(shí)模型的最底層。大部分的NLP架構(gòu)在最底層都使用同樣的結(jié)構(gòu)(這里指詞向量)搓劫,這就讓我們可以用一個(gè)統(tǒng)一的方式來整合elmo瞧哟。給定一個(gè)序列:(t1,t2,….tn),標(biāo)準(zhǔn)情況就是做一個(gè)跟上下文無關(guān)的token表示tk枪向,這個(gè)表示是來自于預(yù)訓(xùn)練好的詞嵌入向量勤揩。然后模型做一個(gè)跟上下文有關(guān)的token hk, 典型的就是用雙向RNN秘蛔,CNN陨亡,或者普通的前向反饋神經(jīng)網(wǎng)絡(luò)
為了添加elmo傍衡,我們先是凍結(jié)biLM的權(quán)重,然后把elmo向量
和原始token向量xk concatenate起來数苫,得到一個(gè)elmo加強(qiáng)版的輸入向量:
把這個(gè)向量作為原任務(wù)RNN的輸入即可聪舒。對于某些任務(wù),我們觀察到把elmo向量作為任務(wù)RNN的輸出可以進(jìn)一步提高表現(xiàn):引入一組跟任務(wù)相關(guān)的線性組合的權(quán)重虐急,并且把原來的hk替換為
監(jiān)督訓(xùn)練模型的其他部分不變的情況下,這種整合的方式可以適用于更復(fù)雜的模型滔迈。比如第4章中SNLI試驗(yàn)的雙向attention層后面接一個(gè)biLM止吁。還有共指消解試驗(yàn)中,聚類模型可以基于biLM來做燎悍。
最后敬惦,我們發(fā)現(xiàn)給elmo加入適當(dāng)?shù)膁ropout,某些情況下加入L2正則可以提高表現(xiàn)谈山。這可以讓elmo的權(quán)重傾向于elmo的所有層級(jí)的平均值俄删。
3.4 預(yù)訓(xùn)練雙向語言模型架構(gòu)
本文的架構(gòu)跟另一篇論文相似,區(qū)別僅在于兩個(gè)方向的LSTM共享了一部分參數(shù)奏路。本文還借鑒了另一篇關(guān)注大數(shù)據(jù)量單向LSTM模型的論文思路畴椰。
為了在語言模型的perplexity、模型大小還有下游任務(wù)的算力需要之間保持平衡鸽粉,并且保持純字符級(jí)輸入表示斜脂,我們使用了單模型表現(xiàn)最好的一個(gè)研究CNN-BIG-LSTM的所有向量和中間隱狀態(tài)。最終模型使用L=2的biLM触机,有4096個(gè)單元帚戳,512維度和剩余的兩層之間的連接。上下文無關(guān)的表示使用2048個(gè)字符的ngram卷積核儡首,后面接2個(gè)“高速公路”層片任,還有一個(gè)512個(gè)表示的線性投影。結(jié)果就是biLM為每一個(gè)輸入的token提供了3層表示蔬胯。由于有一個(gè)字符級(jí)別的卷積对供,它還能為詞庫之外的詞提供一個(gè)表示。相比之下笔宿,傳統(tǒng)的詞向量只能為詞庫中的詞提供一層表示犁钟。
在10億word benchmark上經(jīng)過10個(gè)epoch訓(xùn)練,前向和后向的perplexity是39.7泼橘。而前向的CNN-BIG-LSTM的perplexity是30.0涝动。我們發(fā)現(xiàn)前向和后向的perplexity差不多,后向的稍低炬灭。
一旦訓(xùn)練完成醋粟,biLM的表示就可以用于非常多的任務(wù)。在某些特定領(lǐng)域的數(shù)據(jù)集上進(jìn)行精調(diào),可以顯著降低perplexity米愿,并且提高下游任務(wù)的表現(xiàn)厦凤。這可以看做biLM的遷徙學(xué)習(xí)。所以大多數(shù)情況下育苟,我們都對下游任務(wù)進(jìn)行精調(diào)较鼓。
4. 評估
表1表明了6個(gè)不同的NLP任務(wù)中ELMO的表現(xiàn)。在每個(gè)任務(wù)中违柏,僅僅是加入elmo就可以達(dá)到新的SOA博烂,并且得到6~20%的錯(cuò)誤率的降低。
問答:SQuAD(斯坦福問答數(shù)據(jù)集)包含了10萬多個(gè)問答對漱竖,其中答案是維基百科中的一段話禽篱。我們的baseline是一個(gè)改進(jìn)了的雙向attention流模型。它在雙向attention組件后面加入了一個(gè)self-attention層馍惹。簡化了一些池化操作躺率,把GRU替換成了LSTM。在baseline模型的基礎(chǔ)上加入elmo之后万矾,測試集的F1從81.1%提升到了85.8%悼吱,獲得了4.7%的提升,也就是24.9%的相對錯(cuò)誤率降低勤众。并且把單模型的SOA提升了1.4%舆绎。11個(gè)模型的ensemble把F1提升至87.4,這是截至2017年11月17日的最新SOA了们颜。給baseline模型加入ELMO帶來的4.7%的提升也要高于Cove的1.7%的提升吕朵。
上下文承接:上下文承接是給出一個(gè)前提的情況下,判斷另一個(gè)假設(shè)是否為真窥突,SNLI(斯坦福自然語言推斷)語料提供了大概55萬的上下文對努溃。我們的baseline,ESIM序列模型來編碼前后文阻问,后面接一個(gè)矩陣attention層梧税,一個(gè)本地推斷層,最后在輸出層之前加一個(gè)池化層称近〉诙樱總體來說,5個(gè)不同的隨機(jī)種子刨秆,加入elmo可以平均提升0.7%的準(zhǔn)確率凳谦。做一個(gè)ensemble模型的話,可以把準(zhǔn)確率從88.9提升至89.3%衡未。
語義標(biāo)注:語義標(biāo)注任務(wù)是“誰對誰做了什么”尸执,有一篇論文把這個(gè)問題定義為BIO標(biāo)注問題家凯,用一個(gè)8層的深度biLM。前向和后向之間交叉(取值如失?共享參數(shù)绊诲?)。在此模型中加入elmo來重新實(shí)現(xiàn)該模型之后褪贵,單模型在測試集上的F1掂之,從81.4% 上升至 84.6%,提高了3.2%竭鞍。這是OntoNotes上的新紀(jì)錄板惑,比之前的ensemble模型top1還要高1.2%。
共指消解:共指消解是把一段文字中指代同一個(gè)實(shí)體的片段聚成簇偎快。我們的baseline模型是一個(gè)端到端的神經(jīng)網(wǎng)絡(luò)模型,是標(biāo)記span的那種洽胶。它使用一個(gè)biLM和attention機(jī)制先是計(jì)算span的表示晒夹,然后把向量放入softmax的片段排序模型來發(fā)現(xiàn)共指鏈。在我們的實(shí)驗(yàn)中姊氓,CONLL 2012分享的OntoNotes數(shù)據(jù)集上丐怯,加入elmo把模型效果從67.2%提至 70.4%,獲得了新的SOA翔横,把之前的集合模型的SOA的F1提升了1.6%读跷。
實(shí)體抽取:CoNLL 2003實(shí)體識(shí)別任務(wù)包含路透社RCV1的標(biāo)注文本,有四種標(biāo)注(PER, LOC, ORG,MISC:人物禾唁、地點(diǎn)效览、組織、其他)荡短。和最新的SOA一樣丐枉,我們用字符級(jí)別的CNN預(yù)訓(xùn)練生成的詞向量+雙層的biLM+CRF的損失來做模型。elmo加強(qiáng)版的模型達(dá)到了92.22%的F1掘托。跟原模型相比瘦锹,最主要區(qū)別在于我們使用了biLM的每一層進(jìn)行加權(quán),而原文僅使用了最高一層闪盔。5.1節(jié)表明弯院,這種做法在很多任務(wù)里面都可以提高模型效果。
情感分析:SST(斯坦福情感樹)是一個(gè)包含5選1標(biāo)記(從非常負(fù)面到非常正面)的數(shù)據(jù)集泪掀,數(shù)據(jù)內(nèi)容是影評听绳。這些影評包含多樣的語言現(xiàn)象烛谊,比如成語之類非常難以學(xué)習(xí)到的否定描述振诬。我們的baseline模型是一個(gè)雙向attention分類網(wǎng)絡(luò)(BCN)庶溶,這是用Cove加強(qiáng)過的最新SOA,而把Cove換成elmo之后五嫂,可以獲得1%的絕對準(zhǔn)確率的提升。
5. 分析
本章的5.1主要探討Elmo這種深度表示比僅使用最高層表示更有助于提升下游任務(wù)的表現(xiàn)缴阎。5.3主要表明了biLM的低層向量捕捉了句法信息只磷,而高層向量捕捉了語義信息。MT編碼器也是一樣的名惩,這也表明elmo比cove提供了更豐富的表示澎胡。5.2探討了如何在模型中加入elmo更有效果。5.4探討了數(shù)據(jù)集大小的影響娩鹉。5.5對不同層級(jí)在不同任務(wù)上的權(quán)重進(jìn)行了可視化攻谁。
5.1 層權(quán)重公式的其他可能
層權(quán)重的計(jì)算公式有很多可能,之前的工作大部分都僅僅使用了最高層(不管是biLM還是MT編碼器)弯予。正則化參數(shù)λ的選擇也非常重要λ=1的話就是對所有層取平均戚宦,而λ=0.001的話就可以讓每層的權(quán)重相差較大。
表2對不同的λ進(jìn)行了對比(數(shù)據(jù)集為Squad锈嫩,SNLI和SRL)
結(jié)果表明受楼,用多層總比用頂層要好,而多層取不同權(quán)重的話效果更佳呼寸。
5.2 在哪里加入Elmo
本文中所有的模型都是把elmo向量作為底層輸入艳汽,然而我們發(fā)現(xiàn)有些情況下把elmo作為輸出會(huì)更好。具體情況如表3所示:
5.3 elmo捕捉了哪些信息对雪?
因?yàn)閑lmo比詞向量更有效河狐,這說明elmo捕捉了更多的信息,具體是什么呢瑟捣?直覺來說馋艺,使用了上下文的elmo應(yīng)該可以去除一詞多義。比如play這個(gè)詞蝶柿,含義非常豐富丈钙,表4列出了play這個(gè)詞的最近鄰。
可以看到交汤,相比于glove雏赦,elmo可以給出更加準(zhǔn)確的釋義。它可以同時(shí)考慮到詞性和詞意芙扎。用另一篇論文中提到的分析方法可以證明這一點(diǎn)星岗。使用elmo向量來做詞意消歧和詞性判斷標(biāo)注問題,這樣就可以分離出biLM編碼的具體信息戒洼。同時(shí)還能跟cove進(jìn)行比較俏橘。
詞義消歧:詞義消歧就是給出目標(biāo)詞的最近鄰詞。首先把所有單詞的向量表示用biLM計(jì)算出來(數(shù)據(jù)集為SemCor3.0)圈浇。然后對每一個(gè)含義進(jìn)行平均寥掐。測試的時(shí)候靴寂,對測試集的單詞進(jìn)行計(jì)算,然后得到的目標(biāo)詞取訓(xùn)練集中最接近的單詞召耘。再從wordnet中取一個(gè)訓(xùn)練時(shí)沒出現(xiàn)過的含義百炬。(然后呢?怎么對比污它?這里沒看懂)
這種方法跟其他模型相比剖踊,結(jié)果如下:
跟僅使用最頂層的模型相比,效果有所提升衫贬,而跟目前的SOA相比德澈,也是很有競爭力的,并且效果總是比cove要好固惯。
詞性標(biāo)注:為了判斷elmo是否可以捕捉到詞性信息梆造,我們把elmo的詞向量直接輸入到線性模型中,做PTB 數(shù)據(jù)集的詞性標(biāo)注問題葬毫。因?yàn)榫€性模型的內(nèi)容非常有限澳窑,所以這種方法可以直接檢驗(yàn)elmo捕捉詞性的能力。跟詞義消歧類似供常,elmo也得到了跟精調(diào)的模型相比依然很有競爭力的效果。然而跟詞義消歧不同的是鸡捐,elmo用第一層向量比頂層效果更好栈暇。
總結(jié):這些試驗(yàn)表明,biLM的不同層捕捉了不同的語言信息箍镜,這也是elmo含義更豐富源祈,加入elmo對下游任務(wù)更有幫助的原因。并且elmo向量比cove遷移性更好色迂。
5.4 樣本利用率
使用elmo香缺,可以讓數(shù)據(jù)的利用率變高,就是說同樣的數(shù)據(jù)量歇僧,訓(xùn)練所需的epoch更少图张。比如SRL模型達(dá)到最佳F1需要486個(gè)epoch,而加入elmo之后僅需要10個(gè)epoch诈悍。
另外祸轮,ELmo加強(qiáng)過的模型比原模型相比所需的數(shù)據(jù)量更小。下圖是對比:
數(shù)據(jù)集越小侥钳,使用elmo的效果越明顯适袜。
5.5 各層權(quán)重的可視化
圖2表明了各層在不同任務(wù)中的權(quán)重:
好像沒什么規(guī)律。原文說在輸入中加入elmo更傾向于第一層舷夺。
6 總結(jié)
1. 本文提供了一種通用的biLM的深度表示方法苦酱。使用這種方法可以普遍提高多項(xiàng)NLP任務(wù)的模型效果售貌。
2. 本文還用試驗(yàn)驗(yàn)證了biLM不同層可以提取不同的語義或者句法信息,而把這些信息使用到下游任務(wù)中可以有效提高模型效果疫萤。