NLP模型應用之一:基礎知識

引入

2018年底發(fā)布的BERT模型和2019年初發(fā)布的GPT-2模型,開始挑戰(zhàn)人類的語言處理能力。二者都基于之前介紹過的Transformer基礎模型嘀略。

對模型的研究有幾個層次:研究基礎模型蜈缤、擴展模型、應用模型

  • 研究基礎模型 我們熟知的卷積神經(jīng)網(wǎng)絡CNN势就,循環(huán)神經(jīng)網(wǎng)絡RNN,Transformer模型脉漏,殘差網(wǎng)絡ResNet等等苞冯,都是底層模型,它們是神經(jīng)網(wǎng)絡應用的基礎侧巨。

  • 擴展模型 基礎模型需要經(jīng)過適配和擴展舅锄,才能應用到更多領域。如圖像識別一開始主要支持圖片分類司忱,而后擴展到人臉識別皇忿、圖像分割等等領域。在自然語言處理領域Transformer模型最初被用于解決翻譯問題坦仍,而后擴展到解決問答鳍烁、判斷一致性、完型填空等問題之中繁扎,比如BERT通過Mask遮蔽技術優(yōu)化了自然語言處理中的更多問題的解決方法幔荒。

  • 應用模型 再上層是針對某一個領域的具體應用和細化,調(diào)用模型解決問題并調(diào)優(yōu)模型梳玫。例如使用模型判斷正常和病變細胞爹梁、預測股票趨勢,使用預訓練好的語言模型撰寫某種類型的文章……這些大多是由工程師完成的工作提澎。從算法角度看創(chuàng)新并不多姚垃,但是涉及一些領域相關知識,甚至包括怎么定義問題盼忌,描述問題积糯,與模型結合掂墓,相對偏重應用,也是軟件工程師比較擅長的領域絮宁。

有監(jiān)督學習和無監(jiān)督學習

傳統(tǒng)的深度學習在解決某個問題時都需要大量數(shù)據(jù)反復訓練梆暮,在數(shù)據(jù)量和算力足夠的情況下,直接訓練模型效果更好绍昂。但在很多實際應用中啦粹,卻很難實現(xiàn)。比如:在醫(yī)學診斷中使用機器視覺技術時窘游,需要大量標注好的正例和反例唠椭,反復訓練,實際情況是有問題的病例只占少數(shù)忍饰,評價函數(shù)將使模型偏向大多數(shù)正常贪嫂;且標注起來非常困難,從一個300M的圖像上標注出所有異常細胞的難度和人工成本可想而知艾蓝。

圖片來自天池大數(shù)據(jù)競賽平臺

人類解決此問題時力崇,只需要了解正常細胞與異常細胞形狀、大小等重要特征的差異即可判斷赢织。這是由于人的常識系統(tǒng)亮靴,可從圖像中提取出形狀、顏色等信息于置。于是人們致力于開發(fā)類似人類的常識系統(tǒng)茧吊,希望從相關的任務中學習,通過大量數(shù)據(jù)和訓練形成機器的知識體系八毯,在解決具體問題時搓侄,只需要少量訓練,即可正常工作话速。

零樣本學習

零樣本學習Zero-shot Learning指的是之前沒接觸過某一類別的訓練樣本讶踪,但通過在實際目標和訓練目標之間建立映射關系,實現(xiàn)識別該類別的功能泊交。比如:之前沒見過老虎俊柔,但是照貓畫虎也能對老虎有大致了解,在判斷過程中更容易把老虎和桌子活合、香蕉區(qū)分開來。

單樣本學習 One-shot Learning物赶,少量樣本學習Few-shot Learning也與之類似白指,它們針對的都是只有少量正例或者單個正例的情況下的學習問題,實際上是一種普遍規(guī)則到特殊規(guī)則的映射酵紫。

ELMo告嘲、GPT错维、BERT和GTP-2的目標都是使用大量無標簽語料預訓練模型,然后用有標簽的小數(shù)據(jù)調(diào)優(yōu)模型橄唬。GPT-2主要針對零樣本學習赋焕,挑戰(zhàn)近似無監(jiān)督學習的問題,后面可以看到仰楚,它通過對海量數(shù)據(jù)的訓練生成了常識系統(tǒng)隆判。

半監(jiān)督學習

由于神經(jīng)網(wǎng)絡是一種有監(jiān)督學習模型,必須有特征x和目標y僧界,才能使用誤差函數(shù)比較實際目標y與預測值y’的差異侨嘀,反向傳播誤差來調(diào)整參數(shù)。接下來的問題是捂襟,如何使用無標簽的語料來訓練模型咬腕?

最基本的方法是利用前面的N個詞預測后面的第N+1個詞,比如:通過序列的前三個元素“白日依”葬荷,預測第四個元素“山”是最基本的處理方法涨共,也是GPT模型使用的預訓練方法。

進而宠漩,隨機屏蔽序列中的某一元素举反,如“山”,然后通過它的前文和后文共同預測出該位置的元素哄孤。

自然語言處理問題中照筑,一般先利用無標簽數(shù)據(jù)按上述方法訓練基礎模型,然后再用針對具體問題的少量有標簽數(shù)據(jù)進一步訓練最終的模型瘦陈。

遷移學習

遷移學習Transfer learning指把訓練目標A的模型作為基礎凝危,通過進一步訓練,實現(xiàn)對目標B的預測晨逝。遷移學習有兩種方式:

  • 使用模型提取特征 使用已有模型提取特征作為新模型的輸入蛾默,這樣不一定需要算力強大的GPU,訓練上百層的神經(jīng)網(wǎng)絡捉貌,也能實現(xiàn)很好的效果支鸡。在自然語言處理中,常用訓練好的模型提取詞向量(詞義)或者網(wǎng)絡某些層的輸出作為特征趁窃,比如通過訓練把詞的索引號轉(zhuǎn)換成一系列的屬性值牧挣,從而比較兩詞的相互關系,如得到Play的近義詞playing, game, games, played, players等等醒陆。

  • 預訓練和微調(diào) 預訓練Pretrain加微調(diào)Fine-tuning是目前主流的解決方案瀑构,先用大量的普通數(shù)據(jù)訓練模型獲取一般性知識Pretrain,再在小的目標數(shù)據(jù)集上調(diào)優(yōu)Fine-tuning刨摩。它既能使用別人訓練好的成熟模型寺晌,又能有針對性的解決問題世吨。 Pretrain+Finetuning的問題在于預訓練與調(diào)優(yōu)需要同樣形式的數(shù)據(jù),比如呻征,解決感情色彩分類的問題耘婚,BERT的方法是:前期使用大量的無標簽文本訓練時也在序列開頭預留一個CLS位吨瞎,用于可能處理的分類問題誓斥。

兩種方式各有利弊朋腋,提取特征方法更加靈活锻全,可以處理更多不可預知的問題類型屈暗,Pretain+Finetuning能更好地利用模型中學到的知識扶供。

自然語言評測

自然語言常使用GLUE和SquAD測試玻侥,來評價模型的效果店雅。這些測試基本涵蓋了自然語言處理領域的常見問題類型阵子。

QLUE全稱是General Language Understanding Evaluation思杯,它涉及自然語言處理的各個子模塊,QLUE不公開測試集結果挠进,開發(fā)者上傳預測結果后色乾,它給出評分。包括十一項測試领突,如:

  • MNLI:判斷兩個句子間是繼承暖璧,反駁,中間關系(雙句君旦,分類)
  • QQP:兩個問句的類似程度(雙句澎办,分類)
  • QNLI:問答系統(tǒng),區(qū)分問題的正確答案和同一段中的其它描述 (雙句金砍,分類)
  • SST-2:電影評論的感情色彩標注 (單句局蚀,分類)
  • CoLA:判斷語法是否正確 (單句,分類)
  • STS-B:語義相似度打分(1-5級)(雙句恕稠,分類)
  • MRPC:兩句語義是否等價(雙句琅绅,分類)
  • RTE識別繼承關系,類似MNLI鹅巍,但數(shù)據(jù)集較星Х觥(雙句,分類)

SquAD全稱The Standford Question Answering Dataset骆捧,它是斯坦福大學于2016年推出的閱讀理解數(shù)據(jù)集澎羞,給定一篇文章,準備相應問題敛苇,需要算法給出問題的答案煤痕。一共有107,785問題,以及配套的 536 篇文章。與GLUE的分類不同摆碉,它尋找的是一個答案在段落中的位置。

自然語言評測包含幾種任務:判斷句與句之間的關系脓豪,分類和標注巷帝,在后續(xù)的BERT部分將介紹具體的實現(xiàn)方法。

最后編輯于
?著作權歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末扫夜,一起剝皮案震驚了整個濱河市楞泼,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌笤闯,老刑警劉巖堕阔,帶你破解...
    沈念sama閱讀 217,542評論 6 504
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異颗味,居然都是意外死亡超陆,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,822評論 3 394
  • 文/潘曉璐 我一進店門浦马,熙熙樓的掌柜王于貴愁眉苦臉地迎上來时呀,“玉大人,你說我怎么就攤上這事晶默〗髂龋” “怎么了?”我有些...
    開封第一講書人閱讀 163,912評論 0 354
  • 文/不壞的土叔 我叫張陵磺陡,是天一觀的道長趴梢。 經(jīng)常有香客問我,道長币他,這世上最難降的妖魔是什么坞靶? 我笑而不...
    開封第一講書人閱讀 58,449評論 1 293
  • 正文 為了忘掉前任,我火速辦了婚禮圆丹,結果婚禮上滩愁,老公的妹妹穿的比我還像新娘。我一直安慰自己辫封,他們只是感情好硝枉,可當我...
    茶點故事閱讀 67,500評論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著倦微,像睡著了一般妻味。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上欣福,一...
    開封第一講書人閱讀 51,370評論 1 302
  • 那天责球,我揣著相機與錄音,去河邊找鬼。 笑死雏逾,一個胖子當著我的面吹牛嘉裤,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播栖博,決...
    沈念sama閱讀 40,193評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼屑宠,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了仇让?” 一聲冷哼從身側響起典奉,我...
    開封第一講書人閱讀 39,074評論 0 276
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎丧叽,沒想到半個月后卫玖,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,505評論 1 314
  • 正文 獨居荒郊野嶺守林人離奇死亡踊淳,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,722評論 3 335
  • 正文 我和宋清朗相戀三年假瞬,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片嚣崭。...
    茶點故事閱讀 39,841評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡笨触,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出雹舀,到底是詐尸還是另有隱情芦劣,我是刑警寧澤,帶...
    沈念sama閱讀 35,569評論 5 345
  • 正文 年R本政府宣布说榆,位于F島的核電站虚吟,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏签财。R本人自食惡果不足惜串慰,卻給世界環(huán)境...
    茶點故事閱讀 41,168評論 3 328
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望唱蒸。 院中可真熱鬧邦鲫,春花似錦、人聲如沸神汹。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,783評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽屁魏。三九已至滔以,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間氓拼,已是汗流浹背你画。 一陣腳步聲響...
    開封第一講書人閱讀 32,918評論 1 269
  • 我被黑心中介騙來泰國打工抵碟, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人坏匪。 一個月前我還...
    沈念sama閱讀 47,962評論 2 370
  • 正文 我出身青樓拟逮,卻偏偏與公主長得像,于是被迫代替她去往敵國和親适滓。 傳聞我的和親對象是個殘疾皇子唱歧,可洞房花燭夜當晚...
    茶點故事閱讀 44,781評論 2 354