李宏毅-ELMO柱搜、BERT迟郎、GPT視頻筆記

本文根據(jù)李宏毅老師2019最新的機(jī)器學(xué)習(xí)視頻整理。

視頻地址:https://www.bilibili.com/video/av46561029/?p=61
ppt下載地址:http://speech.ee.ntu.edu.tw/~tlkagk/courses_ML19.html

1聪蘸、背景

機(jī)器是如何理解我們的文字的呢谎亩?最早的技術(shù)是1-of-N encoding,把每一個(gè)詞匯表示成一個(gè)向量宇姚,每一個(gè)向量都只有一個(gè)地方為1,其他地方為0夫凸。但是這么做詞匯之間的關(guān)聯(lián)沒(méi)有考慮浑劳,因?yàn)椴煌~之間的距離都是一樣的。

所以夭拌,接下來(lái)有了word class的概念魔熏,舉例說(shuō)dog、cat和bird都是動(dòng)物鸽扁,它們應(yīng)該是同類蒜绽。但是動(dòng)物之間也是有區(qū)別的,如dog和cat是哺乳類動(dòng)物桶现,和鳥類還是有些區(qū)別的躲雅。

后來(lái)有了更進(jìn)階的想法,稱作word embedding骡和,我們用一個(gè)向量來(lái)表示一個(gè)單詞相赁,相近的詞匯距離較近,如cat和dog慰于。那word embedding怎么訓(xùn)練呢钮科?比較熟知的就是word2vec方法。

但是呢婆赠,同一個(gè)詞是可能有不同的意思的绵脯,如下圖中的bank,前兩個(gè)指銀行休里,后兩個(gè)指河堤:

盡管有不同的意思蛆挫,但使用傳統(tǒng)的word embedding的方法,相同的單詞都會(huì)對(duì)應(yīng)同樣的embedding妙黍。但我們希望針對(duì)不同意思的bank璃吧,可以給出不同的embedding表示。

根據(jù)上下文語(yǔ)境的不同废境,同一個(gè)單詞bank我們希望能夠得到不同的embedding畜挨,如果bank的意思是銀行筒繁,我們期望它們之間的embedding能夠相近,同時(shí)能夠與河堤意思的bank相距較遠(yuǎn)巴元。

基于這個(gè)思想毡咏,首先有了ELMO。

2逮刨、ELMO

ELMO是Embeddings from Language Model的簡(jiǎn)稱呕缭,ELMO是《芝麻街》中的一個(gè)角色。它是一個(gè)RNN-based的語(yǔ)言模型修己,其任務(wù)是學(xué)習(xí)句子中的下一個(gè)單詞或者前一個(gè)單詞是什么恢总。

它是一個(gè)雙向的RNN網(wǎng)絡(luò),這樣每一個(gè)單詞都對(duì)應(yīng)兩個(gè)hidden state睬愤,進(jìn)行拼接便可以得到單詞的Embedding表示片仿。當(dāng)同一個(gè)單詞上下文不一樣,得到的embedding就不同尤辱。

當(dāng)然砂豌,我們也可以搞更多層:

這么多層的RNN,內(nèi)部每一層輸出都是單詞的一個(gè)表示光督,那我們?nèi)∧囊粚拥妮敵鰜?lái)代表單詞的embedding呢阳距?ELMO的做法就是我全都要

在ELMO中,一個(gè)單詞會(huì)得到多個(gè)embedding结借,對(duì)不同的embedding進(jìn)行加權(quán)求和筐摘,可以得到最后的embedding用于下游任務(wù)。要說(shuō)明一個(gè)這里的embedding個(gè)數(shù)船老,下圖中只畫了兩層RNN輸出的hidden state蓄拣,其實(shí)輸入到RNN的原始embedding也是需要的,所以你會(huì)看到說(shuō)右下角的圖片中努隙,包含了三個(gè)embedding惫搏。

但不同的權(quán)重是基于下游任務(wù)學(xué)習(xí)出來(lái)的癌别,上圖中右下角給了5個(gè)不同的任務(wù)戒财,其得到的embedding權(quán)重各不相同阅束。

3、Bert

Bert是Bidirectional Encoder Representations from Transformers的縮寫躬存,它也是芝麻街的人物之一张惹。Transformer中的Encoder就是Bert預(yù)訓(xùn)練的架構(gòu)。李宏毅老師特別提示:如果是中文的話岭洲,可以把字作為單位宛逗,而不是詞。

只是Transformer中的Encoder盾剩,那Bert怎么訓(xùn)練呢雷激?文獻(xiàn)中給出了兩種訓(xùn)練的方法替蔬,第一個(gè)稱為Masked LM,做法是隨機(jī)把一些單詞變?yōu)镸ask屎暇,讓模型去猜測(cè)蓋住的地方是什么單詞承桥。假設(shè)輸入里面的第二個(gè)詞匯是被蓋住的,把其對(duì)應(yīng)的embedding輸入到一個(gè)多分類模型中根悼,來(lái)預(yù)測(cè)被蓋住的單詞凶异。

另一種方法是預(yù)測(cè)下一個(gè)句子,這里挤巡,先把兩句話連起來(lái)剩彬,中間加一個(gè)[SEP]作為兩個(gè)句子的分隔符。而在兩個(gè)句子的開(kāi)頭矿卑,放一個(gè)[CLS]標(biāo)志符喉恋,將其得到的embedding輸入到二分類的模型,輸出兩個(gè)句子是不是接在一起的粪摘。

實(shí)際中,同時(shí)使用兩種方法往往得到的結(jié)果最好绍坝。

在ELMO中徘意,訓(xùn)練好的embedding是不會(huì)參與下游訓(xùn)練的,下游任務(wù)會(huì)訓(xùn)練不同embedding對(duì)應(yīng)的權(quán)重轩褐,但在Bert中椎咧,Bert是和下游任務(wù)一起訓(xùn)練的:

如果是分類任務(wù),在句子前面加一個(gè)標(biāo)志把介,將其經(jīng)過(guò)Bert得到的embedding輸出到二分類模型中勤讽,得到分類結(jié)果。二分類模型從頭開(kāi)始學(xué)拗踢,而Bert在預(yù)訓(xùn)練的基礎(chǔ)上進(jìn)行微調(diào)(fine-tuning)脚牍。

文中還有很多其他的應(yīng)用,如單詞分類:

如自然語(yǔ)言推理任務(wù)巢墅,給定一個(gè)前提/假設(shè)诸狭,得到推論是否正確:

最后一個(gè)例子是抽取式QA,抽取式的意思是輸入一個(gè)原文和問(wèn)題君纫,輸出兩個(gè)整數(shù)start和end驯遇,代表答案在原文中的起始位置和結(jié)束位置,兩個(gè)位置中間的結(jié)果就是答案蓄髓。

具體怎么解決剛才的QA問(wèn)題呢叉庐?把問(wèn)題 - 分隔符 - 原文輸入到BERT中,每一個(gè)單詞輸出一個(gè)黃顏色的embedding会喝,這里還需要學(xué)習(xí)兩個(gè)(一個(gè)橙色一個(gè)藍(lán)色)的向量陡叠,這兩個(gè)向量分別與原文中每個(gè)單詞對(duì)應(yīng)的embedding進(jìn)行點(diǎn)乘玩郊,經(jīng)過(guò)softmax之后得到輸出最高的位置。正常情況下start <= end匾竿,但如果start > end的話瓦宜,說(shuō)明是矛盾的case,此題無(wú)解岭妖。

Bert一出來(lái)就開(kāi)始在各項(xiàng)比賽中嶄露頭角:

這里李宏毅老師還舉例了百度提出的ERNIE临庇,ERNIE也是芝麻街的人物,而且還是Bert的好朋友昵慌,這里沒(méi)有細(xì)講假夺,感興趣的話大家可以看下原文。

Bert學(xué)到了什么呢斋攀?可以看下下面兩個(gè)文獻(xiàn)(給大伙貼出來(lái):https://arxiv.org/abs/1905.05950https://openreview.net/pdf?id=SJzSgnRcKX):

4已卷、GPT-2

GPT是Generative Pre-Training 的簡(jiǎn)稱,但GPT不是芝麻街的人物淳蔼。GPT-2的模型非常巨大侧蘸,它其實(shí)是Transformer的Decoder。

GPT-2是Transformer的Decoder部分鹉梨,輸入一個(gè)句子中的上一個(gè)詞讳癌,我們希望模型可以得到句子中的下一個(gè)詞。

由于GPT-2的模型非常巨大存皂,它在很多任務(wù)上都達(dá)到了驚人的結(jié)果晌坤,甚至可以做到zero-shot learning(簡(jiǎn)單來(lái)說(shuō)就是模型的遷移能力非常好),如閱讀理解任務(wù)旦袋,不需要任何閱讀理解的訓(xùn)練集骤菠,就可以得到很好的結(jié)果。

GPT-2可以自己進(jìn)行寫作疤孕,寫得還是不錯(cuò)的商乎!

好了,筆記就整理到這里了祭阀!

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末截亦,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子柬讨,更是在濱河造成了極大的恐慌崩瓤,老刑警劉巖,帶你破解...
    沈念sama閱讀 212,080評(píng)論 6 493
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件踩官,死亡現(xiàn)場(chǎng)離奇詭異却桶,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,422評(píng)論 3 385
  • 文/潘曉璐 我一進(jìn)店門颖系,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)嗅剖,“玉大人,你說(shuō)我怎么就攤上這事嘁扼⌒帕福” “怎么了?”我有些...
    開(kāi)封第一講書人閱讀 157,630評(píng)論 0 348
  • 文/不壞的土叔 我叫張陵趁啸,是天一觀的道長(zhǎng)强缘。 經(jīng)常有香客問(wèn)我,道長(zhǎng)不傅,這世上最難降的妖魔是什么旅掂? 我笑而不...
    開(kāi)封第一講書人閱讀 56,554評(píng)論 1 284
  • 正文 為了忘掉前任,我火速辦了婚禮访娶,結(jié)果婚禮上商虐,老公的妹妹穿的比我還像新娘。我一直安慰自己崖疤,他們只是感情好秘车,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,662評(píng)論 6 386
  • 文/花漫 我一把揭開(kāi)白布。 她就那樣靜靜地躺著劫哼,像睡著了一般叮趴。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上沦偎,一...
    開(kāi)封第一講書人閱讀 49,856評(píng)論 1 290
  • 那天疫向,我揣著相機(jī)與錄音咳蔚,去河邊找鬼豪嚎。 笑死,一個(gè)胖子當(dāng)著我的面吹牛谈火,可吹牛的內(nèi)容都是我干的侈询。 我是一名探鬼主播,決...
    沈念sama閱讀 39,014評(píng)論 3 408
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼糯耍,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼扔字!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起温技,我...
    開(kāi)封第一講書人閱讀 37,752評(píng)論 0 268
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤革为,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后舵鳞,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體震檩,經(jīng)...
    沈念sama閱讀 44,212評(píng)論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,541評(píng)論 2 327
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了抛虏。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片博其。...
    茶點(diǎn)故事閱讀 38,687評(píng)論 1 341
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖迂猴,靈堂內(nèi)的尸體忽然破棺而出慕淡,到底是詐尸還是另有隱情,我是刑警寧澤沸毁,帶...
    沈念sama閱讀 34,347評(píng)論 4 331
  • 正文 年R本政府宣布峰髓,位于F島的核電站,受9級(jí)特大地震影響以清,放射性物質(zhì)發(fā)生泄漏儿普。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,973評(píng)論 3 315
  • 文/蒙蒙 一掷倔、第九天 我趴在偏房一處隱蔽的房頂上張望眉孩。 院中可真熱鬧,春花似錦勒葱、人聲如沸浪汪。這莊子的主人今日做“春日...
    開(kāi)封第一講書人閱讀 30,777評(píng)論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)死遭。三九已至,卻和暖如春凯旋,著一層夾襖步出監(jiān)牢的瞬間呀潭,已是汗流浹背。 一陣腳步聲響...
    開(kāi)封第一講書人閱讀 32,006評(píng)論 1 266
  • 我被黑心中介騙來(lái)泰國(guó)打工至非, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留钠署,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 46,406評(píng)論 2 360
  • 正文 我出身青樓荒椭,卻偏偏與公主長(zhǎng)得像谐鼎,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子趣惠,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,576評(píng)論 2 349

推薦閱讀更多精彩內(nèi)容

  • 本文上兩篇系列 NLP的巨人肩膀(上) NLP的巨人肩膀(中) 4.6 Bidirectional Encoder...
    weizier閱讀 6,402評(píng)論 1 22
  • 本文另兩篇系列 NLP的巨人肩膀(上) NLP的巨人肩膀(下) 3. 梯子的一級(jí)半 除了在word級(jí)別的embed...
    weizier閱讀 6,582評(píng)論 0 18
  • 晨起看新聞狸棍,說(shuō)臺(tái)風(fēng)即將登陸花蓮,不禁哀嘆明天的阿里山行程注定要泡湯了味悄。 早餐照舊自助草戈,驚喜地發(fā)現(xiàn)有炸薯?xiàng)l,心情瞬間...
    初棠閱讀 1,390評(píng)論 0 1
  • C2:營(yíng)業(yè)利潤(rùn)率 為了多維度觀察公司的賺錢能力侍瑟,除關(guān)注毛利率外唐片,還要關(guān)注營(yíng)業(yè)利潤(rùn)率和營(yíng)業(yè)費(fèi)用率。 營(yíng)業(yè)利潤(rùn)率表明有...
    xieying466閱讀 231評(píng)論 0 1
  • 嗨淮悼,大家好呀。小柒今天會(huì)帶給大家什么呢揽思。 這次分享的絕對(duì)是你做PPT時(shí)沒(méi)有使用過(guò)的袜腥,但是卻是十分有用的工具。 正所...
    董小柒PPT閱讀 1,603評(píng)論 1 20