講座筆記|詞向量與ELMo模型

整理自貪心科技NLP公開課批什,感謝分享!侵刪

第一講:詞向量與ELMo模型? 李文哲老師


預(yù)習(xí)1:最大似然估計

最大似然估計是機器學(xué)習(xí)鄰域最為常見的構(gòu)建目標函數(shù)的方法,核心是根據(jù)觀測到的結(jié)果預(yù)測其中的未知參數(shù)

求解:極大值倒數(shù)為0

預(yù)習(xí)2:機器學(xué)習(xí)中的MLE(極大似然估計)靖榕、MAP(最大后驗估計)、貝葉斯估計

(參考公眾號:李老師談人工智能)

假設(shè)在一個班級尋找一個人幫忙解答問題顽铸,找誰

班級可視為假設(shè)空間茁计,每個學(xué)生可看作模型實例化

方法1:MLE 最大似然估計

選擇過去三次考試成績最好的學(xué)生。三次考試成績相當(dāng)于”學(xué)習(xí)過程“谓松,選他去回答難題相當(dāng)于”預(yù)測過程“星压。

方法2:MAP 最大后驗估計

根據(jù)三次考試成績以及老師的評價選出最優(yōu)學(xué)生。這種方法選擇的學(xué)生不一定是第一名鬼譬。老師的評價和過往成績根據(jù)貝葉斯公式結(jié)合娜膘。左邊的項是MAP需要優(yōu)化的部分,通過貝葉斯定理這個項可以分解成MLE(第一種策略)和Prior优质,也就是老師的評價竣贪。

若觀測數(shù)據(jù)增加军洼,MAP逐步逼近MLE

方法三:Bayesian 貝葉斯模型

讓所有人都去參與回答張三的難題,但最后我們通過一些加權(quán)平均的方式獲得最終的答案演怎。通過三次考試成績和老師評價確定權(quán)重匕争。


1.預(yù)訓(xùn)練與詞向量

2.詞向量常見訓(xùn)練方法

3.深度學(xué)習(xí)與層次表示

4.LSTM、BL-LSTM模型回顧

5.基于BI-LSTM的ELMo算法

1. 基礎(chǔ)部分回顧——詞向量爷耀、語言模型

詞向量:詞的表示方法甘桑。如何通過量化的方式來表示一個單詞是nlp的核心問題。利用詞向量表示單詞的方法有one-hot表示(只有1歹叮、0)和分布式表示跑杭。通過超空間表示時,性質(zhì)相似的單詞距離相近咆耿。

one-hot編碼不能計算兩個詞語義的相似度

語言模型:用來判斷一句話從句法上是否通暢

p(s)=p(w1,w2.....) ?? wn表示詞向量

目前大部分LM都是基于統(tǒng)計方法(鏈式法則艘蹋,馬爾可夫估計)的。

鏈式法則chain rule

馬爾科夫假設(shè)

由于長句時P值會變得很小票灰,用馬爾可夫假設(shè)近似估計來解決該問題。同時宅荤,可以降低統(tǒng)計量屑迂,降低復(fù)雜度,提高泛化能力(可在線學(xué)習(xí))冯键。

常見語言模型

unigram:每個單詞出現(xiàn)都是獨立的惹盼,不考慮上下文關(guān)系,只取決于詞在語料庫中出現(xiàn)的概率

bigram:基于first-order馬爾科夫假設(shè)

ngram:基于n-order馬爾可夫假設(shè)

由于某個詞在語料庫可能沒有出現(xiàn)過惫确,直接計算會導(dǎo)致稀疏性問題手报,幾大部分句子P=0 -->平滑方法

常見平滑方法

add-one smoothing(拉普拉斯平滑),add-K smoothing(k是可以通過訓(xùn)練優(yōu)化的參數(shù)改化,add-one smoothing可視為特殊情況)掩蛤,Interpolation(多個LM概率的加權(quán)平均,由于不同LM計算出的P可能不同)陈肛,good-turning smoothing

如何評估語言模型

理想方法:modelA揍鸟、B同時應(yīng)用于一個任務(wù)比較準確性

perplexity=2^-(x) ?? x:average log likelihood

基于分布式表示的模型總覽

global:從全局考慮,計算量大句旱,若增加一個新的文檔則要重新計算

local:加窗思想阳藻,計算量小,可充分利用大數(shù)據(jù)

建議學(xué)習(xí)路徑

2.NLP核心:學(xué)習(xí)不同語境下語義表示

詞向量訓(xùn)練常見方法

基于非語言模型方法:skipgram谈撒,cbow

基于語言模型的方法:神經(jīng)網(wǎng)絡(luò)語言模型(RNN等)

通過訓(xùn)練可以得到每個單詞固定的詞向量腥泥,這些詞向量與上下文可能有關(guān)

SkipGram

設(shè)window size=1,句子abcde啃匿,目標函數(shù)是最大化P(a|b)P(b|a)P(c|b)P(b|c)........

CBOW

設(shè)window size=1蛔外,句子abcde蛆楞,目標函數(shù)是最大化P(a|b,c)(c|b,d)........

NNLM:神經(jīng)網(wǎng)絡(luò)語言模型,基于馬爾科夫假設(shè)

BERT:denosing auto encoder

3.基于LSTM的詞向量學(xué)習(xí)(語言模型)

基本結(jié)構(gòu)

深度LSTM

雙向LSTM

注意雙向lstm并不是真的雙向冒萄,是兩個方向相反的lstm的拼接

4.深度學(xué)習(xí)中的層次表示以及DEEP BI-LSTM

層次越深能學(xué)習(xí)到細節(jié)表示

5.ELMo模型

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末臊岸,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子尊流,更是在濱河造成了極大的恐慌帅戒,老刑警劉巖,帶你破解...
    沈念sama閱讀 211,743評論 6 492
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件崖技,死亡現(xiàn)場離奇詭異逻住,居然都是意外死亡,警方通過查閱死者的電腦和手機迎献,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,296評論 3 385
  • 文/潘曉璐 我一進店門瞎访,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人吁恍,你說我怎么就攤上這事扒秸。” “怎么了冀瓦?”我有些...
    開封第一講書人閱讀 157,285評論 0 348
  • 文/不壞的土叔 我叫張陵伴奥,是天一觀的道長。 經(jīng)常有香客問我翼闽,道長拾徙,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 56,485評論 1 283
  • 正文 為了忘掉前任感局,我火速辦了婚禮尼啡,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘询微。我一直安慰自己崖瞭,他們只是感情好,可當(dāng)我...
    茶點故事閱讀 65,581評論 6 386
  • 文/花漫 我一把揭開白布撑毛。 她就那樣靜靜地躺著读恃,像睡著了一般。 火紅的嫁衣襯著肌膚如雪代态。 梳的紋絲不亂的頭發(fā)上寺惫,一...
    開封第一講書人閱讀 49,821評論 1 290
  • 那天,我揣著相機與錄音蹦疑,去河邊找鬼西雀。 笑死,一個胖子當(dāng)著我的面吹牛歉摧,可吹牛的內(nèi)容都是我干的艇肴。 我是一名探鬼主播腔呜,決...
    沈念sama閱讀 38,960評論 3 408
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼再悼!你這毒婦竟也來了核畴?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 37,719評論 0 266
  • 序言:老撾萬榮一對情侶失蹤冲九,失蹤者是張志新(化名)和其女友劉穎谤草,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體莺奸,經(jīng)...
    沈念sama閱讀 44,186評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡丑孩,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,516評論 2 327
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了灭贷。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片温学。...
    茶點故事閱讀 38,650評論 1 340
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖甚疟,靈堂內(nèi)的尸體忽然破棺而出仗岖,到底是詐尸還是另有隱情,我是刑警寧澤览妖,帶...
    沈念sama閱讀 34,329評論 4 330
  • 正文 年R本政府宣布箩帚,位于F島的核電站,受9級特大地震影響黄痪,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜盔然,卻給世界環(huán)境...
    茶點故事閱讀 39,936評論 3 313
  • 文/蒙蒙 一桅打、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧愈案,春花似錦挺尾、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,757評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至恢准,卻和暖如春魂挂,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背馁筐。 一陣腳步聲響...
    開封第一講書人閱讀 31,991評論 1 266
  • 我被黑心中介騙來泰國打工涂召, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人敏沉。 一個月前我還...
    沈念sama閱讀 46,370評論 2 360
  • 正文 我出身青樓果正,卻偏偏與公主長得像炎码,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子秋泳,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 43,527評論 2 349

推薦閱讀更多精彩內(nèi)容