整理自貪心科技NLP公開課批什,感謝分享!侵刪
第一講:詞向量與ELMo模型? 李文哲老師
預(yù)習(xí)1:最大似然估計
最大似然估計是機器學(xué)習(xí)鄰域最為常見的構(gòu)建目標函數(shù)的方法,核心是根據(jù)觀測到的結(jié)果預(yù)測其中的未知參數(shù)
求解:極大值倒數(shù)為0
預(yù)習(xí)2:機器學(xué)習(xí)中的MLE(極大似然估計)靖榕、MAP(最大后驗估計)、貝葉斯估計
(參考公眾號:李老師談人工智能)
假設(shè)在一個班級尋找一個人幫忙解答問題顽铸,找誰
班級可視為假設(shè)空間茁计,每個學(xué)生可看作模型實例化
方法1:MLE 最大似然估計
選擇過去三次考試成績最好的學(xué)生。三次考試成績相當(dāng)于”學(xué)習(xí)過程“谓松,選他去回答難題相當(dāng)于”預(yù)測過程“星压。
方法2:MAP 最大后驗估計
根據(jù)三次考試成績以及老師的評價選出最優(yōu)學(xué)生。這種方法選擇的學(xué)生不一定是第一名鬼譬。老師的評價和過往成績根據(jù)貝葉斯公式結(jié)合娜膘。左邊的項是MAP需要優(yōu)化的部分,通過貝葉斯定理這個項可以分解成MLE(第一種策略)和Prior优质,也就是老師的評價竣贪。
若觀測數(shù)據(jù)增加军洼,MAP逐步逼近MLE
方法三:Bayesian 貝葉斯模型
讓所有人都去參與回答張三的難題,但最后我們通過一些加權(quán)平均的方式獲得最終的答案演怎。通過三次考試成績和老師評價確定權(quán)重匕争。
1.預(yù)訓(xùn)練與詞向量
2.詞向量常見訓(xùn)練方法
3.深度學(xué)習(xí)與層次表示
4.LSTM、BL-LSTM模型回顧
5.基于BI-LSTM的ELMo算法
1. 基礎(chǔ)部分回顧——詞向量爷耀、語言模型
詞向量:詞的表示方法甘桑。如何通過量化的方式來表示一個單詞是nlp的核心問題。利用詞向量表示單詞的方法有one-hot表示(只有1歹叮、0)和分布式表示跑杭。通過超空間表示時,性質(zhì)相似的單詞距離相近咆耿。
one-hot編碼不能計算兩個詞語義的相似度
語言模型:用來判斷一句話從句法上是否通暢
p(s)=p(w1,w2.....) ?? wn表示詞向量
目前大部分LM都是基于統(tǒng)計方法(鏈式法則艘蹋,馬爾可夫估計)的。
鏈式法則chain rule:
馬爾科夫假設(shè)
由于長句時P值會變得很小票灰,用馬爾可夫假設(shè)近似估計來解決該問題。同時宅荤,可以降低統(tǒng)計量屑迂,降低復(fù)雜度,提高泛化能力(可在線學(xué)習(xí))冯键。
常見語言模型
unigram:每個單詞出現(xiàn)都是獨立的惹盼,不考慮上下文關(guān)系,只取決于詞在語料庫中出現(xiàn)的概率
bigram:基于first-order馬爾科夫假設(shè)
ngram:基于n-order馬爾可夫假設(shè)
由于某個詞在語料庫可能沒有出現(xiàn)過惫确,直接計算會導(dǎo)致稀疏性問題手报,幾大部分句子P=0 -->平滑方法
常見平滑方法
add-one smoothing(拉普拉斯平滑),add-K smoothing(k是可以通過訓(xùn)練優(yōu)化的參數(shù)改化,add-one smoothing可視為特殊情況)掩蛤,Interpolation(多個LM概率的加權(quán)平均,由于不同LM計算出的P可能不同)陈肛,good-turning smoothing
如何評估語言模型
理想方法:modelA揍鸟、B同時應(yīng)用于一個任務(wù)比較準確性
perplexity=2^-(x) ?? x:average log likelihood
基于分布式表示的模型總覽
global:從全局考慮,計算量大句旱,若增加一個新的文檔則要重新計算
local:加窗思想阳藻,計算量小,可充分利用大數(shù)據(jù)
建議學(xué)習(xí)路徑
2.NLP核心:學(xué)習(xí)不同語境下語義表示
詞向量訓(xùn)練常見方法
基于非語言模型方法:skipgram谈撒,cbow
基于語言模型的方法:神經(jīng)網(wǎng)絡(luò)語言模型(RNN等)
通過訓(xùn)練可以得到每個單詞固定的詞向量腥泥,這些詞向量與上下文可能有關(guān)
SkipGram
設(shè)window size=1,句子abcde啃匿,目標函數(shù)是最大化P(a|b)P(b|a)P(c|b)P(b|c)........
CBOW
設(shè)window size=1蛔外,句子abcde蛆楞,目標函數(shù)是最大化P(a|b,c)(c|b,d)........
NNLM:神經(jīng)網(wǎng)絡(luò)語言模型,基于馬爾科夫假設(shè)
BERT:denosing auto encoder
3.基于LSTM的詞向量學(xué)習(xí)(語言模型)
基本結(jié)構(gòu)
深度LSTM
雙向LSTM
注意雙向lstm并不是真的雙向冒萄,是兩個方向相反的lstm的拼接
4.深度學(xué)習(xí)中的層次表示以及DEEP BI-LSTM
層次越深能學(xué)習(xí)到細節(jié)表示