NLP學(xué)習(xí)—glove and word2vec
1、word2vec背后的數(shù)學(xué)知識,https://www.zybuluo.com/Dounm/note/591752
關(guān)于預(yù)訓(xùn)練的embedding,一般有GloVe、word2vec兩個皂股,那么兩者的區(qū)別參見:https://zhuanlan.zhihu.com/p/31023929
2待错、背后的數(shù)學(xué)知識举庶,關(guān)于負(fù)采樣琳水,是用來提高訓(xùn)練速度并且改善所得到詞向量的質(zhì)量的一種方法借嗽。不同于原本每個訓(xùn)練樣本更新所有的權(quán)重琳轿,負(fù)采樣每次讓一個訓(xùn)練樣本僅僅更新一小部分的權(quán)重判沟,這樣就會降低梯度下降過程中的計算量。
比如崭篡,當(dāng)我們用訓(xùn)練樣本(input:"fox",output:"quick")來訓(xùn)練神經(jīng)網(wǎng)絡(luò)時挪哄,如果vocabulary大小為10000,在輸出層琉闪,我們期望對應(yīng)“quick”單詞的那個神經(jīng)元節(jié)點(diǎn)輸出1迹炼,其余9999個都應(yīng)該輸出0,在這里颠毙,這9999個我們期望輸出為0的神經(jīng)元節(jié)點(diǎn)所對應(yīng)的單詞斯入,我們稱之為“negative” word。
3蛀蜜、glove模型即使用了語料庫的全局統(tǒng)計特征刻两,也使用了局部的上下文特征(即滑動窗口),關(guān)于glove模型背后的數(shù)學(xué)知識滴某,參見https://zhuanlan.zhihu.com/p/42073620
4磅摹、glove的簡明說明滋迈,global vectors for word representation,是一個基于全局詞頻統(tǒng)計的詞表征工具户誓,它可以把一個單詞表達(dá)成一個由實(shí)數(shù)組成的向量杀怠,這些向量捕捉到了單詞之間的一些語義特征,比如相似性厅克、類比性等赔退,我們通過對向量的運(yùn)算,比如歐幾里得距離或者余弦相似度证舟,可以計算出兩個單詞之間的語義相似性硕旗。實(shí)現(xiàn)步驟:
構(gòu)建共現(xiàn)矩陣:就是共同出現(xiàn)的意思,詞文檔的共現(xiàn)矩陣主要用于發(fā)現(xiàn)topic女责、用于主題模型漆枚,如LSA,局域窗口中word-word共現(xiàn)矩陣可以挖掘語法和語義信息抵知,參考https://juejin.im/post/6844903923279642638墙基,https://www.codenong.com/cs105344081/
5、這里面涉及到一些公式刷喜,講的比較全面https://developer.aliyun.com/article/714547残制,https://www.pythonf.cn/read/72756