2020-08-10

NLP學(xué)習(xí)—glove and word2vec

1、word2vec背后的數(shù)學(xué)知識,https://www.zybuluo.com/Dounm/note/591752

關(guān)于預(yù)訓(xùn)練的embedding,一般有GloVe、word2vec兩個皂股,那么兩者的區(qū)別參見:https://zhuanlan.zhihu.com/p/31023929

2待错、背后的數(shù)學(xué)知識举庶,關(guān)于負(fù)采樣琳水,是用來提高訓(xùn)練速度并且改善所得到詞向量的質(zhì)量的一種方法借嗽。不同于原本每個訓(xùn)練樣本更新所有的權(quán)重琳轿,負(fù)采樣每次讓一個訓(xùn)練樣本僅僅更新一小部分的權(quán)重判沟,這樣就會降低梯度下降過程中的計算量。

比如崭篡,當(dāng)我們用訓(xùn)練樣本(input:"fox",output:"quick")來訓(xùn)練神經(jīng)網(wǎng)絡(luò)時挪哄,如果vocabulary大小為10000,在輸出層琉闪,我們期望對應(yīng)“quick”單詞的那個神經(jīng)元節(jié)點(diǎn)輸出1迹炼,其余9999個都應(yīng)該輸出0,在這里颠毙,這9999個我們期望輸出為0的神經(jīng)元節(jié)點(diǎn)所對應(yīng)的單詞斯入,我們稱之為“negative” word。

3蛀蜜、glove模型即使用了語料庫的全局統(tǒng)計特征刻两,也使用了局部的上下文特征(即滑動窗口),關(guān)于glove模型背后的數(shù)學(xué)知識滴某,參見https://zhuanlan.zhihu.com/p/42073620

4磅摹、glove的簡明說明滋迈,global vectors for word representation,是一個基于全局詞頻統(tǒng)計的詞表征工具户誓,它可以把一個單詞表達(dá)成一個由實(shí)數(shù)組成的向量杀怠,這些向量捕捉到了單詞之間的一些語義特征,比如相似性厅克、類比性等赔退,我們通過對向量的運(yùn)算,比如歐幾里得距離或者余弦相似度证舟,可以計算出兩個單詞之間的語義相似性硕旗。實(shí)現(xiàn)步驟:

構(gòu)建共現(xiàn)矩陣:就是共同出現(xiàn)的意思,詞文檔的共現(xiàn)矩陣主要用于發(fā)現(xiàn)topic女责、用于主題模型漆枚,如LSA,局域窗口中word-word共現(xiàn)矩陣可以挖掘語法和語義信息抵知,參考https://juejin.im/post/6844903923279642638墙基,https://www.codenong.com/cs105344081/

5、這里面涉及到一些公式刷喜,講的比較全面https://developer.aliyun.com/article/714547残制,https://www.pythonf.cn/read/72756

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市掖疮,隨后出現(xiàn)的幾起案子初茶,更是在濱河造成了極大的恐慌,老刑警劉巖浊闪,帶你破解...
    沈念sama閱讀 207,248評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件恼布,死亡現(xiàn)場離奇詭異,居然都是意外死亡搁宾,警方通過查閱死者的電腦和手機(jī)折汞,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,681評論 2 381
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來盖腿,“玉大人爽待,你說我怎么就攤上這事〖楹觯” “怎么了堕伪?”我有些...
    開封第一講書人閱讀 153,443評論 0 344
  • 文/不壞的土叔 我叫張陵,是天一觀的道長栗菜。 經(jīng)常有香客問我欠雌,道長,這世上最難降的妖魔是什么疙筹? 我笑而不...
    開封第一講書人閱讀 55,475評論 1 279
  • 正文 為了忘掉前任富俄,我火速辦了婚禮禁炒,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘霍比。我一直安慰自己幕袱,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,458評論 5 374
  • 文/花漫 我一把揭開白布悠瞬。 她就那樣靜靜地躺著们豌,像睡著了一般。 火紅的嫁衣襯著肌膚如雪浅妆。 梳的紋絲不亂的頭發(fā)上望迎,一...
    開封第一講書人閱讀 49,185評論 1 284
  • 那天,我揣著相機(jī)與錄音凌外,去河邊找鬼辩尊。 笑死,一個胖子當(dāng)著我的面吹牛康辑,可吹牛的內(nèi)容都是我干的摄欲。 我是一名探鬼主播,決...
    沈念sama閱讀 38,451評論 3 401
  • 文/蒼蘭香墨 我猛地睜開眼疮薇,長吁一口氣:“原來是場噩夢啊……” “哼胸墙!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起惦辛,我...
    開封第一講書人閱讀 37,112評論 0 261
  • 序言:老撾萬榮一對情侶失蹤劳秋,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后胖齐,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 43,609評論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡嗽冒,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,083評論 2 325
  • 正文 我和宋清朗相戀三年呀伙,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片添坊。...
    茶點(diǎn)故事閱讀 38,163評論 1 334
  • 序言:一個原本活蹦亂跳的男人離奇死亡剿另,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出贬蛙,到底是詐尸還是另有隱情雨女,我是刑警寧澤,帶...
    沈念sama閱讀 33,803評論 4 323
  • 正文 年R本政府宣布阳准,位于F島的核電站氛堕,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏野蝇。R本人自食惡果不足惜讼稚,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,357評論 3 307
  • 文/蒙蒙 一括儒、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧锐想,春花似錦帮寻、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,357評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至藕帜,卻和暖如春烫罩,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背耘戚。 一陣腳步聲響...
    開封第一講書人閱讀 31,590評論 1 261
  • 我被黑心中介騙來泰國打工嗡髓, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人收津。 一個月前我還...
    沈念sama閱讀 45,636評論 2 355
  • 正文 我出身青樓饿这,卻偏偏與公主長得像,于是被迫代替她去往敵國和親撞秋。 傳聞我的和親對象是個殘疾皇子长捧,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,925評論 2 344