知識(shí)預(yù)備
在了解wrod2vec之前,我們需要了解sigmoid函數(shù),貝葉斯公式几莽,哈夫曼編碼等內(nèi)容。
sigmoid函數(shù)
使用過(guò)邏輯回歸的同學(xué)應(yīng)該了解宅静,是一個(gè)定義域?yàn)椋?∞章蚣,+∞),值域?yàn)椋?姨夹,1)纤垂,其定義為:
函數(shù)圖像如下:
貝葉斯公式
貝葉斯公式是用來(lái)描述兩個(gè)條件概率之間的關(guān)系矾策,基于貝葉斯公式的分類(lèi)方法可以查看我之前寫(xiě)的文章 http://www.reibang.com/p/7b0ab1bddaf0 。
哈夫曼(hufuman)編碼
赫夫曼編碼的具體方法:先按出現(xiàn)的概率大小排隊(duì)洒忧,把兩個(gè)最小的概率相加蝴韭,作為新的概率 和剩余的概率重新排隊(duì),再把最小的兩個(gè)概率相加熙侍,再重新排隊(duì)榄鉴,直到最后變成1。每次相 加時(shí)都將“0”和“1”賦與相加的兩個(gè)概率蛉抓,讀出時(shí)由該符號(hào)開(kāi)始一直走到最后的“1”庆尘, 將路線上所遇到的“0”和“1”按最低位到最高位的順序排好,就是該符號(hào)的赫夫曼編碼巷送。
哈夫曼(hufuman)樹(shù)的構(gòu)造
簡(jiǎn)單來(lái)說(shuō)驶忌,假設(shè)有給定 n個(gè)權(quán)值{w1,w2,w3,...,wn}, 我們可以把這些通通看成一顆樹(shù),每棵樹(shù)只有一個(gè)節(jié)點(diǎn)笑跛。
1.從這些權(quán)值中找出最小的兩個(gè)付魔,合并構(gòu)建一棵新的樹(shù),這兩個(gè)權(quán)值分別作為新樹(shù)的左右子樹(shù)飞蹂,新樹(shù)的根節(jié)點(diǎn)則是子樹(shù)根節(jié)點(diǎn)和相加几苍。
2.n個(gè)權(quán)值中去除合并的值,添加新樹(shù)的值陈哑,繼續(xù)上一步驟妻坝,直至所有的權(quán)值合并完全。
舉個(gè)例子:
由圖可見(jiàn)惊窖,權(quán)值越大的離根節(jié)點(diǎn)越近刽宪。