矩陣分解法
構(gòu)造矩陣X 形狀式詞庫(kù)size×詞庫(kù)size
分解后得到S\V\D雁仲, 其中S矩陣就是詞向量
壞處是 矩陣分解是全局方法沸久,分解的過(guò)程依賴(lài)于所有的語(yǔ)料庫(kù)炼幔,一旦語(yǔ)料庫(kù)變了淤井,X就變了。不方便做增量更新工猜。
Glove 一個(gè)融合矩陣分解(全局)和SkipGram模型(局部)的方法
Huffman編碼
構(gòu)建詞表的一種方法:
詞頻越高米诉,節(jié)點(diǎn)所處的層數(shù)越小,希望越快查找到(從根節(jié)點(diǎn)出發(fā))篷帅。
較小值放在右邊史侣。
1)所以先找最小的top2詞,詞頻分別是1和3
2)1+3 = 4 得到上一級(jí)的節(jié)點(diǎn)值
3)構(gòu)造好一棵樹(shù)后進(jìn)行huffman編碼魏身,保證高頻詞碼長(zhǎng)越短抵窒。