在基于Hierarchical Softmax的Skip-gram模型和CBOW模型中,負(fù)采樣是一個很重要的環(huán)節(jié),對于一個給定的詞w攘滩,我們?nèi)绾紊蒒EG(w)呢擂啥?
詞典D中的詞在語料C中出現(xiàn)的次數(shù)有高有低,對于那些高頻詞搓劫,我們希望它被選為負(fù)樣本的概率比較大,對于那些低頻詞,我們希望它被選中的概率比較小浑侥,這是我們對于負(fù)采樣過程的一個大致要求,本質(zhì)上可以認(rèn)為是一個帶權(quán)采樣的問題晰绎。
我們首先通過一段的通俗的描述來帶大家認(rèn)識一下帶權(quán)采樣的過程:
接下來再看一下word2vec中對于負(fù)采樣的做法寓落,本質(zhì)上和帶權(quán)采樣的做法類似: