介紹
論文: https://cs.stanford.edu/~quocle/paragraph_vector.pdf
之前總結(jié)了word2vec的基本思想∑北啵現(xiàn)在考慮一個非常實際的問題:我們要對一些短文本進行情感分析(比如IMDB 數(shù)據(jù)集),在數(shù)據(jù)處理的很多時候都需要文本數(shù)據(jù)是定長的卵渴,這樣就有了一些問題慧域,我們知道短文本(比如微博,微博評論數(shù)據(jù)浪读, 商品評論數(shù)據(jù)等)的長度是不固定的昔榴,縱使我們訓練出了固定長度的詞向量辛藻,但是需要進行處理的數(shù)據(jù)基本單位卻是文本數(shù)據(jù)。如何將這些不定長的文本表示為一個定長的向量互订?并且這個向量要能夠盡可能地體現(xiàn)文本的情感狀況吱肌?
Doc2Vec 的思想很大程度上借鑒了Word2Vec 的思想。
Doc2Vec 思想
在word2vec model 有一個重要的思想就是利用周圍的詞去預測某個出現(xiàn)的單詞仰禽。我們可以將這種思想遷移到doc2vec的訓練中來氮墨。在doc2vec model中,每一個段落(也有可能是一篇文章吐葵,不同情況下表示不同)都分配一個paragrah id, 這也是一個和詞向量維度相同的向量勇边。paragraph vector 和 word vector 一起,參與到預測下一個單詞的過程中折联。所以粒褒,結(jié)合之前的word2vec 訓練過程,唯一不同的就是h 是由詞向量(W) 和段落向量(D)共同決定的诚镰。
注意: word vector 的值在每一次的訓練過程中都是共享的奕坟。但是如果paragrah表示的是文章的話,在一篇文章內(nèi)清笨,段落向量的值是共享的月杉,其他情況下不共享。