參考文獻(xiàn):Distributed Representations of Sentences and Documents
Doc2vec的思想是建立在word2vec的基礎(chǔ)上竟纳,認(rèn)為一個(gè)單詞對(duì)語(yǔ)句的貢獻(xiàn)不僅在于自身的向量,還有一個(gè)共同的向量paragraph matrix來(lái)進(jìn)行學(xué)習(xí),主要思想如下圖所示:
相對(duì)于word2vec类垦,doc2vec也有兩個(gè)版本,上面的是skip-gram的版本,下面的是CBOW版本:
總體上,訓(xùn)練過(guò)程中的步驟有兩步:
1. 通過(guò)訓(xùn)練得到單詞向量草穆,以及多分類(softmax)參數(shù)變量,還有當(dāng)前的doc 向量
2. 是通過(guò)已經(jīng)訓(xùn)練好的單詞向量和多分類參數(shù)變量搓译,來(lái)得到新的段落或者語(yǔ)句的向量:方法是在保持單詞向量和分類參數(shù)變量不變的情況下悲柱,利用后向傳播算法學(xué)習(xí)出新的段落向量。