原文
Visualizing 100,000 Amazon Products
擴展閱讀
[1]Sentence Embeddings. Fast, please!
[2]一個簡單但很難超越的Sentence Embedding基線方法
小結(jié)
該文主要是通過對亞馬遜的商品評論進行句向量的embeddding表達,同時通過快速的降維算法FIt-SNE將embedding映射到2維酵幕,然后用tableau進行可視化展現(xiàn)囱怕,效果非常不錯疑枯,可以用于對embedding的分析谜嫉。
- 針對句向量的計算,作者基于gensim寫了一個快速實現(xiàn)SIF算法的庫fse拌夏,可以用pip進行安裝赵辕,這個庫可以進行遷移學(xué)習(xí),可以重新訓(xùn)練也可以先加載現(xiàn)有的embedding來進行再訓(xùn)練。
- 同時丐谋,實現(xiàn)了python版本高效的SIF算法,該算法擴展閱讀2有介紹芍碧,是一個在句子相似度任務(wù)上超過平均水平,甚至超過部分復(fù)雜的模型的無監(jiān)督句向量方法号俐。在句子分類上效果也很明顯泌豆,甚至是最好成績。
- python實現(xiàn)SIF加速的具體方法在擴展閱讀1里面有提到吏饿,主要用到的是cPython和BLAS(Basic Linear Algebra Subprograms)進行改寫踪危,加速38倍之多。