1报腔、gensim
gensim是一款具備多種功能的神器,開源的第三方工具包认烁,用于從原始的非結(jié)構(gòu)化的文本中肿男,無監(jiān)督地學(xué)習(xí)到文本隱層的主題向量表達,支持TF-IDF却嗡,LSA舶沛,LDA、word2vec在內(nèi)的多種主題模型算法窗价,支持流式訓(xùn)練
gensim的corpus通常是一個可迭代的對象(比如列表)如庭,每次迭代返回一個可用于表達文本對象的稀疏向量,這里的model是一個抽象的術(shù)語撼港,定義了兩個向量空間的變換(即從文本的一種向量表達變換為另一種向量表達)坪它。
訓(xùn)練語料的預(yù)處理指的是將文檔中原始的字符文本轉(zhuǎn)換成Gensim模型所能理解的稀疏向量的過程骤竹。
對于詞袋模型的步驟:字符串分割成詞語列表(可以使用分詞庫)——生成字典——轉(zhuǎn)化為向量