NLP - 文集 - 簡書

NLP

11篇文章 · 15304字 · 3人關(guān)注

fasttext
詳情見 http://albertxiebnu.github.io/fasttext/

0.1 464 0 0
word2vec負(fù)采樣
負(fù)采樣算法任何采樣算法都應(yīng)該保證頻次越高的樣本越容易被采樣出來。基本的思路是對于長度為1的線段禁偎，根據(jù)詞語的詞頻將其公平地分配給每個詞語： co...

1147 0 0

Skip-Gram 模型
什么是Word2Vec和Embeddings合是？ Word2Vec是從大量文本語料中以無監(jiān)督的方式學(xué)習(xí)語義知識的一種模型厨诸，它被大量地用在自然語言處...

1012 2 0
fasttext文本分類與原理
預(yù)備知識為了更好的理解fastText身诺，我們先來了解一些預(yù)備知識蜜托。第一個是BoW模型抄囚，也叫做詞袋模型霉赡。BoW模型（Bag of words）應(yīng)...

1.7 17685 1 24
LDA建模
數(shù)據(jù)：首先我們來看一眼數(shù)據(jù)：語料庫中有9篇文檔，每篇文檔為1行幔托。數(shù)據(jù)保存在文件名為16.LDA_test.txt的文本文件中穴亏。程序：（1）...

0.1 509 0 0
word2vec與fasttext前篇
word2vec思想 word2vec的核心是神經(jīng)網(wǎng)絡(luò)，采用 CBOW（Continuous Bag-Of-Words重挑，即連續(xù)的詞袋模型）和 S...

0.4 3673 0 4
gensim訓(xùn)練詞向量
txt文件是已經(jīng)分好詞的5W條評論嗓化，訓(xùn)練模型只需一句話：第一個參數(shù)是訓(xùn)練語料，第二個參數(shù)是小于該數(shù)的單詞會被剔除谬哀，默認(rèn)值為5,第三個參數(shù)是神經(jīng)...

2885 0 3

HMM分詞
模型 HMM的典型模型是一個五元組:StatusSet: 狀態(tài)值集合ObservedSet: 觀察值集合TransProbMatrix: 轉(zhuǎn)移概...

380 0 0
gensim做主題模型
我調(diào)用了結(jié)巴分詞做中文處理刺覆，所以同樣手工寫個文本列表回到過程中來，將范例的語句分詞輸出：得到的分詞結(jié)果構(gòu)造詞典為了方便看史煎，我給了個循環(huán)...

569 0 0