命名實體識別 (NER)
主題建模 (提取主題)
免費論文檢索網(wǎng)站
http://www.ucdrs.superlib.net/
image.png
image.png
TF-IDF 詞頻-逆文檔頻率 詞頻的倒數(shù) 度量詞語語義貢獻度大小
TF-IDF是無監(jiān)督學(xué)習(xí)
詞頻為0.067
image.png
import math
print(0.067 * math.log10(1000/10))
print(0.067 * math.log10(1000/15))
print(0.067 * math.log10(1000/100))
print(0.067 * math.log10(1000/50))
0.134
0.12220188564326938
0.067
0.08716900970948675
TF-IDF : 值作為向量
類別多的話用標(biāo)簽編碼器
也是沒有順序信息
獨熱編碼:缺點:容易維度災(zāi)難
詞袋模型:損失了順序信息
共現(xiàn)矩陣:稀疏矩陣
詞嵌入缺點:需要通過特殊的方式訓(xùn)練 訓(xùn)練過程麻煩
image.png
神經(jīng)網(wǎng)絡(luò) NNLM
Word2Vec:谷歌發(fā)布的訓(xùn)練詞向量的庫
1、CBOW:連續(xù)詞袋模型 上下文預(yù)測中心詞
2耸袜、Skip-gram:跳元模型 中心詞預(yù)測上下文
輪流以每個詞為中心詞 前后預(yù)測