TF-IDF簡(jiǎn)介
TF(Term Frequency)是指詞頻舷礼,就是一個(gè)詞在文本中出現(xiàn)的詞數(shù),常用標(biāo)準(zhǔn)化處理
TF = (某個(gè)詞在文檔中出現(xiàn)的次數(shù)) / (文檔中的總詞數(shù))
IDF(Inverse Document Frequency)是逆文檔頻
有了TF,為什么還要用IDF呢迫筑,因?yàn)橛肐DF來(lái)降低各個(gè)文本都有的詞的詞頻權(quán)重村刨。就是說(shuō)如果一個(gè)詞在某一個(gè)文檔中出現(xiàn)的次數(shù)比較多,而其他文檔沒(méi)有出現(xiàn)栈幸,說(shuō)明該詞對(duì)該文檔分類(lèi)很重要愤估;然而如果其他文檔也出現(xiàn)比較多,說(shuō)明該詞區(qū)分性不大速址,就用IDF來(lái)降低該詞的權(quán)重玩焰。
IDF = log(語(yǔ)料中文檔總數(shù) / 包含該詞的文檔數(shù)+1) 分母加1 避免分母為0
TF-IDF:是兩者相乘
TF-IDF與一個(gè)詞在文檔中的出現(xiàn)次數(shù)成正比,與該詞在整個(gè)語(yǔ)言中的出現(xiàn)次數(shù)成反比
TF-IDF = TF*IDF
一個(gè)詞的TF-IDF值越大芍锚,表明該詞在該文本出現(xiàn)的次數(shù)越多昔园,對(duì)該文本越重要(停用詞除外),常用來(lái)做關(guān)鍵詞提取并炮。
TF-IDF使用
給出一個(gè)文本默刚,現(xiàn)在要求TF-IDF,如何求呢逃魄?又是如何使用TF-IDF來(lái)對(duì)文本進(jìn)行分類(lèi)呢荤西?
我喜歡看電影,而不喜歡看電視伍俘,今天剛上映了電影邪锌,所以就去了電影院
首先分詞,得到結(jié)果如下:
我, 喜歡, 看, 電影, 养篓,, 而, 不, 喜歡, 看電視, 秃流,, 今天, 剛, 上映, 了, 電影, ,, 所以, 就, 去, 了, 電影院, 柳弄。
統(tǒng)計(jì)詞頻
統(tǒng)計(jì)詞出現(xiàn)的次數(shù)舶胀,然后再標(biāo)注化(詞頻),就是:
我碧注,喜歡嚣伐,看,電影萍丐,而轩端,不,看電視逝变,......
[1基茵,2奋构,1,2,1,1,1拱层,......]
過(guò)濾停用詞
停用詞就是指一些沒(méi)有起決定性作用的弥臼,然而在文本中出現(xiàn)的次數(shù)又是很多的,如:
我根灯,你径缅、她、所以烙肺、了纳猪,的、在桃笙、因?yàn)?...
氏堤,停用詞表中有許多,這里用的是哈工大停用詞表
提取向量
提取向量也就是將計(jì)算好的TF-IDF向量提取出來(lái)搏明,而不是單一的詞向量丽猬。
就是將文檔分詞,計(jì)算文檔各個(gè)詞出現(xiàn)的次數(shù)熏瞄,然后表示成一個(gè)向量