概念
詞頻-逆文檔頻度(Term Frequency - Inverse Document Frequency,TF-IDF)技術(shù)惰拱,是一種用于資訊檢索與文本挖掘的常用加權(quán)技術(shù)艘希,可以用來評估一個詞對于一個文檔集或語料庫中某個文檔的重要程度。字詞的重要性隨著它在文件中出現(xiàn)的次數(shù)成正比增加 ,但同時會 隨著它在語料庫中出現(xiàn)的頻率成反比下降 锌杀。如果某個詞比較少見,但是它在這篇文章中多次出現(xiàn)泻仙,那么它很可能就反映了這篇文章的特性糕再,正是我們所需要的關(guān)鍵詞。
原理
以統(tǒng)計(jì)一篇文檔的關(guān)鍵詞為例玉转,最簡單的方法就是計(jì)算每個詞的詞頻亿鲜。
詞頻 (term frequency, TF)指的是某一個給定的詞語在該文件中出現(xiàn)的次數(shù)。
出現(xiàn)頻率最高的詞就是這篇文檔的關(guān)鍵詞冤吨。但是一篇文章中出現(xiàn)頻率最高的詞肯定是“的”蒿柳、‘是’、‘也’……這樣的詞漩蟆,這些詞顯然不能反應(yīng)文章的意思垒探,此時就需要對每個詞加一個權(quán)重,最常見的詞("的"怠李、"是"圾叼、"在")給予最小的權(quán)重,較少見的但能反應(yīng)這篇文章意思的詞給予較大的權(quán)重捺癞,這個權(quán)重叫做逆文檔頻率夷蚊。
**逆文檔頻率(nverse Document Frequency,IDF) **是一個詞語普遍重要性的度量髓介,它的大小與一個詞的常見程度成反比惕鼓,計(jì)算方法是語料庫的文檔總數(shù)除以語料庫中包含該詞語的文檔數(shù)量,再將得到的商取對數(shù)唐础。
知道了TF和IDF以后箱歧,將這兩個值相乘矾飞,就得到了一個詞的TF-IDF值。某個詞對文章的重要性越高呀邢,它的TF-IDF值就越大洒沦。所以,排在最前面的幾個詞价淌,就是這篇文章的關(guān)鍵詞申眼。
可以看到,TF-IDF與一個詞在文檔中的出現(xiàn)次數(shù)成正比蝉衣,與該詞在整個語言中的出現(xiàn)次數(shù)成反比豺型。所以,自動提取關(guān)鍵詞的算法就很清楚了买乃,就是計(jì)算出文檔的每個詞的TF-IDF值姻氨,然后按降序排列,取排在最前面的幾個詞剪验。