TF-IDF算法之文本分析

一：TF-IDF是什么诽偷？

TF-IDF（term frequency–inverse document frequency）是一種用于信息檢索與數(shù)據(jù)挖掘的常用加權(quán)技術(shù)。TF意思是詞頻(Term Frequency)绎秒，IDF意思是逆文本頻率指數(shù)(Inverse Document Frequency)一姿。

二：原理介紹

TFIDF的主要思想是：如果某個詞或短語在一篇文章中出現(xiàn)的頻率TF高拖云，并且在其他文章中很少出現(xiàn)，則認為此詞或者短語具有很好的類別區(qū)分能力踏施，適合用來分類石蔗。TFIDF實際上是：TF * IDF，TF詞頻(Term Frequency)畅形，IDF逆向文件頻率(Inverse Document Frequency)养距。TF表示詞條在文檔d中出現(xiàn)的頻率。IDF的主要思想是：如果包含詞條t的文檔越少日熬，也就是n越小棍厌，IDF越大，則說明詞條t具有很好的類別區(qū)分能力。如果某一類文檔C中包含詞條t的文檔數(shù)為m耘纱，而其它類包含t的文檔總數(shù)為k敬肚，顯然所有包含t的文檔數(shù)n=m+k，當m大的時候束析，n也大艳馒，按照IDF公式得到的IDF的值會小，就說明該詞條t類別區(qū)分能力不強员寇。但是實際上弄慰，如果一個詞條在一個類的文檔中頻繁出現(xiàn)，則說明該詞條能夠很好代表這個類的文本的特征丁恭，這樣的詞條應(yīng)該給它們賦予較高的權(quán)重曹动，并選來作為該類文本的特征詞以區(qū)別與其它類文檔。這就是IDF的不足之處. 在一份給定的文件里牲览，詞頻（term frequency，TF）指的是某一個給定的詞語在該文件中出現(xiàn)的頻率恶守。這個數(shù)字是對詞數(shù)(term count)的歸一化第献，以防止它偏向長的文件。（同一個詞語在長文件里可能會比短文件有更高的詞數(shù)兔港，而不管該詞語重要與否庸毫。）如圖理解：

英文公式：

image.png

以上式子中分子是該詞在文件中的出現(xiàn)次數(shù)，而分母則是在文件中所有字詞的出現(xiàn)次數(shù)之和衫樊。

逆向文件頻率（inverse document frequency飒赃，IDF）是一個詞語普遍重要性的度量。某一特定詞語的IDF科侈，可以由總文件數(shù)目除以包含該詞語之文件的數(shù)目载佳，再將得到的商取以10為底的對數(shù)得到：

image.png

|D|：語料庫中的文件總數(shù)

包含詞語的文件數(shù)目（即的文件數(shù)目）如果該詞語不在語料庫中，就會導(dǎo)致分母為零臀栈，因此一般情況下使用作為分母蔫慧。

image.png

idf公式分母

然后再計算TF與IDF的乘積。

image.png

中文公式：

image.png

示例：

假設(shè)100篇文檔有10000個詞权薯，研究某篇500詞文章姑躲，“機器學(xué)習(xí)”出現(xiàn)了20次，“而且”出現(xiàn)了20次盟蚣，那么他們的TF都是20/500=0.04黍析。再來看IDF，對于語料庫的100篇文章屎开，每篇都出現(xiàn)了“而且”阐枣，因此它的IDF就是log1=0,他的TFIDF=0。而“機器學(xué)習(xí)”出現(xiàn)了10篇，那么它的IDF就是log10=1,他的TFIDF=0.04>0侮繁，顯然“機器學(xué)習(xí)”比“而且”更加重要虑粥。

Ps:未完待續(xù)。宪哩。娩贷。
（歡迎加入Python交流群：930353061。人生苦短锁孟，我用python１蜃妗！Ｆ烦椤）

最后編輯于：2019.02.14 15:21:42

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末储笑，一起剝皮案震驚了整個濱河市，隨后出現(xiàn)的幾起案子圆恤，更是在濱河造成了極大的恐慌突倍，老刑警劉巖，帶你破解...
沈念sama閱讀 219,270評論 6贊 508
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件盆昙，死亡現(xiàn)場離奇詭異羽历，居然都是意外死亡，警方通過查閱死者的電腦和手機淡喜，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 93,489評論 3贊 395
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門秕磷，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人炼团，你說我怎么就攤上這事澎嚣。” “怎么了瘟芝？”我有些...
開封第一講書人閱讀 165,630評論 0贊 356
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵易桃，是天一觀的道長。經(jīng)常有香客問我模狭，道長颈抚，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 58,906評論 1贊 295
?港島之戀（遺憾婚禮）
正文為了忘掉前任嚼鹉，我火速辦了婚禮贩汉，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘锚赤。我一直安慰自己匹舞，他們只是感情好，可當我...
茶點故事閱讀 67,928評論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布线脚。她就那樣靜靜地躺著赐稽，像睡著了一般叫榕。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上姊舵，一...
開封第一講書人閱讀 51,718評論 1贊 305
城市分裂傳說
那天晰绎，我揣著相機與錄音，去河邊找鬼括丁。笑死荞下，一個胖子當著我的面吹牛灶轰，可吹牛的內(nèi)容都是我干的超升。我是一名探鬼主播，決...
沈念sama閱讀 40,442評論 3贊 420
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼聚凹，長吁一口氣：“原來是場噩夢啊……” “哼构资！你這毒婦竟也來了抽诉？” 一聲冷哼從身側(cè)響起，我...
開封第一講書人閱讀 39,345評論 0贊 276
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤吐绵，失蹤者是張志新（化名）和其女友劉穎迹淌，沒想到半個月后，有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體拦赠，經(jīng)...
沈念sama閱讀 45,802評論 1贊 317
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡巍沙，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 37,984評論 3贊 337
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時候發(fā)現(xiàn)自己被綠了荷鼠。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點故事閱讀 40,117評論 1贊 351
活死人
序言：一個原本活蹦亂跳的男人離奇死亡榔幸，死狀恐怖允乐，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情削咆，我是刑警寧澤牍疏，帶...
沈念sama閱讀 35,810評論 5贊 346
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站拨齐，受9級特大地震影響鳞陨，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜瞻惋，卻給世界環(huán)境...
茶點故事閱讀 41,462評論 3贊 331
男人毒藥：我在死后第九天來索命
文/蒙蒙一厦滤、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧歼狼，春花似錦掏导、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 32,011評論 0贊 22
一樁弒父案趟咆，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽添瓷。三九已至，卻和暖如春值纱，著一層夾襖步出監(jiān)牢的瞬間鳞贷，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 33,139評論 1贊 272
情欲美人皮
我被黑心中介騙來泰國打工虐唠，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留搀愧，地道東北人。一個月前我還...
沈念sama閱讀 48,377評論 3贊 373
代替公主和親
正文我出身青樓凿滤，卻偏偏與公主長得像妈橄，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子翁脆，可洞房花燭夜當晚...
茶點故事閱讀 45,060評論 2贊 355

TF-IDF算法之文本分析

一：TF-IDF是什么诽偷？

二：原理介紹

英文公式：

中文公式：

示例：

推薦閱讀更多精彩內(nèi)容