TF-IDF算法之文本分析

一:TF-IDF是什么诽偷?

TF-IDF(term frequency–inverse document frequency)是一種用于信息檢索與數(shù)據(jù)挖掘的常用加權(quán)技術(shù)。TF意思是詞頻(Term Frequency)绎秒,IDF意思是逆文本頻率指數(shù)(Inverse Document Frequency)一姿。

二:原理介紹

TFIDF的主要思想是:如果某個詞或短語在一篇文章中出現(xiàn)的頻率TF高拖云,并且在其他文章中很少出現(xiàn),則認為此詞或者短語具有很好的類別區(qū)分能力踏施,適合用來分類石蔗。TFIDF實際上是:TF * IDF,TF詞頻(Term Frequency)畅形,IDF逆向文件頻率(Inverse Document Frequency)养距。TF表示詞條在文檔d中出現(xiàn)的頻率。IDF的主要思想是:如果包含詞條t的文檔越少日熬,也就是n越小棍厌,IDF越大,則說明詞條t具有很好的類別區(qū)分能力。如果某一類文檔C中包含詞條t的文檔數(shù)為m耘纱,而其它類包含t的文檔總數(shù)為k敬肚,顯然所有包含t的文檔數(shù)n=m+k,當m大的時候束析,n也大艳馒,按照IDF公式得到的IDF的值會小,就說明該詞條t類別區(qū)分能力不強员寇。但是實際上弄慰,如果一個詞條在一個類的文檔中頻繁出現(xiàn),則說明該詞條能夠很好代表這個類的文本的特征丁恭,這樣的詞條應(yīng)該給它們賦予較高的權(quán)重曹动,并選來作為該類文本的特征詞以區(qū)別與其它類文檔。這就是IDF的不足之處. 在一份給定的文件里牲览,詞頻(term frequency,TF)指的是某一個給定的詞語在該文件中出現(xiàn)的頻率恶守。這個數(shù)字是對詞數(shù)(term count)的歸一化第献,以防止它偏向長的文件。(同一個詞語在長文件里可能會比短文件有更高的詞數(shù)兔港,而不管該詞語重要與否庸毫。)如圖理解:

英文公式:

image.png

以上式子中分子是該詞在文件中的出現(xiàn)次數(shù),而分母則是在文件中所有字詞的出現(xiàn)次數(shù)之和衫樊。

逆向文件頻率(inverse document frequency飒赃,IDF)是一個詞語普遍重要性的度量。某一特定詞語的IDF科侈,可以由總文件數(shù)目除以包含該詞語之文件的數(shù)目载佳,再將得到的商取以10為底的對數(shù)得到:

image.png

|D|:語料庫中的文件總數(shù)

包含詞語的文件數(shù)目(即的文件數(shù)目)如果該詞語不在語料庫中,就會導(dǎo)致分母為零臀栈,因此一般情況下使用作為分母蔫慧。

·

image.png

idf公式分母

然后再計算TF與IDF的乘積。

image.png

中文公式:

image.png

示例:

假設(shè)100篇文檔有10000個詞权薯,研究某篇500詞文章姑躲,“機器學(xué)習(xí)”出現(xiàn)了20次,“而且”出現(xiàn)了20次盟蚣,那么他們的TF都是20/500=0.04黍析。再來看IDF,對于語料庫的100篇文章屎开,每篇都出現(xiàn)了“而且”阐枣,因此它的IDF就是log1=0,他的TFIDF=0。而“機器學(xué)習(xí)”出現(xiàn)了10篇,那么它的IDF就是log10=1,他的TFIDF=0.04>0侮繁,顯然“機器學(xué)習(xí)”比“而且”更加重要虑粥。

Ps:未完待續(xù)。宪哩。娩贷。
(歡迎加入Python交流群:930353061。人生苦短锁孟,我用python1蜃妗!F烦椤)

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末储笑,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子圆恤,更是在濱河造成了極大的恐慌突倍,老刑警劉巖,帶你破解...
    沈念sama閱讀 219,270評論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件盆昙,死亡現(xiàn)場離奇詭異羽历,居然都是意外死亡,警方通過查閱死者的電腦和手機淡喜,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,489評論 3 395
  • 文/潘曉璐 我一進店門秕磷,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人炼团,你說我怎么就攤上這事澎嚣。” “怎么了瘟芝?”我有些...
    開封第一講書人閱讀 165,630評論 0 356
  • 文/不壞的土叔 我叫張陵易桃,是天一觀的道長。 經(jīng)常有香客問我模狭,道長颈抚,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,906評論 1 295
  • 正文 為了忘掉前任嚼鹉,我火速辦了婚禮贩汉,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘锚赤。我一直安慰自己匹舞,他們只是感情好,可當我...
    茶點故事閱讀 67,928評論 6 392
  • 文/花漫 我一把揭開白布线脚。 她就那樣靜靜地躺著赐稽,像睡著了一般叫榕。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上姊舵,一...
    開封第一講書人閱讀 51,718評論 1 305
  • 那天晰绎,我揣著相機與錄音,去河邊找鬼括丁。 笑死荞下,一個胖子當著我的面吹牛灶轰,可吹牛的內(nèi)容都是我干的超升。 我是一名探鬼主播,決...
    沈念sama閱讀 40,442評論 3 420
  • 文/蒼蘭香墨 我猛地睜開眼聚凹,長吁一口氣:“原來是場噩夢啊……” “哼构资!你這毒婦竟也來了抽诉?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,345評論 0 276
  • 序言:老撾萬榮一對情侶失蹤吐绵,失蹤者是張志新(化名)和其女友劉穎迹淌,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體拦赠,經(jīng)...
    沈念sama閱讀 45,802評論 1 317
  • 正文 獨居荒郊野嶺守林人離奇死亡巍沙,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,984評論 3 337
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了荷鼠。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 40,117評論 1 351
  • 序言:一個原本活蹦亂跳的男人離奇死亡榔幸,死狀恐怖允乐,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情削咆,我是刑警寧澤牍疏,帶...
    沈念sama閱讀 35,810評論 5 346
  • 正文 年R本政府宣布,位于F島的核電站拨齐,受9級特大地震影響鳞陨,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜瞻惋,卻給世界環(huán)境...
    茶點故事閱讀 41,462評論 3 331
  • 文/蒙蒙 一厦滤、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧歼狼,春花似錦掏导、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,011評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽添瓷。三九已至,卻和暖如春值纱,著一層夾襖步出監(jiān)牢的瞬間鳞贷,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,139評論 1 272
  • 我被黑心中介騙來泰國打工虐唠, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留搀愧,地道東北人。 一個月前我還...
    沈念sama閱讀 48,377評論 3 373
  • 正文 我出身青樓凿滤,卻偏偏與公主長得像妈橄,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子翁脆,可洞房花燭夜當晚...
    茶點故事閱讀 45,060評論 2 355

推薦閱讀更多精彩內(nèi)容