NLP基本方法:TF-IDF原理及應(yīng)用

一币旧、TF-IDF原理

1. 什么是TF-IDF

TF-IDF(Term Frequency-Inverse Document Frequency, 詞頻-逆文件頻率).

是一種用于資訊檢索與資訊探勘的常用加權(quán)技術(shù)。TF-IDF是一種統(tǒng)計(jì)方法猿妈,用以評估一字詞對于一個文件集或一個語料庫中的其中一份文件的重要程度吹菱。字詞的重要性隨著它在文件中出現(xiàn)的次數(shù)成正比增加巍虫,但同時會隨著它在語料庫中出現(xiàn)的頻率成反比下降。

上述引用總結(jié)就是, 一個詞語在一篇文章中出現(xiàn)次數(shù)越多, 同時在所有文檔中出現(xiàn)次數(shù)越少, 越能夠代表該文章.

這也就是TF-IDF的含義.

詞頻 (term frequency, TF)?指的是某一個給定的詞語在該文件中出現(xiàn)的次數(shù)鳍刷。這個數(shù)字通常會被歸一化(一般是詞頻除以文章總詞數(shù)), 以防止它偏向長的文件垫言。(同一個詞語在長文件里可能會比短文件有更高的詞頻,而不管該詞語重要與否倾剿。)

但是, 需要注意, 一些通用的詞語對于主題并沒有太大的作用, 反倒是一些出現(xiàn)頻率較少的詞才能夠表達(dá)文章的主題, 所以單純使用是TF不合適的筷频。權(quán)重的設(shè)計(jì)必須滿足:一個詞預(yù)測主題的能力越強(qiáng),權(quán)重越大前痘,反之凛捏,權(quán)重越小。所有統(tǒng)計(jì)的文章中芹缔,一些詞只是在其中很少幾篇文章中出現(xiàn)坯癣,那么這樣的詞對文章的主題的作用很大,這些詞的權(quán)重應(yīng)該設(shè)計(jì)的較大最欠。IDF就是在完成這樣的工作.

公式:



逆向文件頻率 (inverse document frequency, IDF)?IDF的主要思想是:如果包含詞條t的文檔越少, IDF越大示罗,則說明詞條具有很好的類別區(qū)分能力。某一特定詞語的IDF芝硬,可以由總文件數(shù)目除以包含該詞語之文件的數(shù)目蚜点,再將得到的商取對數(shù)得到。

公式:?


某一特定文件內(nèi)的高詞語頻率拌阴,以及該詞語在整個文件集合中的低文件頻率绍绘,可以產(chǎn)生出高權(quán)重的TF-IDF。因此迟赃,TF-IDF傾向于過濾掉常見的詞語陪拘,保留重要的詞語。?

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? TF?IDF=TF?IDF


二纤壁、使用TF-IDF計(jì)算文章相似度

1.余弦相似度

余弦值的范圍在[-1,1]之間左刽,值越趨近于1,代表兩個向量的方向越接近酌媒;越趨近于-1欠痴,他們的方向越相反;接近于0馍佑,表示兩個向量近乎于正交斋否。


?一般情況下,相似度都是歸一化到[0,1]區(qū)間內(nèi)拭荤,因此余弦相似度表示為cosineSIM=0.5cosθ+0.5


2.計(jì)算過程

(1)使用TF-IDF算法茵臭,找出兩篇文章的關(guān)鍵詞;

(2)每篇文章各取出若干個關(guān)鍵詞(為公平起見舅世,一般取的詞數(shù)相同)旦委,合并成一個集合奇徒,計(jì)算每篇文章對于這個集合中的詞的詞頻

(注1:為了避免文章長度的差異,可以使用相對詞頻缨硝;注2:這一步選出的不同詞的數(shù)量決定了詞頻向量的長度)摩钙;

(3)生成兩篇文章各自的詞頻向量(注:所有文章對應(yīng)的詞頻向量等長,相同位置的元素對應(yīng)同一詞)查辩;

(4)計(jì)算兩個向量的余弦相似度胖笛,值越大就表示越相似。

Note that: tf-idf值只在第一步用到宜岛。

舉例說明:

文章A:我喜歡看小說长踊。

文章B:我不喜歡看電視,也不喜歡看電影萍倡。

第一步: 分詞

? ? 文章A:我/喜歡/看/小說身弊。

????文章B:我/不/喜歡/看/電視,也/不/喜歡/看/電影列敲。

第二步阱佛,列出所有的詞。

?????我戴而,喜歡凑术,看,小說填硕,電視麦萤,電影,不扁眯,也。

第三步翅帜,計(jì)算每個文檔中各個詞的詞頻tf姻檀。

  文章A:我 1,喜歡 1涝滴,看 1绣版,小說 1,電視 0歼疮,電影 0杂抽,不 0,也 0韩脏。

  文章B:我 1缩麸,喜歡 2,看 2赡矢,小說 0杭朱,電視 1阅仔,電影 1,不 2弧械,也 1八酒。

第四步,計(jì)算各個詞的逆文檔頻率idf刃唐。

  我 log(2/2)=0羞迷,喜歡 log(2/2)=0,看 log(2/2)=0画饥,小說 log(2/1)=1衔瓮,電視 log(2/1)=1,電影 log(2/1)=1荒澡,不 log(2/1)=1报辱,也 log(2/1)=1。

第五步:計(jì)算每個文檔中各個詞的tf-idf值

  文章A:我 0单山,喜歡 0碍现,看 0,小說 1米奸,電視 0昼接,電影 0,不 0悴晰,也 0慢睡。

  文章B:我 0,喜歡 0铡溪,看 0漂辐,小說 0,電視 1棕硫,電影 1髓涯,不 1,也 1哈扮。

第六步:選擇每篇文章的關(guān)鍵詞(這里選tf-idf排名前3的詞作為關(guān)鍵詞(至于并列大小的隨機(jī)選))

  文章A:我 0纬纪,喜歡 0,小說 1

  文章B:電視 1滑肉,電影 1包各,不 1

第七步:構(gòu)建用于計(jì)算相似度的詞頻向量(根據(jù)上一步選出的詞:我,喜歡靶庙,小說问畅,電視,電影,不)

?? 文章A:[1 1 1 0 0 0]

? ?文章B: [1 2 0 1 1 2]

第八步:計(jì)算余弦相似度值

? ? ?cosθ=3/sqrt(33)=?0.5222329678670935

   cosineSIM(A按声,B)=0.5222329678670935*0.5+0.5=0.7611164839335467


原文參考:

https://www.cnblogs.com/wxiaoli/p/6940702.html

https://blog.csdn.net/zrc199021/article/details/53728499

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末膳犹,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子签则,更是在濱河造成了極大的恐慌须床,老刑警劉巖,帶你破解...
    沈念sama閱讀 221,406評論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件渐裂,死亡現(xiàn)場離奇詭異豺旬,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)柒凉,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,395評論 3 398
  • 文/潘曉璐 我一進(jìn)店門族阅,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人膝捞,你說我怎么就攤上這事坦刀。” “怎么了蔬咬?”我有些...
    開封第一講書人閱讀 167,815評論 0 360
  • 文/不壞的土叔 我叫張陵鲤遥,是天一觀的道長。 經(jīng)常有香客問我林艘,道長盖奈,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 59,537評論 1 296
  • 正文 為了忘掉前任狐援,我火速辦了婚禮钢坦,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘啥酱。我一直安慰自己爹凹,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 68,536評論 6 397
  • 文/花漫 我一把揭開白布镶殷。 她就那樣靜靜地躺著逛万,像睡著了一般。 火紅的嫁衣襯著肌膚如雪批钠。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 52,184評論 1 308
  • 那天得封,我揣著相機(jī)與錄音埋心,去河邊找鬼。 笑死忙上,一個胖子當(dāng)著我的面吹牛拷呆,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 40,776評論 3 421
  • 文/蒼蘭香墨 我猛地睜開眼茬斧,長吁一口氣:“原來是場噩夢啊……” “哼腰懂!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起项秉,我...
    開封第一講書人閱讀 39,668評論 0 276
  • 序言:老撾萬榮一對情侶失蹤绣溜,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后娄蔼,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體怖喻,經(jīng)...
    沈念sama閱讀 46,212評論 1 319
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,299評論 3 340
  • 正文 我和宋清朗相戀三年岁诉,在試婚紗的時候發(fā)現(xiàn)自己被綠了锚沸。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 40,438評論 1 352
  • 序言:一個原本活蹦亂跳的男人離奇死亡涕癣,死狀恐怖哗蜈,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情坠韩,我是刑警寧澤距潘,帶...
    沈念sama閱讀 36,128評論 5 349
  • 正文 年R本政府宣布,位于F島的核電站同眯,受9級特大地震影響绽昼,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜须蜗,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,807評論 3 333
  • 文/蒙蒙 一硅确、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧明肮,春花似錦菱农、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,279評論 0 24
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽瘸味。三九已至最仑,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間璧眠,已是汗流浹背足陨。 一陣腳步聲響...
    開封第一講書人閱讀 33,395評論 1 272
  • 我被黑心中介騙來泰國打工嫂粟, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人墨缘。 一個月前我還...
    沈念sama閱讀 48,827評論 3 376
  • 正文 我出身青樓星虹,卻偏偏與公主長得像零抬,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子宽涌,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,446評論 2 359

推薦閱讀更多精彩內(nèi)容

  • 文本關(guān)鍵詞抽取平夜,是對文本信息進(jìn)行高度凝練的一種有效手段,通過3-5個詞語準(zhǔn)確概括文本的主題卸亮,幫助讀者快速理解文本信...
    atLee閱讀 22,199評論 8 46
  • TF API數(shù)學(xué)計(jì)算tf...... :math(1)剛開始先給一個運(yùn)行實(shí)例忽妒。tf是基于圖(Graph)的計(jì)算系統(tǒng)...
    MachineLP閱讀 3,471評論 0 1
  • SEO算法之TF-IDF算法 1、TF-IDF算法概念: TF-IDF(term frequency–invers...
    老朱seo閱讀 1,030評論 2 3
  • 用TF-IDF算法提取關(guān)鍵詞 假設(shè)現(xiàn)在有一篇很長的文章嫡良,要從中提取出它的關(guān)鍵字锰扶,完全不人工干預(yù),那么怎么做到呢寝受?又...
    Shira0905閱讀 3,653評論 0 5
  • 感賞孩子今天自己獨(dú)自處理去圖書館事宜 感賞孩子和我一起去騎車兜風(fēng) 感賞孩子在我推車時幫我開門 感賞孩子兜風(fēng)回家自己...
    健康是福大閱讀 129評論 0 0