關(guān)鍵詞提取TF-IDF_3分鐘熱情學(xué)NLP第2篇

第2篇:三分鐘熱情學(xué)NLP-關(guān)鍵詞提取TF-IDF

一篇文章或1個文檔中窄陡,哪些詞對文章更重要永部?哪些詞可以作為關(guān)鍵詞?自動提取關(guān)鍵詞可以快速地從海量的信息中提取和獲取信息碱鳞,下面簡述下關(guān)鍵詞提取技術(shù)侵佃。

1麻昼、關(guān)鍵詞提取的機(jī)器學(xué)習(xí)方法

有監(jiān)督的機(jī)器學(xué)習(xí)方法:構(gòu)建1個豐富的詞表,判斷每個文檔與詞表中每個次的匹配程度馋辈,這種方法是準(zhǔn)確高抚芦;缺點是維護(hù)詞表和標(biāo)注的成本高;
無監(jiān)督的機(jī)器學(xué)習(xí)方法:2個常見算法是TF-IDF算法和TextRank算法

2、TF-IDF算法

TF-IDF詞頻-逆文檔概率叉抡,一般是指詞頻和逆文檔概率這2個度量的乘積尔崔,[參考閱讀]https://www.cntofu.com/book/85/nlp/tf-idf.md
基本理念是:
1、詞頻TF褥民。在1篇文檔中季春,1個詞出現(xiàn)次數(shù)越多,那么這個詞在這篇文章中約重要轴捎;
通俗點就是:越多越好
TF=該詞出現(xiàn)的次數(shù)/文檔中的總詞數(shù)

詞頻.png

2鹤盒、逆文檔IDF蚕脏。在若干個文檔中侦副,1個詞,出現(xiàn)的次數(shù)較少驼鞭,那么這個詞越重要秦驯;這是衡量1個詞普遍重要的度量,或者說是衡量1個詞是否具有較好分類的1個度量挣棕。
通俗點就是:越少越好
IDF=log{文檔的個數(shù)/(該詞在多少個文檔中出現(xiàn)+1)}


逆文檔.png

舉例:
在某個語料庫中译隘,共有2000個文檔,標(biāo)記為d1洛心,d2固耘,d3……,d5000
其中d1文檔词身,共有1000個詞厅目,其中“自然語言處理”出現(xiàn)了33次;
全部5000個文檔中法严,“自然語言處理”這個詞损敷,在10個文檔中出現(xiàn)過;

則d1中的深啤,“自然語言處理的”的TF值為:33/1000=0.033拗馒;
在整個語料庫中,“自然語言處理”的IDF值就是:log(5000/11)=8.82

3溯街、TF-IDF算法實戰(zhàn)

本部分以Jieba分詞下的TF-IDF進(jìn)行實戰(zhàn)诱桂,摘選一段jieba的git上的對jieba.analyse.extract_tags的參數(shù)說明。

jieba.analyse.extract_tags(sentence, topK=20, withWeight=False, allowPOS=())
sentence 為待提取的文本
topK 為返回幾個 TF/IDF 權(quán)重最大的關(guān)鍵詞呈昔,默認(rèn)值為 20
withWeight 為是否一并返回關(guān)鍵詞權(quán)重值访诱,默認(rèn)值為 False
allowPOS 僅包括指定詞性的詞,默認(rèn)值為空韩肝,即不篩選

查看top20和top3的關(guān)鍵詞

import jieba.analyse
import math

text = '自然語言處理是計算機(jī)科學(xué)領(lǐng)域與人工智能領(lǐng)域中的一個重要方向,它研究能實現(xiàn)人與計算機(jī)之間用自然語言進(jìn)行有效通信的各種理論和方法,自然語言處理是一門融語言學(xué)触菜、計算機(jī)科學(xué)、數(shù)學(xué)于一體的科學(xué)哀峻。'

keywords_all = jieba.analyse.extract_tags(text)
print('所有關(guān)鍵詞(默認(rèn)取top20):'+"/".join(keywords_all))

keywords_top = jieba.analyse.extract_tags(text,topK=3)
print('top3的關(guān)鍵詞:'+"/".join(keywords_top))

輸出

所有關(guān)鍵詞(默認(rèn)取top20):自然語言/計算機(jī)科學(xué)/領(lǐng)域/處理/人工智能/語言學(xué)/一體/一門/計算機(jī)/通信/數(shù)學(xué)/科學(xué)/方向/有效/理論/方法/實現(xiàn)/各種/之間/研究
top3的關(guān)鍵詞:自然語言/計算機(jī)科學(xué)/領(lǐng)域

由結(jié)果可以得出涡相,在不指定topK時哲泊,默認(rèn)取出了top20的關(guān)鍵詞;

查看下該段文本的總詞數(shù)

輸入:

print('總的詞數(shù):{}'.format(len(list(jieba.cut(text)))))

輸出

總的詞數(shù):48

返回top20關(guān)鍵詞的權(quán)重

輸入

keywords_weight = jieba.analyse.extract_tags(text,withWeight=True)
# withWeight=True催蝗,返回權(quán)重值
for item in keywords_weight:
    print(item[0],item[1])

輸出

自然語言 1.1180294731285714
計算機(jī)科學(xué) 0.6969673518271428
領(lǐng)域 0.3865925387435714
處理 0.38648968981142856
人工智能 0.3377866569817857
語言學(xué) 0.31996554390607146
一體 0.2634684052082143
一門 0.2623328842917857
計算機(jī) 0.2430280153885714
通信 0.23719862585285714
數(shù)學(xué) 0.23601215985000001
科學(xué) 0.19919838444250001
方向 0.19094219187892855
有效 0.18915023044464285
理論 0.18780139184250003
方法 0.1774216082157143
實現(xiàn) 0.1670260813067857
各種 0.16528642764035714
之間 0.15934034996642857
研究 0.15441970035535715
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末切威,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子丙号,更是在濱河造成了極大的恐慌先朦,老刑警劉巖,帶你破解...
    沈念sama閱讀 206,839評論 6 482
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件犬缨,死亡現(xiàn)場離奇詭異喳魏,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)怀薛,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,543評論 2 382
  • 文/潘曉璐 我一進(jìn)店門刺彩,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人枝恋,你說我怎么就攤上這事创倔。” “怎么了焚碌?”我有些...
    開封第一講書人閱讀 153,116評論 0 344
  • 文/不壞的土叔 我叫張陵畦攘,是天一觀的道長。 經(jīng)常有香客問我十电,道長知押,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 55,371評論 1 279
  • 正文 為了忘掉前任摆出,我火速辦了婚禮朗徊,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘偎漫。我一直安慰自己爷恳,他們只是感情好,可當(dāng)我...
    茶點故事閱讀 64,384評論 5 374
  • 文/花漫 我一把揭開白布象踊。 她就那樣靜靜地躺著温亲,像睡著了一般。 火紅的嫁衣襯著肌膚如雪杯矩。 梳的紋絲不亂的頭發(fā)上栈虚,一...
    開封第一講書人閱讀 49,111評論 1 285
  • 那天,我揣著相機(jī)與錄音史隆,去河邊找鬼魂务。 笑死,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的粘姜。 我是一名探鬼主播鬓照,決...
    沈念sama閱讀 38,416評論 3 400
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼孤紧!你這毒婦竟也來了豺裆?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 37,053評論 0 259
  • 序言:老撾萬榮一對情侶失蹤号显,失蹤者是張志新(化名)和其女友劉穎臭猜,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體押蚤,經(jīng)...
    沈念sama閱讀 43,558評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡蔑歌,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,007評論 2 325
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了活喊。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片丐膝。...
    茶點故事閱讀 38,117評論 1 334
  • 序言:一個原本活蹦亂跳的男人離奇死亡量愧,死狀恐怖钾菊,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情偎肃,我是刑警寧澤煞烫,帶...
    沈念sama閱讀 33,756評論 4 324
  • 正文 年R本政府宣布,位于F島的核電站累颂,受9級特大地震影響滞详,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜紊馏,卻給世界環(huán)境...
    茶點故事閱讀 39,324評論 3 307
  • 文/蒙蒙 一料饥、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧朱监,春花似錦岸啡、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,315評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至擂送,卻和暖如春悦荒,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背嘹吨。 一陣腳步聲響...
    開封第一講書人閱讀 31,539評論 1 262
  • 我被黑心中介騙來泰國打工搬味, 沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 45,578評論 2 355
  • 正文 我出身青樓碰纬,卻偏偏與公主長得像产还,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子嘀趟,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 42,877評論 2 345

推薦閱讀更多精彩內(nèi)容