1.概念理解:
詞頻(TF):指某一個(gè)給定詞在該文檔出現(xiàn)的次數(shù)
逆文檔頻率(IDF):IDF指每個(gè)詞的權(quán)重,他的大小和詞的常見程度成反比
TF-IDF:權(quán)衡某個(gè)分詞是否是關(guān)鍵詞指標(biāo)症歇,該值越大淮腾,是關(guān)鍵詞的可能性越大。
計(jì)算公式:TF-IDF=TF*IDF,其中坚芜,IDF=log(文檔總數(shù)/包含該詞的文檔數(shù)+1)
2.提取關(guān)鍵詞python包:jieba.analyse.extract_tags(content.tooK=n)
.content:文章內(nèi)容
.提取n個(gè)關(guān)鍵詞
案例代碼:
import os,codecs,pandas
import jieba.analyse
#創(chuàng)建一個(gè)數(shù)據(jù)框存儲(chǔ)數(shù)據(jù)
tagkey=pandas.DataFrame(columns=['filepath','content','tag1','tag2','tag3','tag4'])
for root,dirs,files in os.walk('文件夾路徑'):
for name in files:
filepath=root+'/'+name
f=codecs.open(filepath,'r','utf-8')
content=f.read()
f.close()
tags=jieba.analyse.extract_tags(content,topK=4)
tagkey.loc[len(tagkey)+1]=[filepath,content,tags[0],tags[1],tags[2],tags[3]]