python 關(guān)鍵詞提取 (jieba+sklearn)

#!/usr/bin/python
# coding=utf-8
# TF-IDF提取文本關(guān)鍵詞
# http://scikit-learn.org/stable/modules/feature_extraction.html#tfidf-term-weighting

import sys
import os
from config_ch import *
import chardet
import numpy as np
import pandas as pd
import xlrd
import copy
import glob
import jieba.posseg
import jieba.analyse
import io
from sklearn import feature_extraction
from sklearn.feature_extraction.text import TfidfTransformer
from sklearn.feature_extraction.text import CountVectorizer
"""
       TF-IDF權(quán)重:
           1嚎花、CountVectorizer  構(gòu)建詞頻矩陣
           2浆兰、TfidfTransformer 構(gòu)建TF-IDF權(quán)值計(jì)算
           3菱农、文本的關(guān)鍵詞
           4凿蒜、對(duì)應(yīng)的TF-IDF矩陣
"""
# 數(shù)據(jù)讀取
"""
    輸入數(shù)據(jù)所在文件夾路徑data_path, 輸出data為一字典, 包含'id', 'title', 'abstract'
"""
def dataRead(data_path):
    file_list = os.listdir(data_path)
    idList, titleList, abstractList = range(0, len(file_list)), [], []  # 構(gòu)建3個(gè)list, 用于存放文本編號(hào), 文本標(biāo)題, 文本內(nèi)容
    for file_name in file_list:
        file_path = os.path.join(data_path, file_name)
        if os.path.isfile(file_path):
            f = io.open(file_path, 'rb').read()
            encoding_type = chardet.detect(f)  # 獲取文本的編碼形式
            if not encoding_type['encoding']:
                encoding_type['encoding'] = 'utf-8-sig'  # 一些文本編碼形式為none, 強(qiáng)制轉(zhuǎn)換
            file = f.decode(encoding_type['encoding'])
            titleList.append(file[0:file.find('\n', 1)+1])  # 文本第一行為標(biāo)題
            abstractList.append(file)
    data = {"id": idList, "title": titleList, "abstract": abstractList}
    return data

# 預(yù)處理
"""
    輸入文本text及停用詞表stopword, 輸出分詞結(jié)果text_seg
    預(yù)處理包括jieba分詞, 去停用詞, 篩選詞性
"""
def dataPrepos(text, stopword):
    text_seg = []
    seg = jieba.posseg.cut(text)  # 分詞
    for i in seg:
        if i.word not in stopword and i.flag in pos:  # 去停用詞 + 篩選詞性
            text_seg.append(i.word)
    return text_seg

# 關(guān)鍵詞映射
"""
    輸入關(guān)鍵詞key及映射表mapword, 輸出key_left_mapped,
    包括映射后剩余關(guān)鍵詞"left"及映射得到的關(guān)鍵詞"mapped"
    映射表第1列為atom詞列表, 從第2列起為替換詞列表,
    若key中某詞屬于atom列表, 則將該atom對(duì)應(yīng)的替換詞加入mappedList, 并從leftList中刪除該詞,
    若key中某詞本身屬于替換詞列表, 則將該詞加入mappedList, 并從leftList中刪除
"""
def keysMapping(key, mapword):# key中關(guān)鍵詞若存在于atom中是辕,則加入mappedList,leftList只保留未出現(xiàn)在atom中的關(guān)鍵詞
    leftList, mappedList = copy.deepcopy(key), []  # 初始化leftList, mappedList
    atom = mapword.col_values(0)
    for i in key:
        if i in atom:  # 關(guān)鍵詞為atom列表中的詞, 則用對(duì)應(yīng)的替換詞進(jìn)行替換
            mappedList.extend(mapword.row_values(atom.index(i))[1:])
            mappedList = list(filter(None, mappedList))  # 去除""字符串
            leftList.pop(leftList.index(i))  # 從leftList中刪除
        else:
            for n in range(len(atom)):
                row = mapword.row_values(n)[1:]
                if i in row:  # 關(guān)鍵詞本身為替換詞列表中的詞, 則加入mappedList, 并從leftList中刪除
                    mappedList.extend([i])
                    leftList.pop(leftList.index(i))
                    break

    mappedList = list(set(mappedList))  # 去除重復(fù)詞
    key_left_mapped = {"left": leftList, "mapped": mappedList}
    return key_left_mapped

# TF-IDF提取topK關(guān)鍵詞
"""
    輸入包括數(shù)據(jù)data, 停用詞表stopword, 映射表mapword, 及中間變量mapped和keys_all,
    當(dāng)mode為'tf'時(shí), 每個(gè)文本單獨(dú)調(diào)用getKeyword, 需傳入文本id,
    當(dāng)mode為'tfidf'時(shí), 多個(gè)文本作為整體只調(diào)用一次getKeyword, 不需id, 令id = 0
"""
def getKeywords(data, id, stopword, mapword, mapped, keys_all):
    # 從data中取出id, title, abstract, 構(gòu)建3個(gè)list
    if mode == 'tfidf':
        idList, titleList, abstractList = data['id'], data['title'], data['abstract']
    elif mode == 'tf':  # 取出第id個(gè)文本的信息
        idList, titleList, abstractList = [data['id'][id]], [data['title'][id]], [data['abstract'][id]]

    corpus = []  # 將所有文本到輸出到一個(gè)list中, 每行為一個(gè)文本
    result = pd.DataFrame({"id": [], "title": [], "key": [], "left": [], "mapped": []},
                          columns=['id', 'title', 'key', 'left', 'mapped'])
    # 分別對(duì)每個(gè)文本進(jìn)行預(yù)處理, 將處理后的詞連接成字符串(空格分隔), 輸入到corpus中的一行
    for index in range(len(idList)):
        text = '%s' % abstractList[index]
        text_seg = dataPrepos(text, stopword)
        text_seg = " ".join(text_seg)
        corpus.append(text_seg)
    if corpus == ['']:
        return result  # 空文本
    # 1静浴、構(gòu)建詞頻矩陣勿她,將文本中的詞語轉(zhuǎn)換成詞頻矩陣
    vectorizer = CountVectorizer()
    X = vectorizer.fit_transform(corpus)  # 詞頻矩陣
    # 2、統(tǒng)計(jì)每個(gè)詞的TF-IDF權(quán)值
    transformer = TfidfTransformer()
    tfidf = transformer.fit_transform(X)
    # 3噪生、獲取詞袋模型中的關(guān)鍵詞
    word = vectorizer.get_feature_names()
    # 4裆赵、獲取TF-IDF矩陣
    weight = tfidf.toarray()
    # 5、打印詞語權(quán)重
    # 以下變量分別用于存放文本編號(hào), 標(biāo)題, 提取出的關(guān)鍵詞, 映射得到的關(guān)鍵詞, 映射后剩余的關(guān)鍵詞
    ids, titles, keys, keys_mapped, keys_left = [], [], [], [], []
    for i in range(len(weight)):
        print(u"-------這里輸出第", i+1, u"篇文本的詞語TF-IDF------")
        ids.append(idList[i])  # 添加編號(hào)到ids
        titles.append(titleList[i])  # 添加標(biāo)題到titles
        df_word, df_weight = [], []  # 當(dāng)前文本的所有詞匯列表跺嗽、詞匯對(duì)應(yīng)權(quán)重列表
        for j in range(len(word)):
            print(word[j], weight[i][j])
            if weight[i][j] == 0:
                df_word.append(' ')  # 用空字符串替換權(quán)重為0的詞
            else:
                df_word.append(word[j])
            df_weight.append(weight[i][j])
        # 將df_word和df_weight轉(zhuǎn)換為pandas中的DataFrame形式, 用于排序
        df_word = pd.DataFrame(df_word, columns=['word'])
        df_weight = pd.DataFrame(df_weight, columns=['weight'])
        word_weight = pd.concat([df_word, df_weight], axis=1)  # 拼接詞匯列表和權(quán)重列表
        word_weight = word_weight.sort_values(by="weight", ascending=False)  # 按照權(quán)重值降序排列
        keyword = np.array(word_weight['word'])  # 選擇詞匯列并轉(zhuǎn)成數(shù)組格式
        key = [keyword[x] for x in range(0, min(topK, len(word)))]  # 抽取前topK個(gè)詞匯作為關(guān)鍵詞
        keys_all.extend(key)  # 將當(dāng)前文本提取出的關(guān)鍵詞加入keys_all中, 用于后續(xù)的高頻關(guān)鍵詞提取

        # 關(guān)鍵詞映射
        key_left_mapped = keysMapping(key, mapword)
        # 將list中的詞連接成字符串
        key = " ".join(key)
        key_left_split = " ".join(key_left_mapped["left"])
        key_mapped_split = " ".join(key_left_mapped["mapped"])

        mapped.extend(key_left_mapped["mapped"])  # 將每個(gè)文本映射后的關(guān)鍵詞合并到mapped中, 有重復(fù)

        keys.append(key)
        keys_left.append(key_left_split)
        keys_mapped.append(key_mapped_split)

    result = pd.DataFrame({"id": ids, "title": titles, "key": keys, "left": keys_left, "mapped": keys_mapped}, columns=['id', 'title', 'key', 'left', 'mapped'])
    return result

# 提取topN高頻關(guān)鍵詞
"""
    輸入keys_all為每個(gè)文本提取出的topK關(guān)鍵詞合并后的列表,
    輸出key_most為提取出的topN個(gè)高頻關(guān)鍵詞
"""
def getKeymost(keys_all):
    counts = []
    keys_nodup = list(set(keys_all))  # keys_all去重后結(jié)果
    for item in keys_nodup:
        counts.append(keys_all.count(item))  # 統(tǒng)計(jì)每個(gè)關(guān)鍵詞出現(xiàn)的次數(shù)
    key_word = pd.DataFrame(keys_nodup, columns=['key'])
    count_word = pd.DataFrame(counts, columns=['count'])
    key_count = pd.concat([key_word, count_word], axis=1)
    key_count = key_count.sort_values(by="count", ascending=False)
    key_freq = np.array(key_count['key'])

    key_most = [key_freq[x] for x in range(0, min(topN, len(key_word)))]
    return key_most


def main():

    # 刪除歷史結(jié)果
    for f in glob.glob(os.path.join('result', '*.xls')):
        os.remove(f)

    # 加載停用詞表
    stopword = [w.strip() for w in io.open(stopword_path, 'r', encoding='UTF-8').readlines()]

    # 加載映射表
    mapword = xlrd.open_workbook(map_path).sheet_by_index(0)

    # 加載自定義字典战授,用于jieba分詞
    jieba.load_userdict(dict_path)

    folderList = os.listdir(data_path)

    for folder in folderList:  # 遍歷全部電影文件夾, 每個(gè)文件夾中為1部電影的全部影評(píng)
        folder_path = os.path.join(data_path, folder)

        # 讀取數(shù)據(jù)
        data = dataRead(folder_path)

        keys_all = []  # 用于存放所有文本提取出的關(guān)鍵詞
        mapped = []  # 用于合并所有文本映射后的關(guān)鍵詞

        # 關(guān)鍵詞提取,
        if mode == 'tfidf':
            result = getKeywords(data, 0, stopword, mapword, mapped, keys_all)
            result.to_csv("result/CHkeys_tfidf_" + folder + ".xls", index=False, encoding='utf-8-sig')
        elif mode == 'tf':
            for i in range(len(data['id'])):  # 'tf'模式下, 每個(gè)文本單獨(dú)調(diào)用getKeywords
                result = getKeywords(data, i, stopword, mapword, mapped, keys_all)
                result.to_csv("result/CHkeys_tf_" + folder + ".xls", mode='a', header=False, index=False, encoding='utf-8-sig')

        mapped = list(set(mapped))  # 去除重復(fù)詞
        mapped_result = pd.DataFrame({"mapped": [" ".join(mapped)]}, columns=['mapped'])
        pd.DataFrame({"": [" ".join([])]}).to_csv("result/CHkeys_tf_" + folder + ".xls", mode='a', index=False)  # 增加空行
        mapped_result.to_csv("result/CHkeys_tf_" + folder + ".xls", mode='a', index=False, encoding='utf-8-sig', columns=['', '', 'mapped'])

        # 提取高頻關(guān)鍵詞
        key_most = getKeymost(keys_all)
        key_most = pd.DataFrame({"most mentioned": [" ".join(key_most)]}, columns=['most mentioned'])
        pd.DataFrame({"": [" ".join([])]}).to_csv("result/CHkeys_tf_" + folder + ".xls", mode='a', index=False)  # 增加空行
        key_most.to_csv("result/CHkeys_tf_" + folder + ".xls", mode='a', index=False, encoding='utf-8-sig', columns=['', '', 'most mentioned'])


if __name__ == '__main__':
    main()

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市桨嫁,隨后出現(xiàn)的幾起案子植兰,更是在濱河造成了極大的恐慌,老刑警劉巖璃吧,帶你破解...
    沈念sama閱讀 219,539評(píng)論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件楣导,死亡現(xiàn)場離奇詭異,居然都是意外死亡畜挨,警方通過查閱死者的電腦和手機(jī)筒繁,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,594評(píng)論 3 396
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來巴元,“玉大人毡咏,你說我怎么就攤上這事〈伲” “怎么了呕缭?”我有些...
    開封第一講書人閱讀 165,871評(píng)論 0 356
  • 文/不壞的土叔 我叫張陵,是天一觀的道長修己。 經(jīng)常有香客問我臊旭,道長,這世上最難降的妖魔是什么箩退? 我笑而不...
    開封第一講書人閱讀 58,963評(píng)論 1 295
  • 正文 為了忘掉前任离熏,我火速辦了婚禮,結(jié)果婚禮上戴涝,老公的妹妹穿的比我還像新娘滋戳。我一直安慰自己钻蔑,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,984評(píng)論 6 393
  • 文/花漫 我一把揭開白布奸鸯。 她就那樣靜靜地躺著咪笑,像睡著了一般。 火紅的嫁衣襯著肌膚如雪娄涩。 梳的紋絲不亂的頭發(fā)上窗怒,一...
    開封第一講書人閱讀 51,763評(píng)論 1 307
  • 那天,我揣著相機(jī)與錄音蓄拣,去河邊找鬼扬虚。 笑死,一個(gè)胖子當(dāng)著我的面吹牛球恤,可吹牛的內(nèi)容都是我干的辜昵。 我是一名探鬼主播,決...
    沈念sama閱讀 40,468評(píng)論 3 420
  • 文/蒼蘭香墨 我猛地睜開眼咽斧,長吁一口氣:“原來是場噩夢啊……” “哼堪置!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起张惹,我...
    開封第一講書人閱讀 39,357評(píng)論 0 276
  • 序言:老撾萬榮一對(duì)情侶失蹤舀锨,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后宛逗,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體雁竞,經(jīng)...
    沈念sama閱讀 45,850評(píng)論 1 317
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,002評(píng)論 3 338
  • 正文 我和宋清朗相戀三年拧额,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了碑诉。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 40,144評(píng)論 1 351
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡侥锦,死狀恐怖进栽,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情恭垦,我是刑警寧澤快毛,帶...
    沈念sama閱讀 35,823評(píng)論 5 346
  • 正文 年R本政府宣布,位于F島的核電站番挺,受9級(jí)特大地震影響唠帝,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜玄柏,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,483評(píng)論 3 331
  • 文/蒙蒙 一襟衰、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧粪摘,春花似錦瀑晒、人聲如沸绍坝。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,026評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽轩褐。三九已至,卻和暖如春玖详,著一層夾襖步出監(jiān)牢的瞬間把介,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,150評(píng)論 1 272
  • 我被黑心中介騙來泰國打工蟋座, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留拗踢,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 48,415評(píng)論 3 373
  • 正文 我出身青樓蜈七,卻偏偏與公主長得像,于是被迫代替她去往敵國和親莫矗。 傳聞我的和親對(duì)象是個(gè)殘疾皇子飒硅,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,092評(píng)論 2 355

推薦閱讀更多精彩內(nèi)容

  • 問 : 有十個(gè)硬幣,其中一個(gè)是假的作谚,假的和真的只有重量不同三娩,如何通過無砝碼的天平? 問題分析: 因?yàn)椴恢兰儆矌诺?..
    chenaixiang閱讀 2,632評(píng)論 0 1
  • 以上的歌詞妹懒,確實(shí)有很大的觸動(dòng)雀监,寫下這篇文章,只是給自己看的眨唬。表達(dá)自己的態(tài)度会前。 像我這樣的人,我是一個(gè)怎么樣的人匾竿?做...
    若與閱讀 302評(píng)論 0 4
  • 每月洗一次車瓦宜。 不光是我自己的身體,每月也要給愛車做個(gè)清潔岭妖。每半年要給它做一次保養(yǎng)临庇。愛護(hù)它,因?yàn)樗俏液芎玫呐笥眩?..
    逸凡小仙閱讀 116評(píng)論 0 0
  • 尊敬的王總及何校昵慌,親愛的家人們大家好! 我是來自山峰教外教育的王夢華假夺,今天是我第36天的日精進(jìn),給大家分享我今...
    mllt閱讀 111評(píng)論 0 0