以下為本次報(bào)告使用的文本內(nèi)容——來(lái)源于一則公共管理學(xué)院網(wǎng)站新聞的爬取結(jié)果糙麦。
??第三屆公共管理青年學(xué)者論壇于2017年10月13-14日在上海舉行饰躲。會(huì)議由中國(guó)管理現(xiàn)代化研究會(huì)公共管理專業(yè)委員會(huì)翘贮、中國(guó)管理現(xiàn)代化研究會(huì)青年工作委員會(huì)主辦嘴纺,上海交通大學(xué)國(guó)際與公共事務(wù)學(xué)院椎瘟、中國(guó)城市治理研究院承辦嫉沽。本次論壇有來(lái)自四川大學(xué)、斯坦福大學(xué)械蹋、香港中文大學(xué)、清華大學(xué)羞芍、中人民大學(xué)哗戈、復(fù)旦大學(xué)、中山大學(xué)荷科、上海財(cái)經(jīng)大學(xué)唯咬、蘭州大學(xué)等高校的近100名會(huì)議代表。論壇以“全面深化改革背景下的公共管理:致力于打造一個(gè)更包容的社會(huì)”為主題畏浆,分“公共行政組織理論”胆胰、“治理理論與包容性發(fā)展”、“公共價(jià)值與績(jī)效”等論壇展開(kāi)研討刻获。
行政管理系施雷格研究員蜀涨、劉銳副研究員應(yīng)邀參加本次論壇。施雷格教授在“期刊主編面對(duì)面:主編眼中的優(yōu)秀論文”專場(chǎng)蝎毡,向參會(huì)者隆重介紹了期刊《Chinese Public Administration Review》的欄目設(shè)置厚柳、投稿須知、錄用發(fā)表情況沐兵,同《中國(guó)行政管理》别垮、《公共管理學(xué)報(bào)》、《公共行政評(píng)論》等期刊主編或編輯扎谎,進(jìn)行了友好地互動(dòng)和愉快地交流碳想。劉銳副研究員在“治理理論與包容性發(fā)展”專場(chǎng)作了主題報(bào)告。兩位老師在會(huì)議期間與參會(huì)老師進(jìn)行積極交流毁靶,介紹了我院近年在城市治理研究領(lǐng)域的推進(jìn)狀況胧奔!
一、在線分詞工具——ICTCLAS分詞系統(tǒng)-NLPIR漢語(yǔ)分詞系統(tǒng)
??中國(guó)科學(xué)院計(jì)算技術(shù)研究所在多年研究工作積累的基礎(chǔ)上预吆,研制出了漢語(yǔ)詞法分析系統(tǒng)ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System)葡盗,主要功能包括中文分詞;詞性標(biāo)注;命名實(shí)體識(shí)別觅够;新詞識(shí)別胶背;同時(shí)支持用戶詞典。ICTCLAS3.0分詞速度單機(jī)996KB/s喘先,分詞精度98.45%钳吟,API不超過(guò)200KB,各種詞典數(shù)據(jù)壓縮后不到3M窘拯,是當(dāng)前世界上最好的漢語(yǔ)詞法分析器红且。
使用ICTCLAS分詞系統(tǒng)的在線演示功能,將文本內(nèi)容添加到輸入框內(nèi)涤姊,如圖所示:
同時(shí)暇番,還可輸入網(wǎng)頁(yè)URL進(jìn)行分詞,以及分析結(jié)果的展示方式十分多樣思喊,具體如下:
1.分詞標(biāo)注(部分結(jié)果如圖所示)
由圖可知壁酬,此系統(tǒng)將“第三屆公共管理青年學(xué)者論壇”中的“第三屆”分為了“第三”和“屆”兩個(gè)詞,但“第三屆”應(yīng)為一個(gè)詞恨课,以及“公共管理”舆乔、“青年學(xué)者論壇”拆開(kāi),同樣的剂公,還將“上海交通大學(xué)”希俩、“斯坦福大學(xué)”、“香港中文大學(xué)”纲辽、“人民大學(xué)”颜武、“復(fù)旦大學(xué)”、“上海財(cái)經(jīng)大學(xué)”拖吼、“蘭州大學(xué)”等分為兩個(gè)詞盒刚。同時(shí)我注意到,旁邊有“用戶自定義詞語(yǔ)”功能绿贞,于是我手動(dòng)添加了以上舉例的詞語(yǔ)因块,后結(jié)果如下:
2.詞頻統(tǒng)計(jì)
3.文本分類
4.關(guān)鍵詞提取
以上為ICTCLAS分詞系統(tǒng)分詞的結(jié)果,可以看出部分詞會(huì)出現(xiàn)被處理為多個(gè)詞的情況籍铁,但總體對(duì)文本內(nèi)容的分詞是較為準(zhǔn)確的涡上,并且從多種方式分析并展示出分詞結(jié)果,功能強(qiáng)大拒名。
二吩愧、jieba分詞
??jieba特點(diǎn):
- 支持三種分詞模式:
- 精確模式,試圖將句子最精確地切開(kāi)增显,適合文本分析雁佳;
- 全模式,把句子中所有的可以成詞的詞語(yǔ)都掃描出來(lái), 速度非常快糖权,但是不能解決歧義堵腹;
- 搜索引擎模式,在精確模式的基礎(chǔ)上星澳,對(duì)長(zhǎng)詞再次切分疚顷,提高召回率,適合用于搜索引擎分詞禁偎。
- 支持繁體分詞
- 支持自定義詞典
- MIT 授權(quán)協(xié)議
1.安裝jieba分詞
pip install jieba
2.使用分詞功能
jieba.cut 方法接受三個(gè)輸入?yún)?shù): 需要分詞的字符串腿堤;cut_all 參數(shù)用來(lái)控制是否采用全模式;HMM 參數(shù)用來(lái)控制是否使用 HMM 模型
jieba.cut_for_search 方法接受兩個(gè)參數(shù):需要分詞的字符串如暖;是否使用 HMM 模型笆檀。該方法適合用于搜索引擎構(gòu)建倒排索引的分詞,粒度比較細(xì)
待分詞的字符串可以是 unicode 或 UTF-8 字符串盒至、GBK 字符串酗洒。注意:不建議直接輸入 GBK 字符串,可能無(wú)法預(yù)料地錯(cuò)誤解碼成 UTF-8
jieba.cut以及 jieba.cut_for_search 返回的結(jié)構(gòu)都是一個(gè)可迭代的 generator妄迁,可以使用 for 循環(huán)來(lái)獲得分詞后得到的每一個(gè)詞語(yǔ)(unicode)寝蹈,或者用jieba.lcut 以及jieba.lcut_for_search 直接返回 list
jieba.Tokenizer(dictionary=DEFAULT_DICT) 新建自定義分詞器登淘,可用于同時(shí)使用不同詞典。jieba.dt 為默認(rèn)分詞器封字,所有全局分詞相關(guān)函數(shù)都是該分詞器的映射黔州。
# encoding=utf-8
import jieba
seg_list = jieba.cut("第三屆公共管理青年學(xué)者論壇于2017年10月13-14日在上海舉行。會(huì)議由中國(guó)管理現(xiàn)代化研究會(huì)公共管理專業(yè)委員會(huì)阔籽、中國(guó)管理現(xiàn)代化研究會(huì)青年工作委員會(huì)主辦流妻,上海交通大學(xué)國(guó)際與公共事務(wù)學(xué)院、中國(guó)城市治理研究院承辦笆制。本次論壇有來(lái)自四川大學(xué)绅这、斯坦福大學(xué)、香港中文大學(xué)在辆、清華大學(xué)证薇、中人民大學(xué)、復(fù)旦大學(xué)匆篓、中山大學(xué)浑度、上海財(cái)經(jīng)大學(xué)、蘭州大學(xué)等高校的近100名會(huì)議代表鸦概。論壇以“全面深化改革背景下的公共管理:致力于打造一個(gè)更包容的社會(huì)”為主題箩张,分“公共行政組織理論”、“治理理論與包容性發(fā)展”、“公共價(jià)值與績(jī)效”等論壇展開(kāi)研討先慷。行政管理系施雷格研究員饮笛、劉銳副研究員應(yīng)邀參加本次論壇。施雷格教授在“期刊主編面對(duì)面:主編眼中的優(yōu)秀論文”專場(chǎng)熟掂,向參會(huì)者隆重介紹了期刊《Chinese Public Administration Review》的欄目設(shè)置缎浇、投稿須知、錄用發(fā)表情況赴肚,同《中國(guó)行政管理》素跺、《公共管理學(xué)報(bào)》、《公共行政評(píng)論》等期刊主編或編輯誉券,進(jìn)行了友好地互動(dòng)和愉快地交流指厌。劉銳副研究員在“治理理論與包容性發(fā)展”專場(chǎng)作了主題報(bào)告。兩位老師在會(huì)議期間與參會(huì)老師進(jìn)行積極交流踊跟,介紹了我院近年在城市治理研究領(lǐng)域的推進(jìn)狀況踩验!", cut_all=True)
print("Full Mode: " + "/ ".join(seg_list)) # 全模式
import jieba
seg_list = jieba.cut("第三屆公共管理青年學(xué)者論壇于2017年10月13-14日在上海舉行。會(huì)議由中國(guó)管理現(xiàn)代化研究會(huì)公共管理專業(yè)委員會(huì)商玫、中國(guó)管理現(xiàn)代化研究會(huì)青年工作委員會(huì)主辦箕憾,上海交通大學(xué)國(guó)際與公共事務(wù)學(xué)院、中國(guó)城市治理研究院承辦拳昌。本次論壇有來(lái)自四川大學(xué)袭异、斯坦福大學(xué)、香港中文大學(xué)炬藤、清華大學(xué)御铃、中人民大學(xué)、復(fù)旦大學(xué)沈矿、中山大學(xué)上真、上海財(cái)經(jīng)大學(xué)、蘭州大學(xué)等高校的近100名會(huì)議代表羹膳。論壇以“全面深化改革背景下的公共管理:致力于打造一個(gè)更包容的社會(huì)”為主題睡互,分“公共行政組織理論”、“治理理論與包容性發(fā)展”陵像、“公共價(jià)值與績(jī)效”等論壇展開(kāi)研討就珠。行政管理系施雷格研究員、劉銳副研究員應(yīng)邀參加本次論壇蠢壹。施雷格教授在“期刊主編面對(duì)面:主編眼中的優(yōu)秀論文”專場(chǎng)嗓违,向參會(huì)者隆重介紹了期刊《Chinese Public Administration Review》的欄目設(shè)置、投稿須知图贸、錄用發(fā)表情況蹂季,同《中國(guó)行政管理》冕广、《公共管理學(xué)報(bào)》、《公共行政評(píng)論》等期刊主編或編輯偿洁,進(jìn)行了友好地互動(dòng)和愉快地交流撒汉。劉銳副研究員在“治理理論與包容性發(fā)展”專場(chǎng)作了主題報(bào)告。兩位老師在會(huì)議期間與參會(huì)老師進(jìn)行積極交流涕滋,介紹了我院近年在城市治理研究領(lǐng)域的推進(jìn)狀況睬辐!", cut_all=False)
print("Default Mode: " + "/ ".join(seg_list)) # 精確模式
import jieba
seg_list = jieba.cut_for_search("第三屆公共管理青年學(xué)者論壇于2017年10月13-14日在上海舉行。會(huì)議由中國(guó)管理現(xiàn)代化研究會(huì)公共管理專業(yè)委員會(huì)宾肺、中國(guó)管理現(xiàn)代化研究會(huì)青年工作委員會(huì)主辦溯饵,上海交通大學(xué)國(guó)際與公共事務(wù)學(xué)院、中國(guó)城市治理研究院承辦锨用。本次論壇有來(lái)自四川大學(xué)丰刊、斯坦福大學(xué)、香港中文大學(xué)增拥、清華大學(xué)啄巧、中人民大學(xué)、復(fù)旦大學(xué)掌栅、中山大學(xué)秩仆、上海財(cái)經(jīng)大學(xué)、蘭州大學(xué)等高校的近100名會(huì)議代表猾封。論壇以“全面深化改革背景下的公共管理:致力于打造一個(gè)更包容的社會(huì)”為主題澄耍,分“公共行政組織理論”、“治理理論與包容性發(fā)展”忘衍、“公共價(jià)值與績(jī)效”等論壇展開(kāi)研討逾苫。行政管理系施雷格研究員卿城、劉銳副研究員應(yīng)邀參加本次論壇枚钓。施雷格教授在“期刊主編面對(duì)面:主編眼中的優(yōu)秀論文”專場(chǎng),向參會(huì)者隆重介紹了期刊《Chinese Public Administration Review》的欄目設(shè)置瑟押、投稿須知搀捷、錄用發(fā)表情況,同《中國(guó)行政管理》多望、《公共管理學(xué)報(bào)》嫩舟、《公共行政評(píng)論》等期刊主編或編輯,進(jìn)行了友好地互動(dòng)和愉快地交流怀偷。劉銳副研究員在“治理理論與包容性發(fā)展”專場(chǎng)作了主題報(bào)告家厌。兩位老師在會(huì)議期間與參會(huì)老師進(jìn)行積極交流,介紹了我院近年在城市治理研究領(lǐng)域的推進(jìn)狀況椎工!") # 搜索引擎模式
print(", ".join(seg_list))
3.添加自定義詞典
載入詞典
開(kāi)發(fā)者可以指定自己自定義的詞典饭于,以便包含 jieba 詞庫(kù)里沒(méi)有的詞蜀踏。雖然 jieba 有新詞識(shí)別能力,但是自行添加新詞可以保證更高的正確率
用法: jieba.load_userdict(file_name) # file_name 為文件類對(duì)象或自定義詞典的路徑
詞典格式和 dict.txt 一樣掰吕,一個(gè)詞占一行果覆;每一行分三部分:詞語(yǔ)、詞頻(可省略)殖熟、詞性(可省略)局待,用空格隔開(kāi),順序不可顛倒菱属。file_name 若為路徑或二進(jìn)制方式打開(kāi)的文件钳榨,則文件必須為 UTF-8 編碼。
詞頻省略時(shí)使用自動(dòng)計(jì)算的能保證分出該詞的詞頻纽门。
??由精確模式結(jié)果可知重绷,出現(xiàn)部分分詞錯(cuò)誤的情況,例如“公共管理”膜毁、“青年學(xué)者論壇”昭卓、“中國(guó)行政管理”、“公共管理學(xué)報(bào)”以及“行政管理系”瘟滨,這部分問(wèn)題我將通過(guò)添加自定義詞典解決候醒。其中前四個(gè)詞我將添加cidian.txt添加,“行政管理系”將用“調(diào)整詞典”的代碼進(jìn)行添加杂瘸。
1)添加userdict.txt
2)創(chuàng)建fenci_1.py
# encoding=utf-8
from __future__ import print_function, unicode_literals
import sys
sys.path.append("../")
import jieba
jieba.load_userdict("userdict.txt")
import jieba.posseg as pseg
jieba.add_word('行政管理系')
test_sent = ("第三屆公共管理青年學(xué)者論壇于2017年10月13-14日在上海舉行括细。會(huì)議由中國(guó)管理現(xiàn)代化研究會(huì)公共管理專業(yè)委員會(huì)、中國(guó)管理現(xiàn)代化研究會(huì)青年工作委員會(huì)主辦漫玄,上海交通大學(xué)國(guó)際與公共事務(wù)學(xué)院疫铜、中國(guó)城市治理研究院承辦。本次論壇有來(lái)自四川大學(xué)运翼、斯坦福大學(xué)返干、香港中文大學(xué)、清華大學(xué)血淌、中人民大學(xué)矩欠、復(fù)旦大學(xué)、中山大學(xué)悠夯、上海財(cái)經(jīng)大學(xué)癌淮、蘭州大學(xué)等高校的近100名會(huì)議代表。論壇以“全面深化改革背景下的公共管理:致力于打造一個(gè)更包容的社會(huì)”為主題沦补,分“公共行政組織理論”乳蓄、“治理理論與包容性發(fā)展”、“公共價(jià)值與績(jī)效”等論壇展開(kāi)研討夕膀。行政管理系施雷格研究員虚倒、劉銳副研究員應(yīng)邀參加本次論壇匣摘。施雷格教授在“期刊主編面對(duì)面:主編眼中的優(yōu)秀論文”專場(chǎng),向參會(huì)者隆重介紹了期刊《Chinese Public Administration Review》的欄目設(shè)置裹刮、投稿須知音榜、錄用發(fā)表情況,同《中國(guó)行政管理》捧弃、《公共管理學(xué)報(bào)》赠叼、《公共行政評(píng)論》等期刊主編或編輯,進(jìn)行了友好地互動(dòng)和愉快地交流违霞。劉銳副研究員在“治理理論與包容性發(fā)展”專場(chǎng)作了主題報(bào)告嘴办。兩位老師在會(huì)議期間與參會(huì)老師進(jìn)行積極交流,介紹了我院近年在城市治理研究領(lǐng)域的推進(jìn)狀況买鸽!")
words = jieba.cut(test_sent)
print('/'.join(words))
圖中涧郊,紅框?yàn)閡serdict.txt中添加的詞,黃框?yàn)槭褂谩罢{(diào)整詞典”代碼添加的詞眼五。
4.關(guān)鍵詞提取
1)基于TF-IDF算法進(jìn)行關(guān)鍵詞抽取
創(chuàng)建TFgjc.py文件妆艘,并編輯代碼如下:
# encoding=utf-8
import jieba
from jieba import analyse
from optparse import OptionParser
# 引入TF-IDF關(guān)鍵詞抽取接口
tfidf = analyse.extract_tags
# 原始文本
text = "第三屆公共管理青年學(xué)者論壇于2017年10月13-14日在上海舉行。會(huì)議由中國(guó)管理現(xiàn)代化研究會(huì)公共管理專業(yè)委員會(huì)看幼、中國(guó)管理現(xiàn)代化研究會(huì)青年工作委員會(huì)主辦批旺,上海交通大學(xué)國(guó)際與公共事務(wù)學(xué)院、中國(guó)城市治理研究院承辦诵姜。本次論壇有來(lái)自四川大學(xué)汽煮、斯坦福大學(xué)、香港中文大學(xué)棚唆、清華大學(xué)暇赤、中人民大學(xué)、復(fù)旦大學(xué)宵凌、中山大學(xué)鞋囊、上海財(cái)經(jīng)大學(xué)、蘭州大學(xué)等高校的近100名會(huì)議代表摆寄。論壇以“全面深化改革背景下的公共管理:致力于打造一個(gè)更包容的社會(huì)”為主題失暴,分“公共行政組織理論”坯门、“治理理論與包容性發(fā)展”微饥、“公共價(jià)值與績(jī)效”等論壇展開(kāi)研討。行政管理系施雷格研究員古戴、劉銳副研究員應(yīng)邀參加本次論壇欠橘。施雷格教授在“期刊主編面對(duì)面:主編眼中的優(yōu)秀論文”專場(chǎng),向參會(huì)者隆重介紹了期刊《Chinese Public Administration Review》的欄目設(shè)置现恼、投稿須知肃续、錄用發(fā)表情況黍檩,同《中國(guó)行政管理》、《公共管理學(xué)報(bào)》始锚、《公共行政評(píng)論》等期刊主編或編輯刽酱,進(jìn)行了友好地互動(dòng)和愉快地交流。劉銳副研究員在“治理理論與包容性發(fā)展”專場(chǎng)作了主題報(bào)告瞧捌。兩位老師在會(huì)議期間與參會(huì)老師進(jìn)行積極交流棵里,介紹了我院近年在城市治理研究領(lǐng)域的推進(jìn)狀況!"
# 基于TF-IDF算法進(jìn)行關(guān)鍵詞抽取
keywords = tfidf(text)
print ("keywords by tfidf:")
# 輸出抽取出的關(guān)鍵詞
for keyword in keywords:
print (keyword + "/",)
輸出結(jié)果如下:
2)基于TextRank算法進(jìn)行關(guān)鍵詞抽取
創(chuàng)建TRgjc.py文件姐呐,編輯代碼如下:
# encoding=utf-8
import jieba
from jieba import analyse
from optparse import OptionParser
# 引入TextRank關(guān)鍵詞抽取接口
textrank = analyse.textrank
# 原始文本
text = "第三屆公共管理青年學(xué)者論壇于2017年10月13-14日在上海舉行殿怜。會(huì)議由中國(guó)管理現(xiàn)代化研究會(huì)公共管理專業(yè)委員會(huì)、中國(guó)管理現(xiàn)代化研究會(huì)青年工作委員會(huì)主辦曙砂,上海交通大學(xué)國(guó)際與公共事務(wù)學(xué)院头谜、中國(guó)城市治理研究院承辦。本次論壇有來(lái)自四川大學(xué)鸠澈、斯坦福大學(xué)柱告、香港中文大學(xué)、清華大學(xué)笑陈、中人民大學(xué)末荐、復(fù)旦大學(xué)、中山大學(xué)新锈、上海財(cái)經(jīng)大學(xué)甲脏、蘭州大學(xué)等高校的近100名會(huì)議代表。論壇以“全面深化改革背景下的公共管理:致力于打造一個(gè)更包容的社會(huì)”為主題妹笆,分“公共行政組織理論”块请、“治理理論與包容性發(fā)展”、“公共價(jià)值與績(jī)效”等論壇展開(kāi)研討拳缠。行政管理系施雷格研究員墩新、劉銳副研究員應(yīng)邀參加本次論壇。施雷格教授在“期刊主編面對(duì)面:主編眼中的優(yōu)秀論文”專場(chǎng)窟坐,向參會(huì)者隆重介紹了期刊《Chinese Public Administration Review》的欄目設(shè)置海渊、投稿須知、錄用發(fā)表情況哲鸳,同《中國(guó)行政管理》臣疑、《公共管理學(xué)報(bào)》、《公共行政評(píng)論》等期刊主編或編輯徙菠,進(jìn)行了友好地互動(dòng)和愉快地交流讯沈。劉銳副研究員在“治理理論與包容性發(fā)展”專場(chǎng)作了主題報(bào)告。兩位老師在會(huì)議期間與參會(huì)老師進(jìn)行積極交流婿奔,介紹了我院近年在城市治理研究領(lǐng)域的推進(jìn)狀況缺狠!"
print ("\nkeywords by textrank:")
# 基于TextRank算法進(jìn)行關(guān)鍵詞抽取
keywords = textrank(text)
# 輸出抽取出的關(guān)鍵詞
for keyword in keywords:
print (keyword + "/",)
輸出結(jié)果如下:
5.制作詞云
在網(wǎng)上下載停用詞表stop.txt(1893個(gè)詞)问慎,創(chuàng)建ciyun.py文件提取關(guān)鍵詞,編輯代碼如下:
# encoding=utf-8
from __future__ import print_function, unicode_literals
import sys
sys.path.append("../")
import jieba
jieba.load_userdict("userdict.txt")
import jieba.posseg as pseg
import jieba.analyse
content = "第三屆公共管理青年學(xué)者論壇于2017年10月13-14日在上海舉行挤茄。會(huì)議由中國(guó)管理現(xiàn)代化研究會(huì)公共管理專業(yè)委員會(huì)如叼、中國(guó)管理現(xiàn)代化研究會(huì)青年工作委員會(huì)主辦,上海交通大學(xué)國(guó)際與公共事務(wù)學(xué)院穷劈、中國(guó)城市治理研究院承辦薇正。本次論壇有來(lái)自四川大學(xué)、斯坦福大學(xué)囚衔、香港中文大學(xué)挖腰、清華大學(xué)、中人民大學(xué)练湿、復(fù)旦大學(xué)猴仑、中山大學(xué)、上海財(cái)經(jīng)大學(xué)肥哎、蘭州大學(xué)等高校的近100名會(huì)議代表辽俗。論壇以“全面深化改革背景下的公共管理:致力于打造一個(gè)更包容的社會(huì)”為主題,分“公共行政組織理論”篡诽、“治理理論與包容性發(fā)展”崖飘、“公共價(jià)值與績(jī)效”等論壇展開(kāi)研討。行政管理系施雷格研究員杈女、劉銳副研究員應(yīng)邀參加本次論壇朱浴。施雷格教授在“期刊主編面對(duì)面:主編眼中的優(yōu)秀論文”專場(chǎng),向參會(huì)者隆重介紹了期刊《Chinese Public Administration Review》的欄目設(shè)置达椰、投稿須知翰蠢、錄用發(fā)表情況,同《中國(guó)行政管理》啰劲、《公共管理學(xué)報(bào)》梁沧、《公共行政評(píng)論》等期刊主編或編輯,進(jìn)行了友好地互動(dòng)和愉快地交流蝇裤。劉銳副研究員在“治理理論與包容性發(fā)展”專場(chǎng)作了主題報(bào)告廷支。兩位老師在會(huì)議期間與參會(huì)老師進(jìn)行積極交流,介紹了我院近年在城市治理研究領(lǐng)域的推進(jìn)狀況栓辜!"
try:
jieba.analyse.set_stop_words('stop.txt')
tags = jieba.analyse.extract_tags(content, topK=100, withWeight=True)
for v, n in tags:
#權(quán)重是小數(shù)恋拍,為了湊整,乘了一萬(wàn)
print (v + '\t' + str(int(n * 10000)))
finally:
file_in.close()
輸出結(jié)果如下:
打開(kāi)TAGUL啃憎,開(kāi)始制作詞云芝囤,把結(jié)果貼進(jìn)import words里。
最終詞云完成圖:
三辛萍、總結(jié)
??這次分詞練習(xí)悯姊,使我對(duì)分詞的使用方法有了更深的了解。兩種分詞工具的差別贩毕,在線工具功能強(qiáng)大悯许,比較方便快捷,jieba相較來(lái)說(shuō)稍顯繁雜辉阶,但自定義程度更高先壕,也相對(duì)更加精確。在代碼編輯過(guò)程中谆甜,曾犯該縮進(jìn)的代碼忘記縮進(jìn)的低級(jí)錯(cuò)誤垃僚,導(dǎo)致運(yùn)行出錯(cuò),此錯(cuò)誤出現(xiàn)一次之后就未再出現(xiàn)规辱。