PW06分詞報(bào)告

以下為本次報(bào)告使用的文本內(nèi)容——來(lái)源于一則公共管理學(xué)院網(wǎng)站新聞的爬取結(jié)果糙麦。

??第三屆公共管理青年學(xué)者論壇于2017年10月13-14日在上海舉行饰躲。會(huì)議由中國(guó)管理現(xiàn)代化研究會(huì)公共管理專業(yè)委員會(huì)翘贮、中國(guó)管理現(xiàn)代化研究會(huì)青年工作委員會(huì)主辦嘴纺,上海交通大學(xué)國(guó)際與公共事務(wù)學(xué)院椎瘟、中國(guó)城市治理研究院承辦嫉沽。本次論壇有來(lái)自四川大學(xué)、斯坦福大學(xué)械蹋、香港中文大學(xué)、清華大學(xué)羞芍、中人民大學(xué)哗戈、復(fù)旦大學(xué)、中山大學(xué)荷科、上海財(cái)經(jīng)大學(xué)唯咬、蘭州大學(xué)等高校的近100名會(huì)議代表。論壇以“全面深化改革背景下的公共管理:致力于打造一個(gè)更包容的社會(huì)”為主題畏浆,分“公共行政組織理論”胆胰、“治理理論與包容性發(fā)展”、“公共價(jià)值與績(jī)效”等論壇展開(kāi)研討刻获。
  行政管理系施雷格研究員蜀涨、劉銳副研究員應(yīng)邀參加本次論壇。施雷格教授在“期刊主編面對(duì)面:主編眼中的優(yōu)秀論文”專場(chǎng)蝎毡,向參會(huì)者隆重介紹了期刊《Chinese Public Administration Review》的欄目設(shè)置厚柳、投稿須知、錄用發(fā)表情況沐兵,同《中國(guó)行政管理》别垮、《公共管理學(xué)報(bào)》、《公共行政評(píng)論》等期刊主編或編輯扎谎,進(jìn)行了友好地互動(dòng)和愉快地交流碳想。劉銳副研究員在“治理理論與包容性發(fā)展”專場(chǎng)作了主題報(bào)告。兩位老師在會(huì)議期間與參會(huì)老師進(jìn)行積極交流毁靶,介紹了我院近年在城市治理研究領(lǐng)域的推進(jìn)狀況胧奔!

一、在線分詞工具——ICTCLAS分詞系統(tǒng)-NLPIR漢語(yǔ)分詞系統(tǒng)

??中國(guó)科學(xué)院計(jì)算技術(shù)研究所在多年研究工作積累的基礎(chǔ)上预吆,研制出了漢語(yǔ)詞法分析系統(tǒng)ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System)葡盗,主要功能包括中文分詞;詞性標(biāo)注;命名實(shí)體識(shí)別觅够;新詞識(shí)別胶背;同時(shí)支持用戶詞典。ICTCLAS3.0分詞速度單機(jī)996KB/s喘先,分詞精度98.45%钳吟,API不超過(guò)200KB,各種詞典數(shù)據(jù)壓縮后不到3M窘拯,是當(dāng)前世界上最好的漢語(yǔ)詞法分析器红且。
  使用ICTCLAS分詞系統(tǒng)的在線演示功能,將文本內(nèi)容添加到輸入框內(nèi)涤姊,如圖所示:

ICTCLAS分詞系統(tǒng)在線演示

同時(shí)暇番,還可輸入網(wǎng)頁(yè)URL進(jìn)行分詞,以及分析結(jié)果的展示方式十分多樣思喊,具體如下:

1.分詞標(biāo)注(部分結(jié)果如圖所示)

分詞標(biāo)注部分結(jié)果

  由圖可知壁酬,此系統(tǒng)將“第三屆公共管理青年學(xué)者論壇”中的“第三屆”分為了“第三”和“屆”兩個(gè)詞,但“第三屆”應(yīng)為一個(gè)詞恨课,以及“公共管理”舆乔、“青年學(xué)者論壇”拆開(kāi),同樣的剂公,還將“上海交通大學(xué)”希俩、“斯坦福大學(xué)”、“香港中文大學(xué)”纲辽、“人民大學(xué)”颜武、“復(fù)旦大學(xué)”、“上海財(cái)經(jīng)大學(xué)”拖吼、“蘭州大學(xué)”等分為兩個(gè)詞盒刚。同時(shí)我注意到,旁邊有“用戶自定義詞語(yǔ)”功能绿贞,于是我手動(dòng)添加了以上舉例的詞語(yǔ)因块,后結(jié)果如下:
添加自定義詞語(yǔ)后的結(jié)果

2.詞頻統(tǒng)計(jì)

柱狀圖

折線圖

3.文本分類

4.關(guān)鍵詞提取


  以上為ICTCLAS分詞系統(tǒng)分詞的結(jié)果,可以看出部分詞會(huì)出現(xiàn)被處理為多個(gè)詞的情況籍铁,但總體對(duì)文本內(nèi)容的分詞是較為準(zhǔn)確的涡上,并且從多種方式分析并展示出分詞結(jié)果,功能強(qiáng)大拒名。

二吩愧、jieba分詞

??jieba特點(diǎn):

  • 支持三種分詞模式:
    • 精確模式,試圖將句子最精確地切開(kāi)增显,適合文本分析雁佳;
    • 全模式,把句子中所有的可以成詞的詞語(yǔ)都掃描出來(lái), 速度非常快糖权,但是不能解決歧義堵腹;
    • 搜索引擎模式,在精確模式的基礎(chǔ)上星澳,對(duì)長(zhǎng)詞再次切分疚顷,提高召回率,適合用于搜索引擎分詞禁偎。
  • 支持繁體分詞
  • 支持自定義詞典
  • MIT 授權(quán)協(xié)議

1.安裝jieba分詞

pip install jieba

2.使用分詞功能

jieba.cut 方法接受三個(gè)輸入?yún)?shù): 需要分詞的字符串腿堤;cut_all 參數(shù)用來(lái)控制是否采用全模式;HMM 參數(shù)用來(lái)控制是否使用 HMM 模型
jieba.cut_for_search 方法接受兩個(gè)參數(shù):需要分詞的字符串如暖;是否使用 HMM 模型笆檀。該方法適合用于搜索引擎構(gòu)建倒排索引的分詞,粒度比較細(xì)
待分詞的字符串可以是 unicode 或 UTF-8 字符串盒至、GBK 字符串酗洒。注意:不建議直接輸入 GBK 字符串,可能無(wú)法預(yù)料地錯(cuò)誤解碼成 UTF-8
jieba.cut以及 jieba.cut_for_search 返回的結(jié)構(gòu)都是一個(gè)可迭代的 generator妄迁,可以使用 for 循環(huán)來(lái)獲得分詞后得到的每一個(gè)詞語(yǔ)(unicode)寝蹈,或者用jieba.lcut 以及jieba.lcut_for_search 直接返回 list
jieba.Tokenizer(dictionary=DEFAULT_DICT) 新建自定義分詞器登淘,可用于同時(shí)使用不同詞典。jieba.dt 為默認(rèn)分詞器封字,所有全局分詞相關(guān)函數(shù)都是該分詞器的映射黔州。

# encoding=utf-8
import jieba
seg_list = jieba.cut("第三屆公共管理青年學(xué)者論壇于2017年10月13-14日在上海舉行。會(huì)議由中國(guó)管理現(xiàn)代化研究會(huì)公共管理專業(yè)委員會(huì)阔籽、中國(guó)管理現(xiàn)代化研究會(huì)青年工作委員會(huì)主辦流妻,上海交通大學(xué)國(guó)際與公共事務(wù)學(xué)院、中國(guó)城市治理研究院承辦笆制。本次論壇有來(lái)自四川大學(xué)绅这、斯坦福大學(xué)、香港中文大學(xué)在辆、清華大學(xué)证薇、中人民大學(xué)、復(fù)旦大學(xué)匆篓、中山大學(xué)浑度、上海財(cái)經(jīng)大學(xué)、蘭州大學(xué)等高校的近100名會(huì)議代表鸦概。論壇以“全面深化改革背景下的公共管理:致力于打造一個(gè)更包容的社會(huì)”為主題箩张,分“公共行政組織理論”、“治理理論與包容性發(fā)展”、“公共價(jià)值與績(jī)效”等論壇展開(kāi)研討先慷。行政管理系施雷格研究員饮笛、劉銳副研究員應(yīng)邀參加本次論壇。施雷格教授在“期刊主編面對(duì)面:主編眼中的優(yōu)秀論文”專場(chǎng)熟掂,向參會(huì)者隆重介紹了期刊《Chinese Public Administration Review》的欄目設(shè)置缎浇、投稿須知、錄用發(fā)表情況赴肚,同《中國(guó)行政管理》素跺、《公共管理學(xué)報(bào)》、《公共行政評(píng)論》等期刊主編或編輯誉券,進(jìn)行了友好地互動(dòng)和愉快地交流指厌。劉銳副研究員在“治理理論與包容性發(fā)展”專場(chǎng)作了主題報(bào)告。兩位老師在會(huì)議期間與參會(huì)老師進(jìn)行積極交流踊跟,介紹了我院近年在城市治理研究領(lǐng)域的推進(jìn)狀況踩验!", cut_all=True)
print("Full Mode: " + "/ ".join(seg_list))  # 全模式
全模式輸出結(jié)果
import jieba
seg_list = jieba.cut("第三屆公共管理青年學(xué)者論壇于2017年10月13-14日在上海舉行。會(huì)議由中國(guó)管理現(xiàn)代化研究會(huì)公共管理專業(yè)委員會(huì)商玫、中國(guó)管理現(xiàn)代化研究會(huì)青年工作委員會(huì)主辦箕憾,上海交通大學(xué)國(guó)際與公共事務(wù)學(xué)院、中國(guó)城市治理研究院承辦拳昌。本次論壇有來(lái)自四川大學(xué)袭异、斯坦福大學(xué)、香港中文大學(xué)炬藤、清華大學(xué)御铃、中人民大學(xué)、復(fù)旦大學(xué)沈矿、中山大學(xué)上真、上海財(cái)經(jīng)大學(xué)、蘭州大學(xué)等高校的近100名會(huì)議代表羹膳。論壇以“全面深化改革背景下的公共管理:致力于打造一個(gè)更包容的社會(huì)”為主題睡互,分“公共行政組織理論”、“治理理論與包容性發(fā)展”陵像、“公共價(jià)值與績(jī)效”等論壇展開(kāi)研討就珠。行政管理系施雷格研究員、劉銳副研究員應(yīng)邀參加本次論壇蠢壹。施雷格教授在“期刊主編面對(duì)面:主編眼中的優(yōu)秀論文”專場(chǎng)嗓违,向參會(huì)者隆重介紹了期刊《Chinese Public Administration Review》的欄目設(shè)置、投稿須知图贸、錄用發(fā)表情況蹂季,同《中國(guó)行政管理》冕广、《公共管理學(xué)報(bào)》、《公共行政評(píng)論》等期刊主編或編輯偿洁,進(jìn)行了友好地互動(dòng)和愉快地交流撒汉。劉銳副研究員在“治理理論與包容性發(fā)展”專場(chǎng)作了主題報(bào)告。兩位老師在會(huì)議期間與參會(huì)老師進(jìn)行積極交流涕滋,介紹了我院近年在城市治理研究領(lǐng)域的推進(jìn)狀況睬辐!", cut_all=False)
print("Default Mode: " + "/ ".join(seg_list))  # 精確模式
精確模式輸出結(jié)果
import jieba
seg_list = jieba.cut_for_search("第三屆公共管理青年學(xué)者論壇于2017年10月13-14日在上海舉行。會(huì)議由中國(guó)管理現(xiàn)代化研究會(huì)公共管理專業(yè)委員會(huì)宾肺、中國(guó)管理現(xiàn)代化研究會(huì)青年工作委員會(huì)主辦溯饵,上海交通大學(xué)國(guó)際與公共事務(wù)學(xué)院、中國(guó)城市治理研究院承辦锨用。本次論壇有來(lái)自四川大學(xué)丰刊、斯坦福大學(xué)、香港中文大學(xué)增拥、清華大學(xué)啄巧、中人民大學(xué)、復(fù)旦大學(xué)掌栅、中山大學(xué)秩仆、上海財(cái)經(jīng)大學(xué)、蘭州大學(xué)等高校的近100名會(huì)議代表猾封。論壇以“全面深化改革背景下的公共管理:致力于打造一個(gè)更包容的社會(huì)”為主題澄耍,分“公共行政組織理論”、“治理理論與包容性發(fā)展”忘衍、“公共價(jià)值與績(jī)效”等論壇展開(kāi)研討逾苫。行政管理系施雷格研究員卿城、劉銳副研究員應(yīng)邀參加本次論壇枚钓。施雷格教授在“期刊主編面對(duì)面:主編眼中的優(yōu)秀論文”專場(chǎng),向參會(huì)者隆重介紹了期刊《Chinese Public Administration Review》的欄目設(shè)置瑟押、投稿須知搀捷、錄用發(fā)表情況,同《中國(guó)行政管理》多望、《公共管理學(xué)報(bào)》嫩舟、《公共行政評(píng)論》等期刊主編或編輯,進(jìn)行了友好地互動(dòng)和愉快地交流怀偷。劉銳副研究員在“治理理論與包容性發(fā)展”專場(chǎng)作了主題報(bào)告家厌。兩位老師在會(huì)議期間與參會(huì)老師進(jìn)行積極交流,介紹了我院近年在城市治理研究領(lǐng)域的推進(jìn)狀況椎工!")  # 搜索引擎模式
print(", ".join(seg_list))
搜索引擎模式輸出結(jié)果

3.添加自定義詞典

載入詞典

開(kāi)發(fā)者可以指定自己自定義的詞典饭于,以便包含 jieba 詞庫(kù)里沒(méi)有的詞蜀踏。雖然 jieba 有新詞識(shí)別能力,但是自行添加新詞可以保證更高的正確率
用法: jieba.load_userdict(file_name) # file_name 為文件類對(duì)象或自定義詞典的路徑
詞典格式和 dict.txt 一樣掰吕,一個(gè)詞占一行果覆;每一行分三部分:詞語(yǔ)、詞頻(可省略)殖熟、詞性(可省略)局待,用空格隔開(kāi),順序不可顛倒菱属。file_name 若為路徑或二進(jìn)制方式打開(kāi)的文件钳榨,則文件必須為 UTF-8 編碼。
詞頻省略時(shí)使用自動(dòng)計(jì)算的能保證分出該詞的詞頻纽门。

??由精確模式結(jié)果可知重绷,出現(xiàn)部分分詞錯(cuò)誤的情況,例如“公共管理”膜毁、“青年學(xué)者論壇”昭卓、“中國(guó)行政管理”、“公共管理學(xué)報(bào)”以及“行政管理系”瘟滨,這部分問(wèn)題我將通過(guò)添加自定義詞典解決候醒。其中前四個(gè)詞我將添加cidian.txt添加,“行政管理系”將用“調(diào)整詞典”的代碼進(jìn)行添加杂瘸。

1)添加userdict.txt

2)創(chuàng)建fenci_1.py

# encoding=utf-8
from __future__ import print_function, unicode_literals
import sys
sys.path.append("../")
import jieba
jieba.load_userdict("userdict.txt")
import jieba.posseg as pseg

jieba.add_word('行政管理系')

test_sent = ("第三屆公共管理青年學(xué)者論壇于2017年10月13-14日在上海舉行括细。會(huì)議由中國(guó)管理現(xiàn)代化研究會(huì)公共管理專業(yè)委員會(huì)、中國(guó)管理現(xiàn)代化研究會(huì)青年工作委員會(huì)主辦漫玄,上海交通大學(xué)國(guó)際與公共事務(wù)學(xué)院疫铜、中國(guó)城市治理研究院承辦。本次論壇有來(lái)自四川大學(xué)运翼、斯坦福大學(xué)返干、香港中文大學(xué)、清華大學(xué)血淌、中人民大學(xué)矩欠、復(fù)旦大學(xué)、中山大學(xué)悠夯、上海財(cái)經(jīng)大學(xué)癌淮、蘭州大學(xué)等高校的近100名會(huì)議代表。論壇以“全面深化改革背景下的公共管理:致力于打造一個(gè)更包容的社會(huì)”為主題沦补,分“公共行政組織理論”乳蓄、“治理理論與包容性發(fā)展”、“公共價(jià)值與績(jī)效”等論壇展開(kāi)研討夕膀。行政管理系施雷格研究員虚倒、劉銳副研究員應(yīng)邀參加本次論壇匣摘。施雷格教授在“期刊主編面對(duì)面:主編眼中的優(yōu)秀論文”專場(chǎng),向參會(huì)者隆重介紹了期刊《Chinese Public Administration Review》的欄目設(shè)置裹刮、投稿須知音榜、錄用發(fā)表情況,同《中國(guó)行政管理》捧弃、《公共管理學(xué)報(bào)》赠叼、《公共行政評(píng)論》等期刊主編或編輯,進(jìn)行了友好地互動(dòng)和愉快地交流违霞。劉銳副研究員在“治理理論與包容性發(fā)展”專場(chǎng)作了主題報(bào)告嘴办。兩位老師在會(huì)議期間與參會(huì)老師進(jìn)行積極交流,介紹了我院近年在城市治理研究領(lǐng)域的推進(jìn)狀況买鸽!")
words = jieba.cut(test_sent)
print('/'.join(words))
添加詞典后的輸出結(jié)果

圖中涧郊,紅框?yàn)閡serdict.txt中添加的詞,黃框?yàn)槭褂谩罢{(diào)整詞典”代碼添加的詞眼五。

4.關(guān)鍵詞提取

1)基于TF-IDF算法進(jìn)行關(guān)鍵詞抽取

創(chuàng)建TFgjc.py文件妆艘,并編輯代碼如下:

# encoding=utf-8
import jieba
from jieba import analyse
from optparse import OptionParser
# 引入TF-IDF關(guān)鍵詞抽取接口
tfidf = analyse.extract_tags

# 原始文本
text = "第三屆公共管理青年學(xué)者論壇于2017年10月13-14日在上海舉行。會(huì)議由中國(guó)管理現(xiàn)代化研究會(huì)公共管理專業(yè)委員會(huì)看幼、中國(guó)管理現(xiàn)代化研究會(huì)青年工作委員會(huì)主辦批旺,上海交通大學(xué)國(guó)際與公共事務(wù)學(xué)院、中國(guó)城市治理研究院承辦诵姜。本次論壇有來(lái)自四川大學(xué)汽煮、斯坦福大學(xué)、香港中文大學(xué)棚唆、清華大學(xué)暇赤、中人民大學(xué)、復(fù)旦大學(xué)宵凌、中山大學(xué)鞋囊、上海財(cái)經(jīng)大學(xué)、蘭州大學(xué)等高校的近100名會(huì)議代表摆寄。論壇以“全面深化改革背景下的公共管理:致力于打造一個(gè)更包容的社會(huì)”為主題失暴,分“公共行政組織理論”坯门、“治理理論與包容性發(fā)展”微饥、“公共價(jià)值與績(jī)效”等論壇展開(kāi)研討。行政管理系施雷格研究員古戴、劉銳副研究員應(yīng)邀參加本次論壇欠橘。施雷格教授在“期刊主編面對(duì)面:主編眼中的優(yōu)秀論文”專場(chǎng),向參會(huì)者隆重介紹了期刊《Chinese Public Administration Review》的欄目設(shè)置现恼、投稿須知肃续、錄用發(fā)表情況黍檩,同《中國(guó)行政管理》、《公共管理學(xué)報(bào)》始锚、《公共行政評(píng)論》等期刊主編或編輯刽酱,進(jìn)行了友好地互動(dòng)和愉快地交流。劉銳副研究員在“治理理論與包容性發(fā)展”專場(chǎng)作了主題報(bào)告瞧捌。兩位老師在會(huì)議期間與參會(huì)老師進(jìn)行積極交流棵里,介紹了我院近年在城市治理研究領(lǐng)域的推進(jìn)狀況!"

# 基于TF-IDF算法進(jìn)行關(guān)鍵詞抽取
keywords = tfidf(text)
print ("keywords by tfidf:")
# 輸出抽取出的關(guān)鍵詞
for keyword in keywords:
    print (keyword + "/",)

輸出結(jié)果如下:


2)基于TextRank算法進(jìn)行關(guān)鍵詞抽取

創(chuàng)建TRgjc.py文件姐呐,編輯代碼如下:

# encoding=utf-8
import jieba
from jieba import analyse
from optparse import OptionParser
# 引入TextRank關(guān)鍵詞抽取接口
textrank = analyse.textrank

# 原始文本
text = "第三屆公共管理青年學(xué)者論壇于2017年10月13-14日在上海舉行殿怜。會(huì)議由中國(guó)管理現(xiàn)代化研究會(huì)公共管理專業(yè)委員會(huì)、中國(guó)管理現(xiàn)代化研究會(huì)青年工作委員會(huì)主辦曙砂,上海交通大學(xué)國(guó)際與公共事務(wù)學(xué)院头谜、中國(guó)城市治理研究院承辦。本次論壇有來(lái)自四川大學(xué)鸠澈、斯坦福大學(xué)柱告、香港中文大學(xué)、清華大學(xué)笑陈、中人民大學(xué)末荐、復(fù)旦大學(xué)、中山大學(xué)新锈、上海財(cái)經(jīng)大學(xué)甲脏、蘭州大學(xué)等高校的近100名會(huì)議代表。論壇以“全面深化改革背景下的公共管理:致力于打造一個(gè)更包容的社會(huì)”為主題妹笆,分“公共行政組織理論”块请、“治理理論與包容性發(fā)展”、“公共價(jià)值與績(jī)效”等論壇展開(kāi)研討拳缠。行政管理系施雷格研究員墩新、劉銳副研究員應(yīng)邀參加本次論壇。施雷格教授在“期刊主編面對(duì)面:主編眼中的優(yōu)秀論文”專場(chǎng)窟坐,向參會(huì)者隆重介紹了期刊《Chinese Public Administration Review》的欄目設(shè)置海渊、投稿須知、錄用發(fā)表情況哲鸳,同《中國(guó)行政管理》臣疑、《公共管理學(xué)報(bào)》、《公共行政評(píng)論》等期刊主編或編輯徙菠,進(jìn)行了友好地互動(dòng)和愉快地交流讯沈。劉銳副研究員在“治理理論與包容性發(fā)展”專場(chǎng)作了主題報(bào)告。兩位老師在會(huì)議期間與參會(huì)老師進(jìn)行積極交流婿奔,介紹了我院近年在城市治理研究領(lǐng)域的推進(jìn)狀況缺狠!"

print ("\nkeywords by textrank:")
# 基于TextRank算法進(jìn)行關(guān)鍵詞抽取
keywords = textrank(text)
# 輸出抽取出的關(guān)鍵詞
for keyword in keywords:
    print (keyword + "/",)

輸出結(jié)果如下:


5.制作詞云

在網(wǎng)上下載停用詞表stop.txt(1893個(gè)詞)问慎,創(chuàng)建ciyun.py文件提取關(guān)鍵詞,編輯代碼如下:

# encoding=utf-8
from __future__ import print_function, unicode_literals
import sys
sys.path.append("../")
import jieba
jieba.load_userdict("userdict.txt")
import jieba.posseg as pseg

import jieba.analyse

content = "第三屆公共管理青年學(xué)者論壇于2017年10月13-14日在上海舉行挤茄。會(huì)議由中國(guó)管理現(xiàn)代化研究會(huì)公共管理專業(yè)委員會(huì)如叼、中國(guó)管理現(xiàn)代化研究會(huì)青年工作委員會(huì)主辦,上海交通大學(xué)國(guó)際與公共事務(wù)學(xué)院穷劈、中國(guó)城市治理研究院承辦薇正。本次論壇有來(lái)自四川大學(xué)、斯坦福大學(xué)囚衔、香港中文大學(xué)挖腰、清華大學(xué)、中人民大學(xué)练湿、復(fù)旦大學(xué)猴仑、中山大學(xué)、上海財(cái)經(jīng)大學(xué)肥哎、蘭州大學(xué)等高校的近100名會(huì)議代表辽俗。論壇以“全面深化改革背景下的公共管理:致力于打造一個(gè)更包容的社會(huì)”為主題,分“公共行政組織理論”篡诽、“治理理論與包容性發(fā)展”崖飘、“公共價(jià)值與績(jī)效”等論壇展開(kāi)研討。行政管理系施雷格研究員杈女、劉銳副研究員應(yīng)邀參加本次論壇朱浴。施雷格教授在“期刊主編面對(duì)面:主編眼中的優(yōu)秀論文”專場(chǎng),向參會(huì)者隆重介紹了期刊《Chinese Public Administration Review》的欄目設(shè)置达椰、投稿須知翰蠢、錄用發(fā)表情況,同《中國(guó)行政管理》啰劲、《公共管理學(xué)報(bào)》梁沧、《公共行政評(píng)論》等期刊主編或編輯,進(jìn)行了友好地互動(dòng)和愉快地交流蝇裤。劉銳副研究員在“治理理論與包容性發(fā)展”專場(chǎng)作了主題報(bào)告廷支。兩位老師在會(huì)議期間與參會(huì)老師進(jìn)行積極交流,介紹了我院近年在城市治理研究領(lǐng)域的推進(jìn)狀況栓辜!"

try:
    jieba.analyse.set_stop_words('stop.txt')
    tags = jieba.analyse.extract_tags(content, topK=100, withWeight=True)
    for v, n in tags:
        #權(quán)重是小數(shù)恋拍,為了湊整,乘了一萬(wàn)
        print (v + '\t' + str(int(n * 10000)))

finally:
    file_in.close()

輸出結(jié)果如下:


打開(kāi)TAGUL啃憎,開(kāi)始制作詞云芝囤,把結(jié)果貼進(jìn)import words里。


最終詞云完成圖:

三辛萍、總結(jié)

??這次分詞練習(xí)悯姊,使我對(duì)分詞的使用方法有了更深的了解。兩種分詞工具的差別贩毕,在線工具功能強(qiáng)大悯许,比較方便快捷,jieba相較來(lái)說(shuō)稍顯繁雜辉阶,但自定義程度更高先壕,也相對(duì)更加精確。在代碼編輯過(guò)程中谆甜,曾犯該縮進(jìn)的代碼忘記縮進(jìn)的低級(jí)錯(cuò)誤垃僚,導(dǎo)致運(yùn)行出錯(cuò),此錯(cuò)誤出現(xiàn)一次之后就未再出現(xiàn)规辱。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末谆棺,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子罕袋,更是在濱河造成了極大的恐慌改淑,老刑警劉巖,帶你破解...
    沈念sama閱讀 211,290評(píng)論 6 491
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件浴讯,死亡現(xiàn)場(chǎng)離奇詭異朵夏,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī)榆纽,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,107評(píng)論 2 385
  • 文/潘曉璐 我一進(jìn)店門仰猖,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人奈籽,你說(shuō)我怎么就攤上這事亮元。” “怎么了唠摹?”我有些...
    開(kāi)封第一講書人閱讀 156,872評(píng)論 0 347
  • 文/不壞的土叔 我叫張陵爆捞,是天一觀的道長(zhǎng)。 經(jīng)常有香客問(wèn)我勾拉,道長(zhǎng)煮甥,這世上最難降的妖魔是什么? 我笑而不...
    開(kāi)封第一講書人閱讀 56,415評(píng)論 1 283
  • 正文 為了忘掉前任藕赞,我火速辦了婚禮成肘,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘斧蜕。我一直安慰自己双霍,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,453評(píng)論 6 385
  • 文/花漫 我一把揭開(kāi)白布。 她就那樣靜靜地躺著洒闸,像睡著了一般染坯。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上丘逸,一...
    開(kāi)封第一講書人閱讀 49,784評(píng)論 1 290
  • 那天单鹿,我揣著相機(jī)與錄音,去河邊找鬼深纲。 笑死仲锄,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的湃鹊。 我是一名探鬼主播儒喊,決...
    沈念sama閱讀 38,927評(píng)論 3 406
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼币呵!你這毒婦竟也來(lái)了怀愧?” 一聲冷哼從身側(cè)響起,我...
    開(kāi)封第一講書人閱讀 37,691評(píng)論 0 266
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤富雅,失蹤者是張志新(化名)和其女友劉穎掸驱,沒(méi)想到半個(gè)月后,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體没佑,經(jīng)...
    沈念sama閱讀 44,137評(píng)論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡毕贼,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,472評(píng)論 2 326
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了蛤奢。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片鬼癣。...
    茶點(diǎn)故事閱讀 38,622評(píng)論 1 340
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖啤贩,靈堂內(nèi)的尸體忽然破棺而出待秃,到底是詐尸還是另有隱情,我是刑警寧澤痹屹,帶...
    沈念sama閱讀 34,289評(píng)論 4 329
  • 正文 年R本政府宣布章郁,位于F島的核電站,受9級(jí)特大地震影響志衍,放射性物質(zhì)發(fā)生泄漏暖庄。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,887評(píng)論 3 312
  • 文/蒙蒙 一楼肪、第九天 我趴在偏房一處隱蔽的房頂上張望培廓。 院中可真熱鬧,春花似錦春叫、人聲如沸肩钠。這莊子的主人今日做“春日...
    開(kāi)封第一講書人閱讀 30,741評(píng)論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)价匠。三九已至当纱,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間霞怀,已是汗流浹背惫东。 一陣腳步聲響...
    開(kāi)封第一講書人閱讀 31,977評(píng)論 1 265
  • 我被黑心中介騙來(lái)泰國(guó)打工莉给, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留毙石,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 46,316評(píng)論 2 360
  • 正文 我出身青樓颓遏,卻偏偏與公主長(zhǎng)得像徐矩,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子叁幢,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,490評(píng)論 2 348

推薦閱讀更多精彩內(nèi)容

  • 在接下來(lái)的分詞練習(xí)中將使用到四川大學(xué)公共管理學(xué)院的一篇新聞進(jìn)行練習(xí)滤灯,文本如下: 為貫徹落實(shí)黨的十九大精神,不斷提升...
    nicokani閱讀 1,229評(píng)論 0 4
  • jieba分詞曼玩,學(xué)習(xí)鳞骤,為了全面了解該模塊,黍判,預(yù)設(shè)學(xué)習(xí)路線:官方文檔——優(yōu)秀博客文章——實(shí)踐學(xué)習(xí) 官方文檔部分 (文...
    竹林徒兒閱讀 4,081評(píng)論 1 12
  • Jieba使用實(shí)驗(yàn) 本文嘗試了jieba的三種分詞模式豫尽、自定義字典、計(jì)算頻數(shù)并將頻數(shù)較高的分詞結(jié)果存入csv文件顷帖。...
    哇噗嘟嘟嘟閱讀 6,711評(píng)論 0 2
  • 1美旧、感恩一早自然醒來(lái),發(fā)現(xiàn)床尾放著兒子的作業(yè)贬墩,作業(yè)上面有他的手機(jī)榴嗅,心里滿滿的感動(dòng)。昨天晚上兒子還在寫作業(yè)陶舞,我9點(diǎn)鐘...
    丫丫的幸福閱讀 71評(píng)論 0 0
  • 開(kāi)學(xué)橫幅 1嗽测、校門口: 新學(xué)期,新風(fēng)貌肿孵,爭(zhēng)創(chuàng)新佳績(jī)唠粥。 2、教學(xué)樓: 堅(jiān)守課堂陣地颁井,提升教學(xué)質(zhì)量厅贪。 聽(tīng)好每一課 做好...
    東陽(yáng)日臻閱讀 184評(píng)論 0 0