分詞練習(xí)

使用ICTCLAS(NLPIR)在線分詞工具和jieba分詞組件進(jìn)行分詞練習(xí)倦沧。

一. ICTCLAS

1.簡(jiǎn)介

漢語(yǔ)詞法分析系統(tǒng)ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System)由中國(guó)科學(xué)院計(jì)算技術(shù)研究所研制唇撬。主要功能包括中文分詞;詞性標(biāo)注展融;命名實(shí)體識(shí)別窖认;新詞識(shí)別;同時(shí)支持用戶詞典告希。先后精心打造五年扑浸,內(nèi)核升級(jí)6次,目前已經(jīng)升級(jí)到了ICTCLAS3.0涧尿。ICTCLAS3.0分詞速度單機(jī)996KB/s桥言,分詞精度98.45%扔涧,API不超過(guò)200KB湖雹,各種詞典數(shù)據(jù)壓縮后不到3M鸽嫂,是當(dāng)前世界上最好的漢語(yǔ)詞法分析器。

2. 使用ICTCLAS分析文本

ICTCLAS在線界面如下圖


Xshot-0001.png

現(xiàn)使用該工具分析一段文本
來(lái)源:百度百科中關(guān)于春節(jié)的部分介紹

春節(jié)是指漢字文化圈傳統(tǒng)上的農(nóng)歷新年,俗稱“年節(jié)”才避,傳統(tǒng)名稱為新年、大年楞遏、新歲,但口頭上又稱度歲预鬓、慶新歲、過(guò)年顶猜。中國(guó)人過(guò)春節(jié)已有4000多年的歷史。在現(xiàn)代挠日,人們把春節(jié)定于農(nóng)歷正月初一,但一般至少要到正月十五(上元節(jié))新年才算結(jié)束郑原,在民間犯犁,傳統(tǒng)意義上的春節(jié)是指從臘月的臘祭或臘月二十三或二十四的祭灶住诸,一直到正月十九。在春節(jié)期間奄薇,中國(guó)的漢族和一些少數(shù)民族都要舉行各種慶祝活動(dòng)沫屡。這些活動(dòng)均以祭祀祖神、祭奠祖先绷柒、除舊布新废睦、迎禧接福奈应、祈求豐年為主要內(nèi)容,形式豐富多彩惩妇,帶有濃郁的各民族特色乔妈。受到中華文化的影響,屬于漢字文化圈的一些國(guó)家和民族也有慶祝春節(jié)的習(xí)俗股淡。人們?cè)诖汗?jié)這一天都盡可能地回到家里和親人團(tuán)聚,表達(dá)對(duì)未來(lái)一年的熱切期盼和對(duì)新一年生活的美好祝福早敬。春節(jié)是中華民族最隆重的傳統(tǒng)佳節(jié),同時(shí)也是中國(guó)人情感得以釋放琐驴、心理訴求得以滿足的重要載體,是中華民族一年一度的狂歡節(jié)和永遠(yuǎn)的精神支柱。春節(jié)與清明節(jié)馍乙、端午節(jié)、中秋節(jié)并稱為中國(guó)四大傳統(tǒng)節(jié)日显蝌。

1.1分詞標(biāo)注
Xshot-0002.png

將文本進(jìn)行全模式切分,將所有能成詞的詞語(yǔ)都掃描出來(lái),并標(biāo)注所有字詞的詞性葵腹,用戶還能添加自定義詞語(yǔ)使一些特殊詞語(yǔ)能得到準(zhǔn)確切分,但仍有有歧義或未能識(shí)別出的詞語(yǔ),例如新年烤惊、大年被切分開(kāi),而下圖中訴求雄右、得以被切分錯(cuò)誤熬甚。
Xshot-0004.png

1.2 實(shí)體抽取
Xshot-0005.png

可通過(guò)圖表或文本的形式展現(xiàn)實(shí)體的劃分粟判,包括實(shí)體類型和實(shí)體內(nèi)容,分詞標(biāo)注未能準(zhǔn)確切分的詞語(yǔ)無(wú)法得到顯示递礼,例如大年、新歲實(shí)際上也屬于時(shí)間實(shí)體。

1.3 詞頻統(tǒng)計(jì)
Xshot-0006.png

按詞性將詞語(yǔ)分為三大類,統(tǒng)計(jì)各詞語(yǔ)出現(xiàn)的次數(shù)。

1.4 文本分類
Xshot-0007.png

1.5 情感分析
Xshot-0008.png

1.6 關(guān)鍵詞提取
Xshot-0009.png

1.7 Word2vec
Xshot-0010.png

word2vec 是 Google 在 2013 年年中開(kāi)源的一款將詞表征為實(shí)數(shù)值向量的高效工具歌逢,可以把對(duì)文本內(nèi)容的處理簡(jiǎn)化為 K 維向量空間中的向量運(yùn)算趋翻,而向量空間上的相似度可以用來(lái)表示文本語(yǔ)義上的相似度睛琳,即圖中所展現(xiàn)的就是各個(gè)詞語(yǔ)之間的相關(guān)度。

二. jieba

1. 簡(jiǎn)介

1.1 jieba具有三種分詞模式:
精確模式:試圖將句子最精確地切開(kāi)踏烙,適合文本分析师骗;
全模式:把句子中所有的可以成詞的詞語(yǔ)都掃描出來(lái), 速度非常快讨惩,但是不能解決歧義黍少;
搜索引擎模式:在精確模式的基礎(chǔ)上,對(duì)長(zhǎng)詞再次切分卧斟,提高召回率(即查全率)晓猛,適合用于搜索引擎分詞乳乌。
jieba還支持繁體分詞采缚、支持自定義詞典

2. 使用jieba分析文本

打開(kāi)cmd,切換到j(luò)ieba所在的目錄猜谚,用以下命令安裝jieba
python setup.py install

2.1 基本分詞語(yǔ)法

? jieba.cut 方法接受三個(gè)輸入?yún)?shù): 需要分詞的字符串;cut_all 參數(shù)用來(lái)控制是否采用全模式蒙具;HMM 參數(shù)用來(lái)控制是否使用 HMM 模型。
? jieba.cut_for_search 方法接受兩個(gè)參數(shù):需要分詞的字符串房待;是否使用 HMM 模型。該方法適合用于搜索引擎構(gòu)建倒排索引的分詞,粒度比較細(xì)。
? 待分詞的字符串可以是 unicode 或 UTF-8 字符串音羞、GBK 字符串谍夭。注意:不建議直接輸入 GBK 字符串莺债,可能無(wú)法預(yù)料地錯(cuò)誤解碼成 UTF-8。
? jieba.cut 以及 jieba.cut_for_search 返回的結(jié)構(gòu)都是一個(gè)可迭代的 generator稚新,可以使用 for 循環(huán)來(lái)獲得分詞后得到的每一個(gè)詞語(yǔ)(unicode),或者用jieba.lcut 以及 jieba.lcut_for_search 直接返回 list苍凛。
?jieba.Tokenizer(dictionary=DEFAULT_DICT) 新建自定義詞器,可用于同時(shí)使用不同詞典。jieba.dt 為默認(rèn)分詞器,所有全局分詞相關(guān)函數(shù)都是該分詞器的映射技潘。

在pycharm中新建python文件遥巴,對(duì)相同文本進(jìn)行分詞分析

#encoding=utf-8
import jieba

#精確模式
seg_list=jieba.cut("春節(jié)是指漢字文化圈傳統(tǒng)上的農(nóng)歷新年千康,俗稱“年節(jié)”,傳統(tǒng)名稱為新年铲掐、大年拾弃、新歲,但口頭上又稱度歲摆霉、慶新歲豪椿、過(guò)年。中國(guó)人過(guò)春節(jié)已有4000多年的歷史携栋。在現(xiàn)代搭盾,人們把春節(jié)定于農(nóng)歷正月初一,但一般至少要到正月十五(上元節(jié))新年才算結(jié)束刻两,在民間增蹭,傳統(tǒng)意義上的春節(jié)是指從臘月的臘祭或臘月二十三或二十四的祭灶,一直到正月十九磅摹。在春節(jié)期間,中國(guó)的漢族和一些少數(shù)民族都要舉行各種慶做荩活動(dòng)户誓。這些活動(dòng)均以祭祀祖神、祭奠祖先幕侠、除舊布新帝美、迎禧接福、祈求豐年為主要內(nèi)容晤硕,形式豐富多彩悼潭,帶有濃郁的各民族特色。受到中華文化的影響舞箍,屬于漢字文化圈的一些國(guó)家和民族也有慶祝春節(jié)的習(xí)俗舰褪。人們?cè)诖汗?jié)這一天都盡可能地回到家里和親人團(tuán)聚,表達(dá)對(duì)未來(lái)一年的熱切期盼和對(duì)新一年生活的美好祝福疏橄。春節(jié)是中華民族最隆重的傳統(tǒng)佳節(jié)占拍,同時(shí)也是中國(guó)人情感得以釋放、心理訴求得以滿足的重要載體捎迫,是中華民族一年一度的狂歡節(jié)和永遠(yuǎn)的精神支柱晃酒。春節(jié)與清明節(jié)、端午節(jié)窄绒、中秋節(jié)并稱為中國(guó)四大傳統(tǒng)節(jié)日贝次。",cut_all=True)
print("Full Mode:",",".join(seg_list))

#全模式
seg_list=jieba.cut("春節(jié)是指漢字文化圈傳統(tǒng)上的農(nóng)歷新年,俗稱“年節(jié)”彰导,傳統(tǒng)名稱為新年蛔翅、大年恼布、新歲,但口頭上又稱度歲搁宾、慶新歲折汞、過(guò)年。中國(guó)人過(guò)春節(jié)已有4000多年的歷史盖腿。在現(xiàn)代爽待,人們把春節(jié)定于農(nóng)歷正月初一,但一般至少要到正月十五(上元節(jié))新年才算結(jié)束翩腐,在民間鸟款,傳統(tǒng)意義上的春節(jié)是指從臘月的臘祭或臘月二十三或二十四的祭灶,一直到正月十九茂卦。在春節(jié)期間何什,中國(guó)的漢族和一些少數(shù)民族都要舉行各種慶祝活動(dòng)等龙。這些活動(dòng)均以祭祀祖神处渣、祭奠祖先、除舊布新蛛砰、迎禧接福罐栈、祈求豐年為主要內(nèi)容,形式豐富多彩泥畅,帶有濃郁的各民族特色荠诬。受到中華文化的影響,屬于漢字文化圈的一些國(guó)家和民族也有慶祝春節(jié)的習(xí)俗位仁。人們?cè)诖汗?jié)這一天都盡可能地回到家里和親人團(tuán)聚柑贞,表達(dá)對(duì)未來(lái)一年的熱切期盼和對(duì)新一年生活的美好祝福。春節(jié)是中華民族最隆重的傳統(tǒng)佳節(jié)聂抢,同時(shí)也是中國(guó)人情感得以釋放钧嘶、心理訴求得以滿足的重要載體,是中華民族一年一度的狂歡節(jié)和永遠(yuǎn)的精神支柱涛浙。春節(jié)與清明節(jié)康辑、端午節(jié)、中秋節(jié)并稱為中國(guó)四大傳統(tǒng)節(jié)日轿亮。",cut_all=False)
print("Default Mode:",",".join(seg_list))

#默認(rèn)是精確模式
seg_list=jieba.cut("春節(jié)是指漢字文化圈傳統(tǒng)上的農(nóng)歷新年疮薇,俗稱“年節(jié)”,傳統(tǒng)名稱為新年我注、大年按咒、新歲,但口頭上又稱度歲但骨、慶新歲励七、過(guò)年智袭。中國(guó)人過(guò)春節(jié)已有4000多年的歷史。在現(xiàn)代掠抬,人們把春節(jié)定于農(nóng)歷正月初一吼野,但一般至少要到正月十五(上元節(jié))新年才算結(jié)束,在民間两波,傳統(tǒng)意義上的春節(jié)是指從臘月的臘祭或臘月二十三或二十四的祭灶瞳步,一直到正月十九。在春節(jié)期間腰奋,中國(guó)的漢族和一些少數(shù)民族都要舉行各種慶椎テ穑活動(dòng)。這些活動(dòng)均以祭祀祖神劣坊、祭奠祖先嘀倒、除舊布新、迎禧接福局冰、祈求豐年為主要內(nèi)容测蘑,形式豐富多彩,帶有濃郁的各民族特色锐想。受到中華文化的影響帮寻,屬于漢字文化圈的一些國(guó)家和民族也有慶祝春節(jié)的習(xí)俗。人們?cè)诖汗?jié)這一天都盡可能地回到家里和親人團(tuán)聚赠摇,表達(dá)對(duì)未來(lái)一年的熱切期盼和對(duì)新一年生活的美好祝福。春節(jié)是中華民族最隆重的傳統(tǒng)佳節(jié)浅蚪,同時(shí)也是中國(guó)人情感得以釋放藕帜、心理訴求得以滿足的重要載體,是中華民族一年一度的狂歡節(jié)和永遠(yuǎn)的精神支柱惜傲。春節(jié)與清明節(jié)洽故、端午節(jié)盗誊、中秋節(jié)并稱為中國(guó)四大傳統(tǒng)節(jié)日时甚。")
print(",".join(seg_list))

#搜索引擎模式
seg_list=jieba.cut_for_search("春節(jié)是指漢字文化圈傳統(tǒng)上的農(nóng)歷新年,俗稱“年節(jié)”哈踱,傳統(tǒng)名稱為新年荒适、大年、新歲开镣,但口頭上又稱度歲刀诬、慶新歲、過(guò)年邪财。中國(guó)人過(guò)春節(jié)已有4000多年的歷史陕壹。在現(xiàn)代质欲,人們把春節(jié)定于農(nóng)歷正月初一,但一般至少要到正月十五(上元節(jié))新年才算結(jié)束糠馆,在民間嘶伟,傳統(tǒng)意義上的春節(jié)是指從臘月的臘祭或臘月二十三或二十四的祭灶,一直到正月十九又碌。在春節(jié)期間九昧,中國(guó)的漢族和一些少數(shù)民族都要舉行各種慶祝活動(dòng)赠橙。這些活動(dòng)均以祭祀祖神耽装、祭奠祖先、除舊布新期揪、迎禧接福掉奄、祈求豐年為主要內(nèi)容,形式豐富多彩凤薛,帶有濃郁的各民族特色姓建。受到中華文化的影響,屬于漢字文化圈的一些國(guó)家和民族也有慶祝春節(jié)的習(xí)俗缤苫。人們?cè)诖汗?jié)這一天都盡可能地回到家里和親人團(tuán)聚速兔,表達(dá)對(duì)未來(lái)一年的熱切期盼和對(duì)新一年生活的美好祝福。春節(jié)是中華民族最隆重的傳統(tǒng)佳節(jié)活玲,同時(shí)也是中國(guó)人情感得以釋放涣狗、心理訴求得以滿足的重要載體,是中華民族一年一度的狂歡節(jié)和永遠(yuǎn)的精神支柱舒憾。春節(jié)與清明節(jié)镀钓、端午節(jié)、中秋節(jié)并稱為中國(guó)四大傳統(tǒng)節(jié)日镀迂。")
print(",".join(seg_list))


得到的分詞結(jié)果如下:

D:\Anaconda3\python.exe D:/jieba/text.py
Building prefix dict from the default dictionary ...
Loading model from cache C:\Users\ADMINI~1\AppData\Local\Temp\jieba.cache
Loading model cost 5.195 seconds.
Prefix dict has been built succesfully.
Full Mode: 春節(jié)/是/指/漢字/文化/文化圈/傳統(tǒng)/上/的/農(nóng)歷/新年///俗稱///年節(jié)////傳統(tǒng)/傳統(tǒng)名稱/名稱/稱為/新年///大年///新歲///但/口頭/口頭上/頭上/又稱/度/歲///慶/新歲///過(guò)年///中國(guó)/國(guó)人/過(guò)/春節(jié)/已有/4000/多年/的/歷史///在/現(xiàn)代///人們/把/春節(jié)/定于/農(nóng)歷/正月/正月初/正月初一/月初/初一///但/一般/至少/要到/正月/正月十五/十五///上元/上元節(jié)///新年/才/算/結(jié)束///在/民間///傳統(tǒng)/傳統(tǒng)意義/意義/上/的/春節(jié)/是/指/從/臘月/的/臘/祭/或/臘月/二十/二十三/十三/或/二十/二十四/十四/的/祭灶///一直/直到/正月/十九///在/春節(jié)/節(jié)期/期間///中國(guó)/的/漢族/和/一些/少數(shù)/少數(shù)民族/民族/都/要/舉行/各種/慶祝/活動(dòng)///這些/活動(dòng)/均/以/祭祀/祀祖/神///祭奠/祖先///除舊/除舊布新///迎/禧/接/福///祈求/豐年/為主/主要/內(nèi)容///形式/豐富/豐富多彩/多彩///帶有/濃郁/的/各/民族/民族特色/特色///受到/中華/中華文化/華文/文化/的/影響///屬于/漢字/文化/文化圈/的/一些/國(guó)家/和/民族/也/有/慶祝/春節(jié)/的/習(xí)俗///人們/在/春節(jié)/這/一天/天都/盡可/盡可能/可能/地/回到/家里/和親/親人/團(tuán)聚///表達(dá)/對(duì)/未來(lái)/一年/的/熱切/期盼/和/對(duì)/新/一年/一年生/生活/的/美好/祝福///春節(jié)/是/中華/中華民族/民族/最/隆重/的/傳統(tǒng)/佳節(jié)///同時(shí)/也/是/中國(guó)/國(guó)人/人情/情感/得以/釋放///心理/訴求/求得/得以/滿足/的/重要/載體///是/中華/中華民族/民族/一年/一年一度/一度/的/狂歡/狂歡節(jié)/和/永遠(yuǎn)/的/精神/精神支柱/支柱///春節(jié)/與/清明/清明節(jié)///端午/端午節(jié)///中秋/中秋節(jié)/秋節(jié)/并稱/稱為/中國(guó)/國(guó)四/四大/傳統(tǒng)/傳統(tǒng)節(jié)日/節(jié)日//
Default Mode: 春節(jié)/是/指/漢字/文化圈/傳統(tǒng)/上/的/農(nóng)歷/新年/丁溅,/俗稱/“/年節(jié)/”/,/傳統(tǒng)名稱/為/新年/探遵、/大/年/窟赏、/新歲/,/但/口頭上/又稱/度歲/箱季、/慶/新歲/涯穷、/過(guò)年/。/中國(guó)/人過(guò)/春節(jié)/已有/4000/多年/的/歷史/规哪。/在/現(xiàn)代/求豫,/人們/把/春節(jié)/定于/農(nóng)歷/正月初一/,/但/一般/至少/要/到/正月十五/(/上元節(jié)/)/新年/才/算/結(jié)束/,/在/民間/蝠嘉,/傳統(tǒng)意義/上/的/春節(jié)/是/指/從/臘月/的/臘/祭/或/臘月/二十三/或/二十四/的/祭灶/最疆,/一直/到/正月/十九/。/在/春節(jié)/期間/蚤告,/中國(guó)/的/漢族/和/一些/少數(shù)民族/都/要/舉行/各種/慶祝/活動(dòng)/努酸。/這些/活動(dòng)/均/以/祭祀/祖神/、/祭奠/祖先/杜恰、/除舊布新/获诈、/迎禧/接福/、/祈求/豐年/為/主要/內(nèi)容/心褐,/形式/豐富多彩/舔涎,/帶有/濃郁/的/各/民族特色/。/受到/中華文化/的/影響/逗爹,/屬于/漢字/文化圈/的/一些/國(guó)家/和/民族/也/有/慶祝/春節(jié)/的/習(xí)俗/亡嫌。/人們/在/春節(jié)/這/一天/都/盡可能/地/回到/家里/和/親人/團(tuán)聚/,/表達(dá)/對(duì)/未來(lái)/一年/的/熱切/期盼/和/對(duì)/新/一年/生活/的/美好/祝福/掘而。/春節(jié)/是/中華民族/最/隆重/的/傳統(tǒng)/佳節(jié)/挟冠,/同時(shí)/也/是/中國(guó)/人/情感/得以/釋放/、/心理/訴求/得以/滿足/的/重要/載體/袍睡,/是/中華民族/一年一度/的/狂歡節(jié)/和/永遠(yuǎn)/的/精神支柱/知染。/春節(jié)/與/清明節(jié)/、/端午節(jié)/斑胜、/中秋節(jié)/并/稱為/中國(guó)/四大/傳統(tǒng)節(jié)日/控淡。
春節(jié),是,指,漢字,文化圈,傳統(tǒng),上,的,農(nóng)歷,新年,,,俗稱,“,年節(jié),”,止潘,,傳統(tǒng)名稱,為,新年,逸寓、,大,年,、,新歲,覆山,,但,口頭上,又稱,度歲,、,慶,新歲,泥栖、,過(guò)年,簇宽。,中國(guó),人過(guò),春節(jié),已有,4000,多年,的,歷史,。,在,現(xiàn)代,吧享,,人們,把,春節(jié),定于,農(nóng)歷,正月初一,魏割,,但,一般,至少,要,到,正月十五,(,上元節(jié),),新年,才,算,結(jié)束,,,在,民間,钢颂,,傳統(tǒng)意義,上,的,春節(jié),是,指,從,臘月,的,臘,祭,或,臘月,二十三,或,二十四,的,祭灶,钞它,,一直,到,正月,十九,。,在,春節(jié),期間,,,中國(guó),的,漢族,和,一些,少數(shù)民族,都,要,舉行,各種,慶祝,活動(dòng),遭垛。,這些,活動(dòng),均,以,祭祀,祖神,尼桶、,祭奠,祖先,、,除舊布新,锯仪、,迎禧,接福,泵督、,祈求,豐年,為,主要,內(nèi)容,,,形式,豐富多彩,庶喜,,帶有,濃郁,的,各,民族特色,小腊。,受到,中華文化,的,影響,,,屬于,漢字,文化圈,的,一些,國(guó)家,和,民族,也,有,慶祝,春節(jié),的,習(xí)俗,久窟。,人們,在,春節(jié),這,一天,都,盡可能,地,回到,家里,和,親人,團(tuán)聚,秩冈,,表達(dá),對(duì),未來(lái),一年,的,熱切,期盼,和,對(duì),新,一年,生活,的,美好,祝福,。,春節(jié),是,中華民族,最,隆重,的,傳統(tǒng),佳節(jié),斥扛,,同時(shí),也,是,中國(guó),人,情感,得以,釋放,入问、,心理,訴求,得以,滿足,的,重要,載體,,,是,中華民族,一年一度,的,狂歡節(jié),和,永遠(yuǎn),的,精神支柱,犹赖。,春節(jié),與,清明節(jié),队他、,端午節(jié),、,中秋節(jié),并,稱為,中國(guó),四大,傳統(tǒng)節(jié)日,峻村。
春節(jié),是,指,漢字,文化,文化圈,傳統(tǒng),上,的,農(nóng)歷,新年,麸折,,俗稱,“,年節(jié),”,,,傳統(tǒng),名稱,傳統(tǒng)名稱,為,新年,粘昨、,大,年,垢啼、,新歲,,,但,口頭,頭上,口頭上,又稱,度歲,张肾、,慶,新歲,芭析、,過(guò)年,。,中國(guó),人過(guò),春節(jié),已有,4000,多年,的,歷史,吞瞪。,在,現(xiàn)代,馁启,,人們,把,春節(jié),定于,農(nóng)歷,正月,月初,初一,正月初,正月初一,,,但,一般,至少,要,到,正月,十五,正月十五,(,上元,上元節(jié),),新年,才,算,結(jié)束,芍秆,,在,民間,惯疙,,傳統(tǒng),意義,傳統(tǒng)意義,上,的,春節(jié),是,指,從,臘月,的,臘,祭,或,臘月,二十,十三,二十三,或,二十,十四,二十四,的,祭灶,,,一直,到,正月,十九,妖啥。,在,春節(jié),期間,霉颠,,中國(guó),的,漢族,和,一些,少數(shù),民族,少數(shù)民族,都,要,舉行,各種,慶祝,活動(dòng),。,這些,活動(dòng),均,以,祭祀,祖神,荆虱、,祭奠,祖先,蒿偎、,除舊,除舊布新,朽们、,迎禧,接福,、,祈求,豐年,為,主要,內(nèi)容,诉位,,形式,豐富,多彩,豐富多彩,骑脱,,帶有,濃郁,的,各,民族,特色,民族特色,。,受到,中華,華文,文化,中華文化,的,影響,不从,,屬于,漢字,文化,文化圈,的,一些,國(guó)家,和,民族,也,有,慶祝,春節(jié),的,習(xí)俗,惜姐。,人們,在,春節(jié),這,一天,都,盡可,可能,盡可能,地,回到,家里,和,親人,團(tuán)聚,,,表達(dá),對(duì),未來(lái),一年,的,熱切,期盼,和,對(duì),新,一年,生活,的,美好,祝福,椿息。,春節(jié),是,中華,民族,中華民族,最,隆重,的,傳統(tǒng),佳節(jié),歹袁,,同時(shí),也,是,中國(guó),人,情感,得以,釋放,、,心理,訴求,得以,滿足,的,重要,載體,寝优,,是,中華,民族,中華民族,一年,一度,一年一度,的,狂歡,狂歡節(jié),和,永遠(yuǎn),的,精神,支柱,精神支柱,条舔。,春節(jié),與,清明,清明節(jié),、,端午,端午節(jié),乏矾、,中秋,秋節(jié),中秋節(jié),并,稱為,中國(guó),四大,傳統(tǒng),節(jié)日,傳統(tǒng)節(jié)日,孟抗。

Process finished with exit code 0

對(duì)比ICTCLAS的分詞結(jié)果,jieba的分詞要更加準(zhǔn)確一些钻心。

2.2 添加自定義詞典

?開(kāi)發(fā)者可以指定自己自定義的詞典凄硼,以便包含 jieba 詞庫(kù)里沒(méi)有的詞。雖然 jieba 有新詞識(shí)別能力捷沸,但是自行添加新詞可以保證更高的正確率摊沉。
?用法: jieba.load_userdict(file_name) # file_name 為文件類對(duì)象或自定義詞典的路徑。
?詞典格式和 dict.txt 一樣痒给,一個(gè)詞占一行说墨;每一行分三部分:詞語(yǔ)、詞頻(可省略)苍柏、詞性(可省略)尼斧,用空格隔開(kāi),順序不可顛倒试吁。file_name 若為路徑或二進(jìn)制方式打開(kāi)的文件棺棵,則文件必須為 UTF-8 編碼。
?詞頻省略時(shí)使用自動(dòng)計(jì)算的能保證分出該詞的詞頻熄捍。

為該文本添加一些詞語(yǔ)律秃,提高分詞準(zhǔn)確率

#encoding=utf-8
from __future__ import print_function, unicode_literals
import sys
sys.path.append("../")
import jieba
import jieba.posseg as pseg

jieba.add_word('大年')
jieba.add_word('度歲')
jieba.add_word('慶新歲')
jieba.add_word('臘祭')

#精確模式
seg_list=jieba.cut("春節(jié)是指漢字文化圈傳統(tǒng)上的農(nóng)歷新年,俗稱“年節(jié)”治唤,傳統(tǒng)名稱為新年、大年糙申、新歲宾添,但口頭上又稱度歲船惨、慶新歲、過(guò)年缕陕。中國(guó)人過(guò)春節(jié)已有4000多年的歷史粱锐。在現(xiàn)代,人們把春節(jié)定于農(nóng)歷正月初一扛邑,但一般至少要到正月十五(上元節(jié))新年才算結(jié)束怜浅,在民間,傳統(tǒng)意義上的春節(jié)是指從臘月的臘祭或臘月二十三或二十四的祭灶蔬崩,一直到正月十九恶座。在春節(jié)期間,中國(guó)的漢族和一些少數(shù)民族都要舉行各種慶琢ぱ簦活動(dòng)跨琳。這些活動(dòng)均以祭祀祖神、祭奠祖先桐罕、除舊布新脉让、迎禧接福、祈求豐年為主要內(nèi)容功炮,形式豐富多彩溅潜,帶有濃郁的各民族特色。受到中華文化的影響薪伏,屬于漢字文化圈的一些國(guó)家和民族也有慶祝春節(jié)的習(xí)俗滚澜。人們?cè)诖汗?jié)這一天都盡可能地回到家里和親人團(tuán)聚,表達(dá)對(duì)未來(lái)一年的熱切期盼和對(duì)新一年生活的美好祝福毅该。春節(jié)是中華民族最隆重的傳統(tǒng)佳節(jié)博秫,同時(shí)也是中國(guó)人情感得以釋放、心理訴求得以滿足的重要載體眶掌,是中華民族一年一度的狂歡節(jié)和永遠(yuǎn)的精神支柱挡育。春節(jié)與清明節(jié)、端午節(jié)朴爬、中秋節(jié)并稱為中國(guó)四大傳統(tǒng)節(jié)日即寒。",cut_all=True)
print("Full Mode:",",".join(seg_list))

#全模式
seg_list=jieba.cut("春節(jié)是指漢字文化圈傳統(tǒng)上的農(nóng)歷新年,俗稱“年節(jié)”召噩,傳統(tǒng)名稱為新年母赵、大年、新歲具滴,但口頭上又稱度歲凹嘲、慶新歲、過(guò)年构韵。中國(guó)人過(guò)春節(jié)已有4000多年的歷史周蹭。在現(xiàn)代趋艘,人們把春節(jié)定于農(nóng)歷正月初一,但一般至少要到正月十五(上元節(jié))新年才算結(jié)束凶朗,在民間瓷胧,傳統(tǒng)意義上的春節(jié)是指從臘月的臘祭或臘月二十三或二十四的祭灶,一直到正月十九棚愤。在春節(jié)期間搓萧,中國(guó)的漢族和一些少數(shù)民族都要舉行各種慶祝活動(dòng)宛畦。這些活動(dòng)均以祭祀祖神、祭奠祖先刃永、除舊布新货矮、迎禧接福、祈求豐年為主要內(nèi)容斯够,形式豐富多彩囚玫,帶有濃郁的各民族特色。受到中華文化的影響读规,屬于漢字文化圈的一些國(guó)家和民族也有慶祝春節(jié)的習(xí)俗抓督。人們?cè)诖汗?jié)這一天都盡可能地回到家里和親人團(tuán)聚,表達(dá)對(duì)未來(lái)一年的熱切期盼和對(duì)新一年生活的美好祝福束亏。春節(jié)是中華民族最隆重的傳統(tǒng)佳節(jié)铃在,同時(shí)也是中國(guó)人情感得以釋放、心理訴求得以滿足的重要載體碍遍,是中華民族一年一度的狂歡節(jié)和永遠(yuǎn)的精神支柱定铜。春節(jié)與清明節(jié)、端午節(jié)怕敬、中秋節(jié)并稱為中國(guó)四大傳統(tǒng)節(jié)日揣炕。",cut_all=False)
print("Default Mode:",",".join(seg_list))

#默認(rèn)是精確模式
seg_list=jieba.cut("春節(jié)是指漢字文化圈傳統(tǒng)上的農(nóng)歷新年,俗稱“年節(jié)”东跪,傳統(tǒng)名稱為新年畸陡、大年、新歲虽填,但口頭上又稱度歲丁恭、慶新歲、過(guò)年斋日。中國(guó)人過(guò)春節(jié)已有4000多年的歷史牲览。在現(xiàn)代,人們把春節(jié)定于農(nóng)歷正月初一恶守,但一般至少要到正月十五(上元節(jié))新年才算結(jié)束竭恬,在民間跛蛋,傳統(tǒng)意義上的春節(jié)是指從臘月的臘祭或臘月二十三或二十四的祭灶,一直到正月十九痊硕。在春節(jié)期間,中國(guó)的漢族和一些少數(shù)民族都要舉行各種慶籽嚎颍活動(dòng)岔绸。這些活動(dòng)均以祭祀祖神、祭奠祖先橡伞、除舊布新盒揉、迎禧接福、祈求豐年為主要內(nèi)容兑徘,形式豐富多彩刚盈,帶有濃郁的各民族特色。受到中華文化的影響挂脑,屬于漢字文化圈的一些國(guó)家和民族也有慶祝春節(jié)的習(xí)俗藕漱。人們?cè)诖汗?jié)這一天都盡可能地回到家里和親人團(tuán)聚,表達(dá)對(duì)未來(lái)一年的熱切期盼和對(duì)新一年生活的美好祝福崭闲。春節(jié)是中華民族最隆重的傳統(tǒng)佳節(jié)肋联,同時(shí)也是中國(guó)人情感得以釋放、心理訴求得以滿足的重要載體刁俭,是中華民族一年一度的狂歡節(jié)和永遠(yuǎn)的精神支柱橄仍。春節(jié)與清明節(jié)、端午節(jié)牍戚、中秋節(jié)并稱為中國(guó)四大傳統(tǒng)節(jié)日侮繁。")
print(",".join(seg_list))

#搜索引擎模式
seg_list=jieba.cut_for_search("春節(jié)是指漢字文化圈傳統(tǒng)上的農(nóng)歷新年,俗稱“年節(jié)”如孝,傳統(tǒng)名稱為新年簇抵、大年梆惯、新歲,但口頭上又稱度歲、慶新歲禾进、過(guò)年。中國(guó)人過(guò)春節(jié)已有4000多年的歷史娜谊。在現(xiàn)代彼城,人們把春節(jié)定于農(nóng)歷正月初一,但一般至少要到正月十五(上元節(jié))新年才算結(jié)束腹躁,在民間桑包,傳統(tǒng)意義上的春節(jié)是指從臘月的臘祭或臘月二十三或二十四的祭灶,一直到正月十九纺非。在春節(jié)期間哑了,中國(guó)的漢族和一些少數(shù)民族都要舉行各種慶鬃阜剑活動(dòng)。這些活動(dòng)均以祭祀祖神弱左、祭奠祖先窄陡、除舊布新、迎禧接福拆火、祈求豐年為主要內(nèi)容跳夭,形式豐富多彩,帶有濃郁的各民族特色们镜。受到中華文化的影響币叹,屬于漢字文化圈的一些國(guó)家和民族也有慶祝春節(jié)的習(xí)俗。人們?cè)诖汗?jié)這一天都盡可能地回到家里和親人團(tuán)聚模狭,表達(dá)對(duì)未來(lái)一年的熱切期盼和對(duì)新一年生活的美好祝福颈抚。春節(jié)是中華民族最隆重的傳統(tǒng)佳節(jié),同時(shí)也是中國(guó)人情感得以釋放嚼鹉、心理訴求得以滿足的重要載體贩汉,是中華民族一年一度的狂歡節(jié)和永遠(yuǎn)的精神支柱。春節(jié)與清明節(jié)反砌、端午節(jié)雾鬼、中秋節(jié)并稱為中國(guó)四大傳統(tǒng)節(jié)日。")
print(",".join(seg_list))


結(jié)果如下:

Full Mode: 春節(jié),是,指,漢字,文化,文化圈,傳統(tǒng),上,的,農(nóng)歷,新年,,,俗稱,,,年節(jié),,,,傳統(tǒng),傳統(tǒng)名稱,名稱,稱為,新年,,,大年,,,新歲,,,但,口頭,口頭上,頭上,又稱,度歲,,,慶新歲,新歲,,,過(guò)年,,,中國(guó),國(guó)人,過(guò),春節(jié),已有,4000,多年,的,歷史,,,在,現(xiàn)代,,,人們,把,春節(jié),定于,農(nóng)歷,正月,正月初,正月初一,月初,初一,,,但,一般,至少,要到,正月,正月十五,十五,,,上元,上元節(jié),,,新年,才,算,結(jié)束,,,在,民間,,,傳統(tǒng),傳統(tǒng)意義,意義,上,的,春節(jié),是,指,從,臘月,的,臘祭,或,臘月,二十,二十三,十三,或,二十,二十四,十四,的,祭灶,,,一直,直到,正月,十九,,,在,春節(jié),節(jié)期,期間,,,中國(guó),的,漢族,和,一些,少數(shù),少數(shù)民族,民族,都,要,舉行,各種,慶祝,活動(dòng),,,這些,活動(dòng),均,以,祭祀,祀祖,神,,,祭奠,祖先,,,除舊,除舊布新,,,迎,禧,接,福,,,祈求,豐年,為主,主要,內(nèi)容,,,形式,豐富,豐富多彩,多彩,,,帶有,濃郁,的,各,民族,民族特色,特色,,,受到,中華,中華文化,華文,文化,的,影響,,,屬于,漢字,文化,文化圈,的,一些,國(guó)家,和,民族,也,有,慶祝,春節(jié),的,習(xí)俗,,,人們,在,春節(jié),這,一天,天都,盡可,盡可能,可能,地,回到,家里,和親,親人,團(tuán)聚,,,表達(dá),對(duì),未來(lái),一年,的,熱切,期盼,和,對(duì),新,一年,一年生,生活,的,美好,祝福,,,春節(jié),是,中華,中華民族,民族,最,隆重,的,傳統(tǒng),佳節(jié),,,同時(shí),也,是,中國(guó),國(guó)人,人情,情感,得以,釋放,,,心理,訴求,求得,得以,滿足,的,重要,載體,,,是,中華,中華民族,民族,一年,一年一度,一度,的,狂歡,狂歡節(jié),和,永遠(yuǎn),的,精神,精神支柱,支柱,,,春節(jié),與,清明,清明節(jié),,,端午,端午節(jié),,,中秋,中秋節(jié),秋節(jié),并稱,稱為,中國(guó),國(guó)四,四大,傳統(tǒng),傳統(tǒng)節(jié)日,節(jié)日,,
Default Mode: 春節(jié),是,指,漢字,文化圈,傳統(tǒng),上,的,農(nóng)歷,新年,宴树,,俗稱,“,年節(jié),”,策菜,,傳統(tǒng)名稱,為,新年,、,大年,酒贬、,新歲,又憨,,但,口頭上,又稱,度歲,、,慶新歲,锭吨、,過(guò)年,蠢莺。,中國(guó),人過(guò),春節(jié),已有,4000,多年,的,歷史,。,在,現(xiàn)代,零如,,人們,把,春節(jié),定于,農(nóng)歷,正月初一,躏将,,但,一般,至少,要,到,正月十五,(,上元節(jié),),新年,才,算,結(jié)束,,,在,民間,考蕾,,傳統(tǒng)意義,上,的,春節(jié),是,指,從,臘月,的,臘祭,或,臘月,二十三,或,二十四,的,祭灶,祸憋,,一直,到,正月,十九,。,在,春節(jié),期間,肖卧,,中國(guó),的,漢族,和,一些,少數(shù)民族,都,要,舉行,各種,慶祝,活動(dòng),蚯窥。,這些,活動(dòng),均,以,祭祀,祖神,、,祭奠,祖先,、,除舊布新,拦赠、,迎禧,接福,巍沙、,祈求,豐年,為,主要,內(nèi)容,,,形式,豐富多彩,荷鼠,,帶有,濃郁,的,各,民族特色,句携。,受到,中華文化,的,影響,,,屬于,漢字,文化圈,的,一些,國(guó)家,和,民族,也,有,慶祝,春節(jié),的,習(xí)俗,允乐。,人們,在,春節(jié),這,一天,都,盡可能,地,回到,家里,和,親人,團(tuán)聚,务甥,,表達(dá),對(duì),未來(lái),一年,的,熱切,期盼,和,對(duì),新,一年,生活,的,美好,祝福,。,春節(jié),是,中華民族,最,隆重,的,傳統(tǒng),佳節(jié),喳篇,,同時(shí),也,是,中國(guó),人,情感,得以,釋放,、,心理,訴求,得以,滿足,的,重要,載體,态辛,,是,中華民族,一年一度,的,狂歡節(jié),和,永遠(yuǎn),的,精神支柱,麸澜。,春節(jié),與,清明節(jié),、,端午節(jié),奏黑、,中秋節(jié),并,稱為,中國(guó),四大,傳統(tǒng)節(jié)日,炊邦。
春節(jié),是,指,漢字,文化圈,傳統(tǒng),上,的,農(nóng)歷,新年,,,俗稱,“,年節(jié),”,熟史,,傳統(tǒng)名稱,為,新年,馁害、,大年,、,新歲,蹂匹,,但,口頭上,又稱,度歲,碘菜、,慶新歲,、,過(guò)年,限寞。,中國(guó),人過(guò),春節(jié),已有,4000,多年,的,歷史,忍啸。,在,現(xiàn)代,,,人們,把,春節(jié),定于,農(nóng)歷,正月初一,履植,,但,一般,至少,要,到,正月十五,(,上元節(jié),),新年,才,算,結(jié)束,计雌,,在,民間,,,傳統(tǒng)意義,上,的,春節(jié),是,指,從,臘月,的,臘祭,或,臘月,二十三,或,二十四,的,祭灶,玫霎,,一直,到,正月,十九,凿滤。,在,春節(jié),期間,,,中國(guó),的,漢族,和,一些,少數(shù)民族,都,要,舉行,各種,慶祝,活動(dòng),庶近。,這些,活動(dòng),均,以,祭祀,祖神,翁脆、,祭奠,祖先,、,除舊布新,拦盹、,迎禧,接福,鹃祖、,祈求,豐年,為,主要,內(nèi)容,,,形式,豐富多彩,,,帶有,濃郁,的,各,民族特色,恬口。,受到,中華文化,的,影響,校读,,屬于,漢字,文化圈,的,一些,國(guó)家,和,民族,也,有,慶祝,春節(jié),的,習(xí)俗,。,人們,在,春節(jié),這,一天,都,盡可能,地,回到,家里,和,親人,團(tuán)聚,祖能,,表達(dá),對(duì),未來(lái),一年,的,熱切,期盼,和,對(duì),新,一年,生活,的,美好,祝福,歉秫。,春節(jié),是,中華民族,最,隆重,的,傳統(tǒng),佳節(jié),,,同時(shí),也,是,中國(guó),人,情感,得以,釋放,养铸、,心理,訴求,得以,滿足,的,重要,載體,雁芙,,是,中華民族,一年一度,的,狂歡節(jié),和,永遠(yuǎn),的,精神支柱,。,春節(jié),與,清明節(jié),钞螟、,端午節(jié),兔甘、,中秋節(jié),并,稱為,中國(guó),四大,傳統(tǒng)節(jié)日,。
春節(jié),是,指,漢字,文化,文化圈,傳統(tǒng),上,的,農(nóng)歷,新年,鳞滨,,俗稱,“,年節(jié),”,洞焙,,傳統(tǒng),名稱,傳統(tǒng)名稱,為,新年,、,大年,拯啦、,新歲,澡匪,,但,口頭,頭上,口頭上,又稱,度歲,、,新歲,慶新歲,褒链、,過(guò)年,唁情。,中國(guó),人過(guò),春節(jié),已有,4000,多年,的,歷史,。,在,現(xiàn)代,甫匹,,人們,把,春節(jié),定于,農(nóng)歷,正月,月初,初一,正月初,正月初一,甸鸟,,但,一般,至少,要,到,正月,十五,正月十五,(,上元,上元節(jié),),新年,才,算,結(jié)束,,,在,民間,赛惩,,傳統(tǒng),意義,傳統(tǒng)意義,上,的,春節(jié),是,指,從,臘月,的,臘祭,或,臘月,二十,十三,二十三,或,二十,十四,二十四,的,祭灶,哀墓,,一直,到,正月,十九,。,在,春節(jié),期間,喷兼,,中國(guó),的,漢族,和,一些,少數(shù),民族,少數(shù)民族,都,要,舉行,各種,慶祝,活動(dòng),篮绰。,這些,活動(dòng),均,以,祭祀,祖神,、,祭奠,祖先,季惯、,除舊,除舊布新,吠各、,迎禧,接福,、,祈求,豐年,為,主要,內(nèi)容,勉抓,,形式,豐富,多彩,豐富多彩,贾漏,,帶有,濃郁,的,各,民族,特色,民族特色,。,受到,中華,華文,文化,中華文化,的,影響,藕筋,,屬于,漢字,文化,文化圈,的,一些,國(guó)家,和,民族,也,有,慶祝,春節(jié),的,習(xí)俗,纵散。,人們,在,春節(jié),這,一天,都,盡可,可能,盡可能,地,回到,家里,和,親人,團(tuán)聚,,,表達(dá),對(duì),未來(lái),一年,的,熱切,期盼,和,對(duì),新,一年,生活,的,美好,祝福,。,春節(jié),是,中華,民族,中華民族,最,隆重,的,傳統(tǒng),佳節(jié),伍掀,,同時(shí),也,是,中國(guó),人,情感,得以,釋放,掰茶、,心理,訴求,得以,滿足,的,重要,載體,,,是,中華,民族,中華民族,一年,一度,一年一度,的,狂歡,狂歡節(jié),和,永遠(yuǎn),的,精神,支柱,精神支柱,蜜笤。,春節(jié),與,清明,清明節(jié),濒蒋、,端午,端午節(jié),、,中秋,秋節(jié),中秋節(jié),并,稱為,中國(guó),四大,傳統(tǒng),節(jié)日,傳統(tǒng)節(jié)日,把兔。

2.3 關(guān)鍵詞提取
基于 TF-IDF 算法的關(guān)鍵詞抽取
import jieba.analyse

?jieba.analyse.extract_tags(sentence, topK=20, withWeight=False, allowPOS=())
sentence 為待提取的文本沪伙。
?topK 為返回幾個(gè) TF/IDF 權(quán)重最大的關(guān)鍵詞,默認(rèn)值為 20县好。
?withWeight 為是否一并返回關(guān)鍵詞權(quán)重值围橡,默認(rèn)值為 False。
?allowPOS 僅包括指定詞性的詞缕贡,默認(rèn)值為空某饰,即不篩選。
?jieba.analyse.TFIDF(idf_path=None) 新建 TFIDF 實(shí)例善绎,idf_path 為 IDF 頻率文件。

從文本中提取出權(quán)重排名前十的詞語(yǔ)

#encoding=utf-8
import sys
sys.path.append('../')

import jieba
import jieba.analyse
from optparse import OptionParser

sentence="春節(jié)是指漢字文化圈傳統(tǒng)上的農(nóng)歷新年诫尽,俗稱“年節(jié)”禀酱,傳統(tǒng)名稱為新年、大年牧嫉、新歲剂跟,但口頭上又稱度歲、慶新歲酣藻、過(guò)年曹洽。中國(guó)人過(guò)春節(jié)已有4000多年的歷史。在現(xiàn)代辽剧,人們把春節(jié)定于農(nóng)歷正月初一送淆,但一般至少要到正月十五(上元節(jié))新年才算結(jié)束,在民間怕轿,傳統(tǒng)意義上的春節(jié)是指從臘月的臘祭或臘月二十三或二十四的祭灶偷崩,一直到正月十九。在春節(jié)期間撞羽,中國(guó)的漢族和一些少數(shù)民族都要舉行各種慶撞保活動(dòng)。這些活動(dòng)均以祭祀祖神诀紊、祭奠祖先谒出、除舊布新、迎禧接福、祈求豐年為主要內(nèi)容笤喳,形式豐富多彩为居,帶有濃郁的各民族特色。受到中華文化的影響莉测,屬于漢字文化圈的一些國(guó)家和民族也有慶祝春節(jié)的習(xí)俗颜骤。人們?cè)诖汗?jié)這一天都盡可能地回到家里和親人團(tuán)聚,表達(dá)對(duì)未來(lái)一年的熱切期盼和對(duì)新一年生活的美好祝福捣卤。春節(jié)是中華民族最隆重的傳統(tǒng)佳節(jié)忍抽,同時(shí)也是中國(guó)人情感得以釋放、心理訴求得以滿足的重要載體董朝,是中華民族一年一度的狂歡節(jié)和永遠(yuǎn)的精神支柱鸠项。春節(jié)與清明節(jié)、端午節(jié)子姜、中秋節(jié)并稱為中國(guó)四大傳統(tǒng)節(jié)日祟绊。"
topK=10  #只提取權(quán)重排名前十的詞語(yǔ)
tags=jieba.analyse.extract_tags(sentence,topK=topK)
print(",".join(tags))

結(jié)果如下
Xshot-0011.png

同時(shí)顯示這些詞語(yǔ)的權(quán)重指數(shù)

#encoding=utf-8
import sys
sys.path.append('../')

import jieba
import jieba.analyse
from optparse import OptionParser

sentence="春節(jié)是指漢字文化圈傳統(tǒng)上的農(nóng)歷新年,俗稱“年節(jié)”哥捕,傳統(tǒng)名稱為新年牧抽、大年、新歲遥赚,但口頭上又稱度歲扬舒、慶新歲、過(guò)年凫佛。中國(guó)人過(guò)春節(jié)已有4000多年的歷史讲坎。在現(xiàn)代,人們把春節(jié)定于農(nóng)歷正月初一愧薛,但一般至少要到正月十五(上元節(jié))新年才算結(jié)束晨炕,在民間,傳統(tǒng)意義上的春節(jié)是指從臘月的臘祭或臘月二十三或二十四的祭灶毫炉,一直到正月十九瓮栗。在春節(jié)期間,中國(guó)的漢族和一些少數(shù)民族都要舉行各種慶酌楣矗活動(dòng)遵馆。這些活動(dòng)均以祭祀祖神、祭奠祖先丰榴、除舊布新货邓、迎禧接福、祈求豐年為主要內(nèi)容四濒,形式豐富多彩换况,帶有濃郁的各民族特色职辨。受到中華文化的影響,屬于漢字文化圈的一些國(guó)家和民族也有慶祝春節(jié)的習(xí)俗戈二。人們?cè)诖汗?jié)這一天都盡可能地回到家里和親人團(tuán)聚舒裤,表達(dá)對(duì)未來(lái)一年的熱切期盼和對(duì)新一年生活的美好祝福。春節(jié)是中華民族最隆重的傳統(tǒng)佳節(jié)觉吭,同時(shí)也是中國(guó)人情感得以釋放腾供、心理訴求得以滿足的重要載體,是中華民族一年一度的狂歡節(jié)和永遠(yuǎn)的精神支柱鲜滩。春節(jié)與清明節(jié)伴鳖、端午節(jié)、中秋節(jié)并稱為中國(guó)四大傳統(tǒng)節(jié)日徙硅。"

topK=10  #只提取權(quán)重排名前十的詞語(yǔ)
withWeight = True

tags=jieba.analyse.extract_tags(sentence,topK=topK,withWeight=withWeight)

for tag in tags:
    print("tag: %s\t\t weight: %f" % (tag[0],tag[1]))

結(jié)果如下:
Xshot-0012.png

2.4 詞性標(biāo)注

?jieba.posseg.POSTokenizer(tokenizer=None) 新建自定義分詞器榜聂,tokenizer 參數(shù)可指定內(nèi)部使用的 jieba.Tokenizer 分詞器jieba.posseg.dt 為默認(rèn)詞性標(biāo)注分詞器。
? 標(biāo)注句子分詞后每個(gè)詞的詞性嗓蘑,采用和 ictclas 兼容的標(biāo)記法须肆。

#encoding=utf-8

import jieba
import jieba.posseg as pseg

sentence=pseg.cut("春節(jié)是指漢字文化圈傳統(tǒng)上的農(nóng)歷新年,俗稱“年節(jié)”桩皿,傳統(tǒng)名稱為新年豌汇、大年、新歲泄隔,但口頭上又稱度歲瘤礁、慶新歲、過(guò)年梅尤。中國(guó)人過(guò)春節(jié)已有4000多年的歷史。在現(xiàn)代岩调,人們把春節(jié)定于農(nóng)歷正月初一巷燥,但一般至少要到正月十五(上元節(jié))新年才算結(jié)束,在民間号枕,傳統(tǒng)意義上的春節(jié)是指從臘月的臘祭或臘月二十三或二十四的祭灶缰揪,一直到正月十九。在春節(jié)期間葱淳,中國(guó)的漢族和一些少數(shù)民族都要舉行各種慶锥巯伲活動(dòng)。這些活動(dòng)均以祭祀祖神赞厕、祭奠祖先艳狐、除舊布新、迎禧接福皿桑、祈求豐年為主要內(nèi)容毫目,形式豐富多彩蔬啡,帶有濃郁的各民族特色。受到中華文化的影響镀虐,屬于漢字文化圈的一些國(guó)家和民族也有慶祝春節(jié)的習(xí)俗箱蟆。人們?cè)诖汗?jié)這一天都盡可能地回到家里和親人團(tuán)聚,表達(dá)對(duì)未來(lái)一年的熱切期盼和對(duì)新一年生活的美好祝福刮便。春節(jié)是中華民族最隆重的傳統(tǒng)佳節(jié)空猜,同時(shí)也是中國(guó)人情感得以釋放、心理訴求得以滿足的重要載體恨旱,是中華民族一年一度的狂歡節(jié)和永遠(yuǎn)的精神支柱辈毯。春節(jié)與清明節(jié)、端午節(jié)窖杀、中秋節(jié)并稱為中國(guó)四大傳統(tǒng)節(jié)日漓摩。")
for word, flag in sentence:
    print('%s %s' % (word, flag))

部分結(jié)果如下圖:


Xshot-0013.png

2.5 Tokenize:返回詞語(yǔ)在原文的起止位置
默認(rèn)模式

#encoding=utf-8
import jieba
import jieba.posseg as pseg

sentence = jieba.tokenize(u'春節(jié)是指漢字文化圈傳統(tǒng)上的農(nóng)歷新年,俗稱“年節(jié)”入客,傳統(tǒng)名稱為新年管毙、大年、新歲桌硫,但口頭上又稱度歲夭咬、慶新歲、過(guò)年铆隘。中國(guó)人過(guò)春節(jié)已有4000多年的歷史卓舵。在現(xiàn)代,人們把春節(jié)定于農(nóng)歷正月初一膀钠,但一般至少要到正月十五(上元節(jié))新年才算結(jié)束掏湾,在民間,傳統(tǒng)意義上的春節(jié)是指從臘月的臘祭或臘月二十三或二十四的祭灶肿嘲,一直到正月十九融击。在春節(jié)期間,中國(guó)的漢族和一些少數(shù)民族都要舉行各種慶做撸活動(dòng)尊浪。這些活動(dòng)均以祭祀祖神、祭奠祖先封救、除舊布新拇涤、迎禧接福、祈求豐年為主要內(nèi)容誉结,形式豐富多彩鹅士,帶有濃郁的各民族特色。受到中華文化的影響惩坑,屬于漢字文化圈的一些國(guó)家和民族也有慶祝春節(jié)的習(xí)俗如绸。人們?cè)诖汗?jié)這一天都盡可能地回到家里和親人團(tuán)聚嘱朽,表達(dá)對(duì)未來(lái)一年的熱切期盼和對(duì)新一年生活的美好祝福。春節(jié)是中華民族最隆重的傳統(tǒng)佳節(jié)怔接,同時(shí)也是中國(guó)人情感得以釋放搪泳、心理訴求得以滿足的重要載體,是中華民族一年一度的狂歡節(jié)和永遠(yuǎn)的精神支柱。春節(jié)與清明節(jié)、端午節(jié)灸促、中秋節(jié)并稱為中國(guó)四大傳統(tǒng)節(jié)日。')
for tk in sentence:
    print("word %s\t\t start: %d \t\t end:%d" % (tk[0],tk[1],tk[2]))

部分結(jié)果如下圖:
Xshot-0014.png

2.6 生成詞云
使用在線工具wordart
先獲得分詞及其權(quán)重

#encoding=utf-8
import sys
sys.path.append('../')

import jieba
import jieba.analyse
from optparse import OptionParser

sentence="春節(jié)是指漢字文化圈傳統(tǒng)上的農(nóng)歷新年艰赞,俗稱“年節(jié)”,傳統(tǒng)名稱為新年肚吏、大年方妖、新歲,但口頭上又稱度歲罚攀、慶新歲党觅、過(guò)年。中國(guó)人過(guò)春節(jié)已有4000多年的歷史斋泄。在現(xiàn)代杯瞻,人們把春節(jié)定于農(nóng)歷正月初一,但一般至少要到正月十五(上元節(jié))新年才算結(jié)束炫掐,在民間魁莉,傳統(tǒng)意義上的春節(jié)是指從臘月的臘祭或臘月二十三或二十四的祭灶,一直到正月十九募胃。在春節(jié)期間旗唁,中國(guó)的漢族和一些少數(shù)民族都要舉行各種慶祝活動(dòng)痹束。這些活動(dòng)均以祭祀祖神检疫、祭奠祖先、除舊布新参袱、迎禧接福、祈求豐年為主要內(nèi)容秽梅,形式豐富多彩抹蚀,帶有濃郁的各民族特色。受到中華文化的影響企垦,屬于漢字文化圈的一些國(guó)家和民族也有慶祝春節(jié)的習(xí)俗环壤。人們?cè)诖汗?jié)這一天都盡可能地回到家里和親人團(tuán)聚,表達(dá)對(duì)未來(lái)一年的熱切期盼和對(duì)新一年生活的美好祝福钞诡。春節(jié)是中華民族最隆重的傳統(tǒng)佳節(jié)郑现,同時(shí)也是中國(guó)人情感得以釋放湃崩、心理訴求得以滿足的重要載體,是中華民族一年一度的狂歡節(jié)和永遠(yuǎn)的精神支柱接箫。春節(jié)與清明節(jié)攒读、端午節(jié)、中秋節(jié)并稱為中國(guó)四大傳統(tǒng)節(jié)日辛友。"

topK = 300
withWeight = True

tags=jieba.analyse.extract_tags(sentence,topK=topK,withWeight=withWeight)

for tag in tags:
    print("tag: %s\t\t weight: %f" % (tag[0],tag[1]*10000))

部分結(jié)果如下:
Xshot-00015.png

將結(jié)果粘貼進(jìn)wordart薄扁,并在設(shè)置字體處添加方正小標(biāo)宋體字體使該工具能識(shí)別中文,最后繪制詞云废累,結(jié)果如下
Xshot-0015.png
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末邓梅,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子邑滨,更是在濱河造成了極大的恐慌日缨,老刑警劉巖,帶你破解...
    沈念sama閱讀 212,816評(píng)論 6 492
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件掖看,死亡現(xiàn)場(chǎng)離奇詭異匣距,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī)乙各,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,729評(píng)論 3 385
  • 文/潘曉璐 我一進(jìn)店門墨礁,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人耳峦,你說(shuō)我怎么就攤上這事恩静。” “怎么了蹲坷?”我有些...
    開(kāi)封第一講書人閱讀 158,300評(píng)論 0 348
  • 文/不壞的土叔 我叫張陵驶乾,是天一觀的道長(zhǎng)。 經(jīng)常有香客問(wèn)我循签,道長(zhǎng)级乐,這世上最難降的妖魔是什么? 我笑而不...
    開(kāi)封第一講書人閱讀 56,780評(píng)論 1 285
  • 正文 為了忘掉前任县匠,我火速辦了婚禮风科,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘乞旦。我一直安慰自己贼穆,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,890評(píng)論 6 385
  • 文/花漫 我一把揭開(kāi)白布兰粉。 她就那樣靜靜地躺著故痊,像睡著了一般。 火紅的嫁衣襯著肌膚如雪玖姑。 梳的紋絲不亂的頭發(fā)上愕秫,一...
    開(kāi)封第一講書人閱讀 50,084評(píng)論 1 291
  • 那天慨菱,我揣著相機(jī)與錄音,去河邊找鬼戴甩。 笑死符喝,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的等恐。 我是一名探鬼主播洲劣,決...
    沈念sama閱讀 39,151評(píng)論 3 410
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼课蔬!你這毒婦竟也來(lái)了囱稽?” 一聲冷哼從身側(cè)響起,我...
    開(kāi)封第一講書人閱讀 37,912評(píng)論 0 268
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤二跋,失蹤者是張志新(化名)和其女友劉穎战惊,沒(méi)想到半個(gè)月后,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體扎即,經(jīng)...
    沈念sama閱讀 44,355評(píng)論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡吞获,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,666評(píng)論 2 327
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了谚鄙。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片各拷。...
    茶點(diǎn)故事閱讀 38,809評(píng)論 1 341
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖闷营,靈堂內(nèi)的尸體忽然破棺而出烤黍,到底是詐尸還是另有隱情,我是刑警寧澤傻盟,帶...
    沈念sama閱讀 34,504評(píng)論 4 334
  • 正文 年R本政府宣布速蕊,位于F島的核電站,受9級(jí)特大地震影響娘赴,放射性物質(zhì)發(fā)生泄漏规哲。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 40,150評(píng)論 3 317
  • 文/蒙蒙 一诽表、第九天 我趴在偏房一處隱蔽的房頂上張望唉锌。 院中可真熱鬧,春花似錦竿奏、人聲如沸袄简。這莊子的主人今日做“春日...
    開(kāi)封第一講書人閱讀 30,882評(píng)論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)痘番。三九已至捉片,卻和暖如春平痰,著一層夾襖步出監(jiān)牢的瞬間汞舱,已是汗流浹背。 一陣腳步聲響...
    開(kāi)封第一講書人閱讀 32,121評(píng)論 1 267
  • 我被黑心中介騙來(lái)泰國(guó)打工宗雇, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留昂芜,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 46,628評(píng)論 2 362
  • 正文 我出身青樓赔蒲,卻偏偏與公主長(zhǎng)得像泌神,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子舞虱,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,724評(píng)論 2 351

推薦閱讀更多精彩內(nèi)容

  • 在接下來(lái)的分詞練習(xí)中將使用到四川大學(xué)公共管理學(xué)院的一篇新聞進(jìn)行練習(xí)欢际,文本如下: 為貫徹落實(shí)黨的十九大精神,不斷提升...
    nicokani閱讀 1,229評(píng)論 0 4
  • 接分詞練習(xí)1——分詞工具包 分詞效果嘗試 接下來(lái)我將體驗(yàn)NLPIR和jieba分詞的效果矾兜,其中损趋,NLPIR使用在線...
    駱落啊閱讀 697評(píng)論 0 1
  • jieba分詞,學(xué)習(xí)椅寺,為了全面了解該模塊浑槽,,預(yù)設(shè)學(xué)習(xí)路線:官方文檔——優(yōu)秀博客文章——實(shí)踐學(xué)習(xí) 官方文檔部分 (文...
    竹林徒兒閱讀 4,088評(píng)論 1 12
  • 關(guān)于分詞工具包的體驗(yàn):分詞練習(xí)2——分詞體驗(yàn) 現(xiàn)有的分詞工具包 (1)NLPIR NLPIR漢語(yǔ)分詞系統(tǒng)返帕,又名IC...
    駱落啊閱讀 998評(píng)論 0 6
  • 山里老家已經(jīng)有五年沒(méi)有回去了桐玻。 很多地方的山路變成了鄉(xiāng)村公路,路兩邊的房子大多更漂亮了荆萤,卻很少見(jiàn)到人镊靴。 是呀!我曾...
    梳頭美容閱讀 333評(píng)論 0 0