分詞練習(xí)

一、使用jieba進(jìn)行分詞
1. 中文分詞(Chinese Word Segmentation)
指將一個(gè)漢字序列切分成一個(gè)一個(gè)單獨(dú)的詞陕靠。分詞就是將連續(xù)的字序列按照一定的規(guī)范重新組合成詞序列的過程。
2. jieba分詞的特點(diǎn)
(1)支持三種分詞模式:
全模式:把句子中所有的可以成詞的詞語都掃描出來, 速度非尘嘲快津畸,但是不能解決歧義;
精確模式:試圖將句子最精確地切開堤结,適合文本分析唆迁;
搜索引擎模式:在精確模式的基礎(chǔ)上,對長詞再次切分竞穷,提高召回率唐责,適合用于搜索引擎分詞。
(2)支持繁體分詞
(3)支持自定義詞典
(4)MIT 授權(quán)協(xié)議
3. 安裝jieba
在mac系統(tǒng)中打開終端瘾带,輸入命令 sudo easy_install pip 安裝pip

install pip.png
在終端中輸入命令 pip install jieba 安裝jieba
install jieba.png

4. 不同模式下進(jìn)行分詞
本次分詞練習(xí)所使用的語段如下:
汽車進(jìn)口關(guān)稅的下調(diào)鼠哥,掀起了中國進(jìn)口車市的降價(jià)熱潮,更點(diǎn)燃了中國消費(fèi)者的購買熱情看政。5月22日朴恳,國家財(cái)政部發(fā)布公告,自2018年7月1日起允蚣,降低汽車整車及零部件進(jìn)口關(guān)稅于颖。消息一出,各大車企紛紛表態(tài)嚷兔,啟動價(jià)格評估進(jìn)而作出降價(jià)調(diào)整森渐,但由于需要具體計(jì)算并不是所有車企都給出了明確的價(jià)格調(diào)整方案。

步驟如下:
在jieba文件夾下建立zrq2.py文件谴垫,四種模式分詞代碼分別如下圖所示:

全模式 代碼.png
精確模式 代碼.png
默認(rèn)精確模式 代碼.png
搜索引擎模式 代碼.png

在命令行中進(jìn)入到j(luò)ieba目錄下章母,輸入 python zrq2.py

得到四種模式下的分詞結(jié)果,分別如下圖所示:
全模式.png
精確模式.png
默認(rèn)精確模式.png
搜索引擎模式.png
結(jié)果顯示翩剪,語段中如“各大”乳怎、“車企”及日期都被分開了,因此可以通過添加自定義詞典來包含jieba詞庫中沒有的詞前弯,保證更高的正確率蚪缀。

5. 添加自定義詞典
a.開發(fā)者可以指定自己自定義的詞典,以便包含 jieba 詞庫里沒有的詞恕出。雖然 jieba 有新詞識別能力询枚,但是自行添加新詞可以保證更高的正確率
b.用法: jieba.load_userdict(file_name) # file_name 為文件類對象或自定義詞典的路徑
c.詞典格式和 dict.txt 一樣,一個(gè)詞占一行浙巫;每一行分三部分:詞語金蜀、詞頻(可省略)刷后、詞性(可省略),用空格隔開渊抄,順序不可顛倒尝胆。file_name 若為路徑或二進(jìn)制方式打開的文件,則文件必須為 UTF-8 編碼护桦。
d.詞頻省略時(shí)使用自動計(jì)算的能保證分出該詞的詞頻

步驟如下:
(1)在jieba文件夾下新建userdict.text,設(shè)置自定義的詞含衔,一個(gè)詞占一行,以utf-8形式保存

userdict.png

(2)在jieba文件夾下新建zrq3.py文件二庵,代碼如下:
添加自定義詞典 代碼.png
在命令行中進(jìn)入到j(luò)ieba目錄下贪染,輸入 python zrq3.py,得到如下結(jié)果:
自定義詞典.png
由圖中結(jié)果可知催享,自定義的新詞“各大”杭隙、“車企”、“5月22日”睡陪、“2018年7月1日”均被分成了一個(gè)詞寺渗。

6. 調(diào)整詞典
使用 add_word(word, freq=None, tag=None) 和 del_word(word) 可在程序中動態(tài)修改詞典。
添加一個(gè)自定義詞“進(jìn)口車市”兰迫,對zrq3.py文件中的代碼進(jìn)行修改信殊,如下圖所示:

動態(tài)添加辭典 代碼.png

在命令行中進(jìn)入到j(luò)ieba目錄下,輸入 python zrq3.py汁果,得到結(jié)果如下:
動態(tài)添加詞典.png
由圖中結(jié)果看到涡拘,“進(jìn)口車市”被分成了一個(gè)詞。

7. 基于 TF-IDF 算法的關(guān)鍵詞抽取
引入關(guān)鍵詞提染莸隆:import jieba.analyse

A. jieba.analyse.extract_tags(sentence, topK=20, withWeight=False, allowPOS=())
a.sentence 為待提取的文本
b.topK 為返回幾個(gè) TF/IDF 權(quán)重最大的關(guān)鍵詞鳄乏,默認(rèn)值為 20
c.withWeight 為是否一并返回關(guān)鍵詞權(quán)重值,默認(rèn)值為 False
d.allowPOS 僅包括指定詞性的詞棘利,默認(rèn)值為空橱野,即不篩選
B. jieba.analyse.TFIDF(idf_path=None) 新建 TFIDF 實(shí)例,idf_path 為 IDF 頻率文件

步驟如下:
在jieba文件夾下新建zrq4.py文件善玫,代碼如下:

TF-IDF關(guān)鍵詞提取 代碼.png

在命令行中進(jìn)入到j(luò)ieba目錄下水援,輸入 python zrq4.py,得到結(jié)果如下:
TF-IDF關(guān)鍵詞提取.png

8. 基于 TextRank 算法的關(guān)鍵詞抽取
基于TextRank算法抽取關(guān)鍵詞的主調(diào)函數(shù)是TextRank.textrank函數(shù)茅郎,主要是在jieba/analyse/textrank.py中實(shí)現(xiàn)蜗元。其中,TextRank是為TextRank算法抽取關(guān)鍵詞所定義的類系冗。類在初始化時(shí)奕扣,默認(rèn)加載了分詞函數(shù)和詞性標(biāo)注函數(shù)
基本思想:
a.將待抽取關(guān)鍵詞的文本進(jìn)行分詞
b.以固定窗口大小(默認(rèn)為5,通過span屬性調(diào)整)掌敬,詞之間的共現(xiàn)關(guān)系惯豆,構(gòu)建圖
c.計(jì)算圖中節(jié)點(diǎn)的PageRank池磁,注意是無向帶權(quán)圖

步驟如下:
在jieba文件夾下新建zrq5.py,代碼如下:

TextRank關(guān)鍵詞提取 代碼.png
在命令行中進(jìn)入到j(luò)ieba目錄下循帐,輸入 python zrq5.py框仔,得到結(jié)果如下:
TextRank關(guān)鍵詞提取.png

9.制作詞云
下載停用詞表stop.txt,創(chuàng)建cloud.py文件提取關(guān)鍵詞拄养,代碼如下:


在命令行中進(jìn)入到j(luò)ieba目錄下,輸入 python cloud.py银舱,得到結(jié)果如下:

打開TAGUL瘪匿,開始制作詞云
(1)import words:將運(yùn)行結(jié)果粘貼,如下圖所示:

import words.png

(2)選擇形狀(shapes)

(3)先下載微軟雅黑字體寻馏,通過“Add font”添加棋弥,如下圖所示:

(4)點(diǎn)擊“Visualize”,生成詞云诚欠,如下圖所示:

二顽染、在線分詞工具

1. GooSeeker集搜客
步驟如下:
(1)新建任務(wù)并導(dǎo)入數(shù)據(jù),以word形式導(dǎo)入轰绵,如圖:

導(dǎo)入數(shù)據(jù).png

(2)進(jìn)行詞語篩選粉寞,系統(tǒng)自動匹配原文本,如圖:
詞語篩選.png
選詞結(jié)果.png

(3)查看&下載結(jié)果左腔,分詞結(jié)果如圖:
分詞效果.png

個(gè)人感受:
該分詞工具導(dǎo)入數(shù)據(jù)的方式并非粘貼唧垦,而是支持導(dǎo)入不超過10M的excel、word液样、txt振亮、pdf文檔,分詞結(jié)果可供下載鞭莽。

2. K Analyzer在線分詞工具

分詞結(jié)果:
json結(jié)果:

個(gè)人感受:
如圖結(jié)果所示坊秸,該分詞工具統(tǒng)計(jì)了詞組總數(shù)量,將所有能拆分的詞語都進(jìn)行了拆分澎怒,句子短小褒搔,但過于細(xì)碎,有些地方幾乎讀不通順丹拯,用戶體驗(yàn)不佳站超,這種分詞意義不大。

3. 站長工具


個(gè)人感受:
該在線分詞工具雖然網(wǎng)站設(shè)計(jì)較為簡陋乖酬,但分詞效果優(yōu)于K Analyzer在線分詞工具死相,分詞準(zhǔn)確度較高,而非機(jī)械地對所有可拆分項(xiàng)進(jìn)行拆解咬像。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末算撮,一起剝皮案震驚了整個(gè)濱河市生宛,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌肮柜,老刑警劉巖陷舅,帶你破解...
    沈念sama閱讀 212,454評論 6 493
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異审洞,居然都是意外死亡莱睁,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,553評論 3 385
  • 文/潘曉璐 我一進(jìn)店門芒澜,熙熙樓的掌柜王于貴愁眉苦臉地迎上來仰剿,“玉大人,你說我怎么就攤上這事痴晦∧纤保” “怎么了?”我有些...
    開封第一講書人閱讀 157,921評論 0 348
  • 文/不壞的土叔 我叫張陵誊酌,是天一觀的道長部凑。 經(jīng)常有香客問我,道長碧浊,這世上最難降的妖魔是什么涂邀? 我笑而不...
    開封第一講書人閱讀 56,648評論 1 284
  • 正文 為了忘掉前任,我火速辦了婚禮辉词,結(jié)果婚禮上必孤,老公的妹妹穿的比我還像新娘。我一直安慰自己瑞躺,他們只是感情好敷搪,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,770評論 6 386
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著幢哨,像睡著了一般赡勘。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上捞镰,一...
    開封第一講書人閱讀 49,950評論 1 291
  • 那天闸与,我揣著相機(jī)與錄音,去河邊找鬼岸售。 笑死践樱,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的凸丸。 我是一名探鬼主播拷邢,決...
    沈念sama閱讀 39,090評論 3 410
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼屎慢!你這毒婦竟也來了瞭稼?” 一聲冷哼從身側(cè)響起忽洛,我...
    開封第一講書人閱讀 37,817評論 0 268
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎环肘,沒想到半個(gè)月后欲虚,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 44,275評論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡悔雹,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,592評論 2 327
  • 正文 我和宋清朗相戀三年复哆,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片荠商。...
    茶點(diǎn)故事閱讀 38,724評論 1 341
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡寂恬,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出莱没,到底是詐尸還是另有隱情,我是刑警寧澤酷鸦,帶...
    沈念sama閱讀 34,409評論 4 333
  • 正文 年R本政府宣布饰躲,位于F島的核電站,受9級特大地震影響臼隔,放射性物質(zhì)發(fā)生泄漏嘹裂。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 40,052評論 3 316
  • 文/蒙蒙 一摔握、第九天 我趴在偏房一處隱蔽的房頂上張望寄狼。 院中可真熱鬧,春花似錦氨淌、人聲如沸泊愧。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,815評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽删咱。三九已至,卻和暖如春豪筝,著一層夾襖步出監(jiān)牢的瞬間痰滋,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 32,043評論 1 266
  • 我被黑心中介騙來泰國打工续崖, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留敲街,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 46,503評論 2 361
  • 正文 我出身青樓严望,卻偏偏與公主長得像多艇,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個(gè)殘疾皇子著蟹,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,627評論 2 350

推薦閱讀更多精彩內(nèi)容

  • 在接下來的分詞練習(xí)中將使用到四川大學(xué)公共管理學(xué)院的一篇新聞進(jìn)行練習(xí)墩蔓,文本如下: 為貫徹落實(shí)黨的十九大精神梢莽,不斷提升...
    nicokani閱讀 1,229評論 0 4
  • 接分詞練習(xí)1——分詞工具包 分詞效果嘗試 接下來我將體驗(yàn)NLPIR和jieba分詞的效果,其中奸披,NLPIR使用在線...
    駱落啊閱讀 697評論 0 1
  • jieba分詞昏名,學(xué)習(xí),為了全面了解該模塊阵面,轻局,預(yù)設(shè)學(xué)習(xí)路線:官方文檔——優(yōu)秀博客文章——實(shí)踐學(xué)習(xí) 官方文檔部分 (文...
    竹林徒兒閱讀 4,084評論 1 12
  • 使用ICTCLAS(NLPIR)在線分詞工具和jieba分詞組件進(jìn)行分詞練習(xí)。 一. ICTCLAS 1.簡介 漢...
    Carina_55閱讀 724評論 0 1
  • 作者:梅貳康 圖片來源:網(wǎng)絡(luò) 梅貳康:兒科藥師箕母,執(zhí)業(yè)藥師储藐,藥學(xué)碩士,藥物評論員嘶是,微博10萬媽媽關(guān)注钙勃,專注于安全用藥...
    原子?jì)屵?/span>閱讀 173評論 0 0