在本次分詞練習(xí)中,使用文本如下:
菊外人指不知道王菊是誰(shuí),也沒(méi)看過(guò)創(chuàng)造101,但是已經(jīng)被給王菊投票相關(guān)信息包圍的人
一 利用jieba進(jìn)行分詞練習(xí)
1.分詞
全模式
結(jié)果
全模式的分詞較為細(xì)致嘀趟,把前后能組詞的都進(jìn)行了組詞,例如“不知道”被分成了“不知”和“知道”愈诚。
精確模式
精確模式下的分詞結(jié)果較為準(zhǔn)確她按,但像“菊外人”這種專有名詞還是沒(méi)有被識(shí)別出來(lái)
搜索引擎模式
2.載入詞典
新建ju.txt文件,寫(xiě)入我自己自定義的詞典
結(jié)果為:
載入詞典后的分詞結(jié)果更為準(zhǔn)確
3.基于 TF-IDF 算法的關(guān)鍵詞抽取
4.詞性標(biāo)注
標(biāo)注句子分詞后每個(gè)詞的詞性炕柔,采用和 ictclas 兼容的標(biāo)記法酌泰。
二 pullword在線分詞
出詞概率閾值為0:
居然把“菊外人”也能分出來(lái),也是很厲害了
出詞概率閾值為1:只分出了5個(gè)詞
出詞概率閾值為0.5:有點(diǎn)像jieba的全模式的分詞結(jié)果
三 詞云
使用工具:圖悅
熱詞權(quán)重圖
熱詞詞頻圖
使用工具:紐扣詞云