思維導(dǎo)圖
Q1:簡(jiǎn)要闡述分詞的三種模式及其區(qū)別。
1.分詞的三種模式
-
精確模式:試圖將句子最精確地切分開(kāi)虐急,適合文本分析
-
全模式:把句子中所有可以成詞的詞都掃描出來(lái)滔迈,速度非常快敬惦,但是不能解決歧義問(wèn)題
-
搜索引擎模式:在精確模式的基礎(chǔ)上谈山,對(duì)長(zhǎng)詞再次進(jìn)行切分,以提高召回率畴椰,適合搜素引擎分詞
2.使用jieba完成三種模式的分詞
-
代碼示例:
-
輸出結(jié)果:
3.三者的區(qū)別
-
精確模式:在分詞時(shí)會(huì)盡量選擇長(zhǎng)詞迅矛,如“上海大學(xué)”
-
搜索引擎模式:會(huì)針對(duì)精確模式結(jié)果中的長(zhǎng)詞再次進(jìn)行切分秽褒,如“上海大學(xué)”會(huì)被切分成“上海”“大學(xué)”“上海大學(xué)”三個(gè)詞
-
全模式:相比于搜索引擎模式的長(zhǎng)詞切分庐椒,它不依賴于精確模式的結(jié)果蚂踊,如“前往”和“上海大學(xué)”已經(jīng)切分出來(lái),但依然會(huì)輸出“往上”棱诱。
由于全模式分詞過(guò)于“暴力”涝动,因此醋粟,實(shí)際工作中,通常會(huì)選擇精確模式或者搜索引擎模式厦凤。
Q2:如何建立并使用自定義詞典和停用詞詞典育苟?
1.自定義詞典
-
有時(shí)需要根據(jù)需求將一些專(zhuān)有名詞切分出來(lái),例如“中國(guó)海洋大學(xué)”笨腥,這時(shí)可以構(gòu)建一個(gè)txt文件形式的自定義詞典勇垛。
-
使用python讀取自定義詞典:
2.停用詞詞典
-
很多語(yǔ)氣助詞或者人稱(chēng)代詞都不是工作中所關(guān)心的,在最終的結(jié)果中希望能夠?qū)⑵溥^(guò)濾掉,這時(shí)需要建立停用詞詞典
-
網(wǎng)絡(luò)上可以找到很多權(quán)威的中文停用詞詞典肥照,在此基礎(chǔ)上勤众,根據(jù)個(gè)人需要们颜,添加一些自定義的停用詞,建立自己的停用詞詞典
-
建立停用詞詞典:
-
使用python讀取停用詞詞典:
Q3:如何繪制多樣化的詞云努溃?
使用wordcloud包繪制詞云:一部電影的評(píng)論詞云
(1)導(dǎo)入包梧税、分詞
(2)利用自定義圖片繪制詞云
選用的圖片
(3)處理圖像第队,繪制詞云
(4)最終結(jié)果
參考文獻(xiàn)
1.《拿下Offer 數(shù)據(jù)分析師求職面試指南》徐麟 著