機(jī)器學(xué)習(xí)筆記-文本分類(二)jieba分詞

分詞就是詞語切分了渠驼,關(guān)于分詞的理論實(shí)現(xiàn)蜈块,以后再繼續(xù)學(xué)習(xí)。此處用python的jieba分詞工具直接分詞迷扇。

jieba分詞庫(kù)的安裝

本人用的是python3.6百揭,windows環(huán)境,直接在cmd命令窗口下輸入:

pip install jieba

發(fā)現(xiàn)自動(dòng)下載安裝:jieba-0.38信峻,這個(gè)版本對(duì)python2和python3都兼容。

jieba分詞在python中使用

支持三種分詞模式:

  • 精確模式瓮床,試圖將句子最精確地切開盹舞,適合文本分析;
  • 全模式隘庄,把句子中所有的可以成詞的詞語都掃描出來, 速度非程卟剑快,但是不能解決歧義丑掺;
  • 搜索引擎模式获印,在精確模式的基礎(chǔ)上,對(duì)長(zhǎng)詞再次切分街州,提高召回率兼丰,適合用于搜索引擎分詞玻孟。

分詞算法

  • 基于前綴詞典實(shí)現(xiàn)高效的詞圖掃描,生成句子中漢字所有可能成詞情況所構(gòu)成的有向無環(huán)圖 (DAG)
  • 采用了動(dòng)態(tài)規(guī)劃查找最大概率路徑, 找出基于詞頻的最大切分組合
  • 對(duì)于未登錄詞鳍征,采用了基于漢字成詞能力的 HMM 模型黍翎,使用了 Viterbi 算法

分詞實(shí)現(xiàn)

jieba.cut 方法有三個(gè)輸入?yún)?shù):

  • 分詞的字符串
  • cut_all 參數(shù)用來控制是否采用全模式
  • HMM參數(shù),是否使用HMM
    jieba.cut_for_sesarch 方法接受兩個(gè)參數(shù)
  • 分詞的字符串
  • 是否使用HMM

代碼實(shí)現(xiàn)艳丛,在python3環(huán)境下試了匣掸,沒問題

import jieba 

seg_list = jieba.cut("我來到北京清華大學(xué)", cut_all=True)
print("Full Mode: " + "/ ".join(seg_list))  # 全模式

seg_list = jieba.cut("我來到北京清華大學(xué)", cut_all=False)
print("Default Mode: " + "/ ".join(seg_list))  # 精確模式

seg_list = jieba.cut("他來到了網(wǎng)易杭研大廈")  # 默認(rèn)是精確模式
print(", ".join(seg_list))

seg_list = jieba.cut_for_search("小明碩士畢業(yè)于中國(guó)科學(xué)院計(jì)算所,后在日本京都大學(xué)深造")  # 搜索引擎模式
print(", ".join(seg_list))

上面的 "/ "氮双,“碰酝, ” 斜杠空格,逗號(hào)空格戴差,是分詞以此來分來送爸,結(jié)果如下

Paste_Image.png

分詞結(jié)果中,“杭州”一詞沒有在詞典中暖释,也被識(shí)別出來了

文檔中的分詞

文檔中分詞就是先讀文檔碱璃,然后再調(diào)用分詞,最后再保存了

import jieba
def readFile(path):
    with open(path,'r',errors='ignore') as file:
        content = file.read()
        return content
def saveFile(path,result,errors='ignore'):
    with open(path,'w') as file:
        file.write(result)

content = readFile("E:/test.txt")#調(diào)用上面函數(shù)讀取文件的內(nèi)容
result = (str(content)).replace("\r\n","").strip()#刪除多余空行與空格
cutResult = jieba.cut(result)#默認(rèn)方式分詞饭入,分詞結(jié)果用空格隔開
saveFile("E:/result"," ".join(cutResult))#調(diào)用上面函數(shù)保存到文件

參考文獻(xiàn)

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市肛真,隨后出現(xiàn)的幾起案子谐丢,更是在濱河造成了極大的恐慌,老刑警劉巖蚓让,帶你破解...
    沈念sama閱讀 207,113評(píng)論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件乾忱,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡历极,警方通過查閱死者的電腦和手機(jī)窄瘟,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,644評(píng)論 2 381
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來趟卸,“玉大人蹄葱,你說我怎么就攤上這事〕校” “怎么了图云?”我有些...
    開封第一講書人閱讀 153,340評(píng)論 0 344
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)邻邮。 經(jīng)常有香客問我竣况,道長(zhǎng),這世上最難降的妖魔是什么筒严? 我笑而不...
    開封第一講書人閱讀 55,449評(píng)論 1 279
  • 正文 為了忘掉前任丹泉,我火速辦了婚禮情萤,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘摹恨。我一直安慰自己筋岛,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,445評(píng)論 5 374
  • 文/花漫 我一把揭開白布睬塌。 她就那樣靜靜地躺著泉蝌,像睡著了一般。 火紅的嫁衣襯著肌膚如雪揩晴。 梳的紋絲不亂的頭發(fā)上勋陪,一...
    開封第一講書人閱讀 49,166評(píng)論 1 284
  • 那天,我揣著相機(jī)與錄音硫兰,去河邊找鬼诅愚。 笑死,一個(gè)胖子當(dāng)著我的面吹牛劫映,可吹牛的內(nèi)容都是我干的违孝。 我是一名探鬼主播,決...
    沈念sama閱讀 38,442評(píng)論 3 401
  • 文/蒼蘭香墨 我猛地睜開眼泳赋,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼雌桑!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起祖今,我...
    開封第一講書人閱讀 37,105評(píng)論 0 261
  • 序言:老撾萬榮一對(duì)情侶失蹤校坑,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后千诬,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體耍目,經(jīng)...
    沈念sama閱讀 43,601評(píng)論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,066評(píng)論 2 325
  • 正文 我和宋清朗相戀三年徐绑,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了邪驮。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 38,161評(píng)論 1 334
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡傲茄,死狀恐怖毅访,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情盘榨,我是刑警寧澤俺抽,帶...
    沈念sama閱讀 33,792評(píng)論 4 323
  • 正文 年R本政府宣布,位于F島的核電站,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏假消。R本人自食惡果不足惜红选,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,351評(píng)論 3 307
  • 文/蒙蒙 一弛饭、第九天 我趴在偏房一處隱蔽的房頂上張望冕末。 院中可真熱鬧,春花似錦侣颂、人聲如沸档桃。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,352評(píng)論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽藻肄。三九已至,卻和暖如春拒担,著一層夾襖步出監(jiān)牢的瞬間嘹屯,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,584評(píng)論 1 261
  • 我被黑心中介騙來泰國(guó)打工从撼, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留州弟,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 45,618評(píng)論 2 355
  • 正文 我出身青樓低零,卻偏偏與公主長(zhǎng)得像婆翔,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子掏婶,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,916評(píng)論 2 344

推薦閱讀更多精彩內(nèi)容

  • 關(guān)鍵詞:windows平臺(tái)下jieba安裝啃奴、三種模式比較、自定義詞典雄妥、停用詞語料纺腊、詞頻統(tǒng)計(jì)、詞云生成 jieba簡(jiǎn)...
    秋燈鎖憶閱讀 4,400評(píng)論 0 2
  • 1.安裝及入門介紹 推薦直接 pip install jieba 結(jié)巴中文分詞涉及到的算法包括: (1)基于Tri...
    MiracleJQ閱讀 13,233評(píng)論 0 5
  • 注:參考文檔 一茎芭、在線詞云圖工具# (1)、使用### 在正式使用jieba分詞之前誓沸,首先嘗試用在線分詞工具來將自...
    DearIreneLi閱讀 6,004評(píng)論 1 8
  • 代碼重簽名 簽名機(jī)制 iOS簽名需要用到codesign這個(gè)命令梅桩,了解這個(gè)命令的用法可以增加我們對(duì)簽名機(jī)制的了解 ...
    觀星閱讀 2,074評(píng)論 0 1
  • 對(duì)于一件事情不同的人會(huì)有不同的見解或者情緒,有人可能開心拜隧,有人可能憤怒宿百,有人可能激動(dòng),有人可能擔(dān)心洪添,有人可能無所謂...
    咩一閱讀 185評(píng)論 0 0