作為我這樣的萌新,python代碼的第一步是:#coding=utf-8
環(huán)境:python3.5+jieba0.39
一拓萌、jieba包安裝方法:
方法1:使用conda安裝 conda install jieba
(首先使用conda search jieba
查看遠(yuǎn)程倉庫有沒有jieba資源留凭,有的話就方法一安裝佃扼,沒有用方法二 ,原則是優(yōu)先使用conda蔼夜,其次選用pip)
方法2:使用pip安裝 pip install jieba
二兼耀、jieba使用方法
實(shí)現(xiàn)的代碼用到open()函數(shù),以下是open()函數(shù)的第二個(gè)參數(shù)求冷,其參數(shù)解釋如下:
r 以只讀方式打開文件瘤运。文件的指針將會(huì)放在文件的開頭。這是默認(rèn)模式匠题。
rb 以二進(jìn)制格式打開一個(gè)文件用于只讀拯坟。文件指針將會(huì)放在文件的開頭。這是默認(rèn)模式韭山。
r+ 打開一個(gè)文件用于讀寫郁季。文件指針將會(huì)放在文件的開頭冷溃。
rb+ 以二進(jìn)制格式打開一個(gè)文件用于讀寫。文件指針將會(huì)放在文件的開頭梦裂。
w 打開一個(gè)文件只用于寫入似枕。如果該文件已存在則將其覆蓋。如果該文件不存在年柠,創(chuàng)建新文件凿歼。
wb 以二進(jìn)制格式打開一個(gè)文件只用于寫入。如果該文件已存在則將其覆蓋冗恨。如果該文件不存在毅往,創(chuàng)建新文件。
w+ 打開一個(gè)文件用于讀寫派近。如果該文件已存在則將其覆蓋攀唯。如果該文件不存在,創(chuàng)建新文件渴丸。
wb+ 以二進(jìn)制格式打開一個(gè)文件用于讀寫侯嘀。如果該文件已存在則將其覆蓋。如果該文件不存在谱轨,創(chuàng)建新文件戒幔。
a 打開一個(gè)文件用于追加。如果該文件已存在土童,文件指針將會(huì)放在文件的結(jié)尾诗茎。也就是說,新的內(nèi)容將會(huì)被寫入到已有內(nèi)容之后献汗。如果該文件不存在敢订,創(chuàng)建新文件進(jìn)行寫入。
ab 以二進(jìn)制格式打開一個(gè)文件用于追加罢吃。如果該文件已存在楚午,文件指針將會(huì)放在文件的結(jié)尾。也就是說尿招,新的內(nèi)容將會(huì)被寫入到已有內(nèi)容之后矾柜。如果該文件不存在,創(chuàng)建新文件進(jìn)行寫入就谜。
a+ 打開一個(gè)文件用于讀寫怪蔑。如果該文件已存在,文件指針將會(huì)放在文件的結(jié)尾丧荐。文件打開時(shí)會(huì)是追加模式缆瓣。如果該文件不存在,創(chuàng)建新文件用于讀寫篮奄。
ab+ 以二進(jìn)制格式打開一個(gè)文件用于追加捆愁。如果該文件已存在,文件指針將會(huì)放在文件的結(jié)尾窟却。如果該文件不存在昼丑,創(chuàng)建新文件用于讀寫。
下面代碼實(shí)現(xiàn)讀取txt文件(test.txt)內(nèi)容夸赫,利用jieba實(shí)現(xiàn)分詞并將分詞結(jié)果寫到一個(gè)新的txt文件(result.txt):
#coding=utf-8
import jieba
import jieba.posseg as pseg
fileNeedCut = 'G:/experiment/jieba/test.txt'
fileName = 'G:/experiment/jieba/result.txt'
fn = open(fileNeedCut, "r", encoding="utf-8")
f = open(fileName, "w+", encoding="utf-8")
for line in fn.readlines():
#words = pseg.cut(line) #帶分詞的詞性
words = jieba.cut_for_search(line) #只是分詞,不帶詞性
for w in words:
print(w, file=f)
f.close()
fn.close()
三菩帝、分詞結(jié)果
分詞前文件內(nèi)容:
大會(huì)的主題是:不忘初心,牢記使命
分詞后的內(nèi)容:
大會(huì)
的
主題
是
:
不忘
初心
茬腿,
牢記
使命
注:使用words = pseg.cut(line)
可在每個(gè)分詞后面添加詞性標(biāo)注