用python分析之前爬的BBS中水吧帖子的詞頻

中文分詞效果好用又簡單的包弃甥,我認(rèn)為就是jieba了湿硝。
主要功能

1. 分詞

jieba.cut方法

接受三個輸入?yún)?shù): 需要分詞的字符串挺份;cut_all 參數(shù)用來控制是否采用全模式娘香;HMM 參數(shù)用來控制是否使用 HMM 模型

jieba.cut_for_search方法

接受兩個參數(shù):需要分詞的字符串萝勤;是否使用 HMM 模型。該方法適合用于搜索引擎構(gòu)建倒排索引的分詞耻涛,粒度比較細(xì)
待分詞的字符串可以是 unicode 或 UTF-8 字符串废酷、GBK 字符串瘟檩。注意:不建議直接輸入 GBK 字符串,可能無法預(yù)料地錯誤解碼成 UTF-8

jieba.cut以及jieba.cut_for_search

返回的結(jié)構(gòu)都是一個可迭代的 generator澈蟆,可以使用 for 循環(huán)來獲得分詞后得到的每一個詞語(unicode)墨辛,或者用jieba.lcut以及jieba.lcut_for_search直接返回 list

jieba.Tokenizer(dictionary=DEFAULT_DICT)

新建自定義分詞器,可用于同時使用不同詞典趴俘。jieba.dt
為默認(rèn)分詞器睹簇,所有全局分詞相關(guān)函數(shù)都是該分詞器的映射。

代碼示例
#encoding=utf-8
import jiebaseg_list = jieba.cut("我來到北京清華大學(xué)", cut_all=True)
print("Full Mode: " + "/ ".join(seg_list))  # 全模式
seg_list = jieba.cut("我來到北京清華大學(xué)", cut_all=False)
print("Default Mode: " + "/ ".join(seg_list)) # 精確模式
seg_list = jieba.cut("他來到了網(wǎng)易杭研大廈") # 默認(rèn)是精確模式
print(", ".join(seg_list))
seg_list = jieba.cut_for_search("小明碩士畢業(yè)于中國科學(xué)院計算所寥闪,后在日本京都大學(xué)深造") # 搜索引擎模式
print(", ".join(seg_list))
輸出:

【全模式】: 我/ 來到/ 北京/ 清華/ 清華大學(xué)/ 華大/ 大學(xué)
【精確模式】: 我/ 來到/ 北京/ 清華大學(xué)
【新詞識別】:他, 來到, 了, 網(wǎng)易, 杭研, 大廈 (此處太惠,“杭研”并沒有在詞典中,但是也被Viterbi算法識別出來了)
【搜索引擎模式】: 小明, 碩士, 畢業(yè), 于, 中國, 科學(xué), 學(xué)院, 科學(xué)院, 中國科學(xué)院, 計算, 計算所, 后, 在, 日本, 京都, 大學(xué),

#分析云麓園BBS水吧文本,生成詞頻統(tǒng)計(單詞和單詞的頻次)
import jieba
import time

path = r'E:\Python\Projects\Dig_text\云麓園\云麓水吧.txt'
read_txt = open(path, 'r')
ShuiBa_word_list = []  # 匯總水吧的所有詞語的列表(有順序疲憋,重復(fù))
ShuiBa_word_set = set() # 得到水吧所有詞語的集合(無順序凿渊,不重復(fù))
for line in read_txt.readlines():
    line = line.replace(' ', '')
    line = line.strip('\n')
    word_list = jieba.lcut(line, cut_all=False)  #cut_all=false精準(zhǔn)模式
    word_set = set(word_list)
    
    ShuiBa_word_list = ShuiBa_word_list + word_list 
    ShuiBa_word_set = ShuiBa_word_set.union(word_set)


for word in ShuiBa_word_set:
    fre = ShuiBa_word_list.count(word)
    print(word, str(fre))  #打印詞語及其頻率

最后附上我的源代碼,水吧帖子文件和分析后的結(jié)果鏈接:
https://pan.baidu.com/s/1eSc94kU 密碼: 9rch

微信公眾號:大鄧帶你玩轉(zhuǎn)python

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末柜某,一起剝皮案震驚了整個濱河市嗽元,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌喂击,老刑警劉巖,帶你破解...
    沈念sama閱讀 221,888評論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件淤翔,死亡現(xiàn)場離奇詭異翰绊,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)旁壮,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,677評論 3 399
  • 文/潘曉璐 我一進(jìn)店門监嗜,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人抡谐,你說我怎么就攤上這事裁奇。” “怎么了麦撵?”我有些...
    開封第一講書人閱讀 168,386評論 0 360
  • 文/不壞的土叔 我叫張陵刽肠,是天一觀的道長。 經(jīng)常有香客問我免胃,道長音五,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 59,726評論 1 297
  • 正文 為了忘掉前任羔沙,我火速辦了婚禮躺涝,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘扼雏。我一直安慰自己坚嗜,他們只是感情好夯膀,可當(dāng)我...
    茶點故事閱讀 68,729評論 6 397
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著苍蔬,像睡著了一般棍郎。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上银室,一...
    開封第一講書人閱讀 52,337評論 1 310
  • 那天涂佃,我揣著相機(jī)與錄音,去河邊找鬼蜈敢。 笑死辜荠,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的抓狭。 我是一名探鬼主播伯病,決...
    沈念sama閱讀 40,902評論 3 421
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼否过!你這毒婦竟也來了午笛?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,807評論 0 276
  • 序言:老撾萬榮一對情侶失蹤苗桂,失蹤者是張志新(化名)和其女友劉穎药磺,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體煤伟,經(jīng)...
    沈念sama閱讀 46,349評論 1 318
  • 正文 獨居荒郊野嶺守林人離奇死亡癌佩,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 38,439評論 3 340
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了便锨。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片围辙。...
    茶點故事閱讀 40,567評論 1 352
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖放案,靈堂內(nèi)的尸體忽然破棺而出姚建,到底是詐尸還是另有隱情,我是刑警寧澤吱殉,帶...
    沈念sama閱讀 36,242評論 5 350
  • 正文 年R本政府宣布掸冤,位于F島的核電站,受9級特大地震影響考婴,放射性物質(zhì)發(fā)生泄漏贩虾。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 41,933評論 3 334
  • 文/蒙蒙 一沥阱、第九天 我趴在偏房一處隱蔽的房頂上張望缎罢。 院中可真熱鬧,春花似錦、人聲如沸策精。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,420評論 0 24
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽咽袜。三九已至丸卷,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間询刹,已是汗流浹背谜嫉。 一陣腳步聲響...
    開封第一講書人閱讀 33,531評論 1 272
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留凹联,地道東北人沐兰。 一個月前我還...
    沈念sama閱讀 48,995評論 3 377
  • 正文 我出身青樓,卻偏偏與公主長得像蔽挠,于是被迫代替她去往敵國和親住闯。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 45,585評論 2 359

推薦閱讀更多精彩內(nèi)容

  • 1.安裝及入門介紹 推薦直接 pip install jieba 結(jié)巴中文分詞涉及到的算法包括: (1)基于Tri...
    MiracleJQ閱讀 13,254評論 0 5
  • 目錄 1.jieba下載安裝 2.算法實現(xiàn) 3.分詞功能 1.jieba下載安裝 Jieba是一個中文分詞組件澳淑,...
    云上小白鴿閱讀 4,375評論 0 2
  • 常用概念: 自然語言處理(NLP) 數(shù)據(jù)挖掘 推薦算法 用戶畫像 知識圖譜 信息檢索 文本分類 常用技術(shù): 詞級別...
    御風(fēng)之星閱讀 9,202評論 1 25
  • 昨天比原,做的那個數(shù)據(jù)分析報告用到了jieba分詞。但是只是借用了別人的部分代碼杠巡。具體函數(shù)代表什么還不太明白量窘。今天去官...
    Wang華子閱讀 1,839評論 0 1
  • 檐下蹲,灰土相忽孽, 咽粗食绑改,吐瓊漿。 右搡左推腳樁穩(wěn)兄一, 風(fēng)吹雨打脊柱剛。 饑寒歲月幫農(nóng)友识腿, 飽暖時節(jié)守故鄉(xiāng)出革。 終生擁...
    湘水碧波閱讀 1,028評論 2 1