Python中簡(jiǎn)單的詞頻統(tǒng)計(jì)

用的是ipython notebook
1.框架是打開(kāi)文件，寫(xiě)入文件

for line in open(in_file):
    continue
out = open(out_file, 'w')
out.write()```
2.簡(jiǎn)單的統(tǒng)計(jì)詞頻大致模板

def count(in_file,out_file):
#讀取文件并統(tǒng)計(jì)詞頻
word_count={}#統(tǒng)計(jì)詞頻的字典
for line in open(in_file):
words = line.strip().split(" ")
for word in words:
if word in word_count:
word_count[word]+=1
else:
word_count[word]=1
out = open(out_file,'w')#打開(kāi)一個(gè)文件
for word in word_count:
print word,word_count[word]#輸出字典的key值和value值
out.write(word+"--"+str(word_count[word])+"\n")#寫(xiě)入文件
out.close()
count(in_file,out_file)```
一段很長(zhǎng)的英文文本窗骑，此代碼都是用split(" ")空格區(qū)分一個(gè)單詞但惶，顯然是不合格的比如： "I will endeavor," said he,那么"I 和he,等等會(huì)被看成一個(gè)詞耳鸯，此段代碼就是告訴你基本的統(tǒng)計(jì)詞頻思路湿蛔。看如下一道題
1.在網(wǎng)上摘錄一段英文文本(盡量長(zhǎng)一些)县爬，粘貼到input.txt阳啥，統(tǒng)計(jì)其中每個(gè)單詞的詞頻(出現(xiàn)的次數(shù))，并按照詞頻的順序?qū)懭雘ut.txt文件财喳，每一行的內(nèi)容為“單詞:頻次”
用的模板

#統(tǒng)計(jì)詞頻察迟，按詞頻順序?qū)懭胛募?in_file = 'input_word.txt'
out_file = 'output_word.txt'
def count_word(in_file,out_file):
    word_count={}#統(tǒng)計(jì)詞頻的字典
    for line in open(in_file):
        words = line.strip().split(" ")
        for word in words:
            if word in word_count:
                word_count[word]+=1
            else:
                word_count[word]=1
    out = open(out_file,'w')
    for word in sorted(word_count.keys()):#按詞頻的順序遍歷字典的每個(gè)元素
        print word,word_count[word]
        out.write('%s:%d' % (word, word_count.get(word)))
        out.write('\n')
    out.close()
count_word(in_file,out_file)```
正則表達(dá)式的方法

import re
f = open('input_word.txt')
words = {}
rc = re.compile('\w+')
for l in f:
w_l = rc.findall(l)
for w in w_l:
if words.has_key(w):
words[w] += 1
else:
words[w] = 1
f.close()

f = open('out.txt', 'w')
for k in sorted(words.keys()):
print k,words[k]
f.write('%s:%d' % (k, words.get(k)))
f.write('\n')
f.close()```

最后編輯于：2017.12.06 15:20:19

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個(gè)濱河市耳高，隨后出現(xiàn)的幾起案子卷拘，更是在濱河造成了極大的恐慌，老刑警劉巖祝高，帶你破解...
沈念sama閱讀 221,273評(píng)論 6贊 515
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件栗弟，死亡現(xiàn)場(chǎng)離奇詭異，居然都是意外死亡工闺，警方通過(guò)查閱死者的電腦和手機(jī)乍赫，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 94,349評(píng)論 3贊 398
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門(mén)，熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)陆蟆，“玉大人雷厂，你說(shuō)我怎么就攤上這事〉螅” “怎么了改鲫？”我有些...
開(kāi)封第一講書(shū)人閱讀 167,709評(píng)論 0贊 360
道士緝兇錄：失蹤的賣(mài)姜人
文/不壞的土叔我叫張陵，是天一觀的道長(zhǎng)林束。經(jīng)常有香客問(wèn)我像棘，道長(zhǎng)，這世上最難降的妖魔是什么壶冒？我笑而不...
開(kāi)封第一講書(shū)人閱讀 59,520評(píng)論 1贊 296
?港島之戀（遺憾婚禮）
正文為了忘掉前任缕题，我火速辦了婚禮，結(jié)果婚禮上胖腾，老公的妹妹穿的比我還像新娘烟零。我一直安慰自己，他們只是感情好咸作，可當(dāng)我...
茶點(diǎn)故事閱讀 68,515評(píng)論 6贊 397
惡毒庶女頂嫁案：這布局不是一般人想出來(lái)的
文/花漫我一把揭開(kāi)白布锨阿。她就那樣靜靜地躺著，像睡著了一般记罚。火紅的嫁衣襯著肌膚如雪墅诡。梳的紋絲不亂的頭發(fā)上，一...
開(kāi)封第一講書(shū)人閱讀 52,158評(píng)論 1贊 308
城市分裂傳說(shuō)
那天毫胜，我揣著相機(jī)與錄音书斜，去河邊找鬼诬辈。笑死，一個(gè)胖子當(dāng)著我的面吹牛荐吉，可吹牛的內(nèi)容都是我干的焙糟。我是一名探鬼主播，決...
沈念sama閱讀 40,755評(píng)論 3贊 421
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開(kāi)眼样屠，長(zhǎng)吁一口氣：“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼穿撮！你這毒婦竟也來(lái)了？” 一聲冷哼從身側(cè)響起痪欲，我...
開(kāi)封第一講書(shū)人閱讀 39,660評(píng)論 0贊 276
萬(wàn)榮殺人案實(shí)錄
序言：老撾萬(wàn)榮一對(duì)情侶失蹤悦穿，失蹤者是張志新（化名）和其女友劉穎，沒(méi)想到半個(gè)月后业踢，有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體栗柒，經(jīng)...
沈念sama閱讀 46,203評(píng)論 1贊 319
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 38,287評(píng)論 3贊 340
?白月光啟示錄
正文我和宋清朗相戀三年知举，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了瞬沦。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點(diǎn)故事閱讀 40,427評(píng)論 1贊 352
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡雇锡，死狀恐怖逛钻，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情锰提，我是刑警寧澤曙痘，帶...
沈念sama閱讀 36,122評(píng)論 5贊 349
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站立肘，受9級(jí)特大地震影響边坤，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜赛不，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,801評(píng)論 3贊 333
男人毒藥：我在死后第九天來(lái)索命
文/蒙蒙一惩嘉、第九天我趴在偏房一處隱蔽的房頂上張望罢洲。院中可真熱鬧踢故，春花似錦、人聲如沸惹苗。這莊子的主人今日做“春日...
開(kāi)封第一講書(shū)人閱讀 32,272評(píng)論 0贊 23
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)桩蓉。三九已至淋纲，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間院究，已是汗流浹背洽瞬。一陣腳步聲響...
開(kāi)封第一講書(shū)人閱讀 33,393評(píng)論 1贊 272
情欲美人皮
我被黑心中介騙來(lái)泰國(guó)打工本涕，沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留，地道東北人伙窃。一個(gè)月前我還...
沈念sama閱讀 48,808評(píng)論 3贊 376
代替公主和親
正文我出身青樓菩颖，卻偏偏與公主長(zhǎng)得像，于是被迫代替她去往敵國(guó)和親为障。傳聞我的和親對(duì)象是個(gè)殘疾皇子晦闰，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 45,440評(píng)論 2贊 359

Python中簡(jiǎn)單的詞頻統(tǒng)計(jì)

推薦閱讀更多精彩內(nèi)容