Python 練習(xí)冊(cè) 6-統(tǒng)計(jì)文本文件中單詞的次數(shù)

Python 練習(xí)冊(cè)堰酿,每天一個(gè)小程序,原題來自Yixiaohan/show-me-the-code
我的代碼倉(cāng)庫(kù)在Github

目標(biāo)

你有一個(gè)目錄膜毁,放了你一個(gè)月的日記昭卓,都是 txt,為了避免分詞的問題瘟滨,假設(shè)內(nèi)容都是英文候醒,請(qǐng)統(tǒng)計(jì)出你認(rèn)為每篇日記最重要的詞。

解決方案

該題目代碼如下:

#!/usr/bin/env python3
# -*- coding: utf-8 -*-

"""
你有一個(gè)目錄杂瘸,放了你一個(gè)月的日記倒淫,都是 txt,為了避免分詞的問題败玉,假設(shè)內(nèi)容都是英文敌土,請(qǐng)統(tǒng)計(jì)出你認(rèn)為每篇日記最重要的詞。
"""

import os
import re


def get_file_list(path):
    """
        遍歷文件目錄运翼,返回文件路徑列表
    """
    file_list = []
    for root, dirs, files in os.walk(path):
        for file in files:
            if file.lower().endswith('txt'):
                file_list.append(os.path.join(root,file))
    return file_list


def find_keyword(file_path):
    """
    根據(jù)文件路徑返干,找到文件中的關(guān)鍵字
    :param file_path:
    :return:
    """
    keywords = {}
    file_name = os.path.basename(file_path)
    with open(file_path, encoding='utf-8') as file:
        text = file.read()
        word_list = re.findall(r'[a-zA-Z]+', text.lower())
        for word in word_list:
            if word in keywords:
                keywords[word] += 1
            else:
                keywords[word] = 1
        keywords_sorted = sorted(keywords.items(), key=lambda d: d[1])
    return file_name, keywords_sorted

for path in get_file_list(os.getcwd()):
    name, results = find_keyword(path)
    print(u"在 %s 文件中,%s 為關(guān)鍵詞血淌,共出現(xiàn)了 %s 次" % (name, results[-1][0], results[-1][1]))
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末矩欠,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子悠夯,更是在濱河造成了極大的恐慌癌淮,老刑警劉巖,帶你破解...
    沈念sama閱讀 217,185評(píng)論 6 503
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件沦补,死亡現(xiàn)場(chǎng)離奇詭異乳蓄,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)夕膀,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,652評(píng)論 3 393
  • 文/潘曉璐 我一進(jìn)店門栓袖,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人店诗,你說我怎么就攤上這事裹刮。” “怎么了庞瘸?”我有些...
    開封第一講書人閱讀 163,524評(píng)論 0 353
  • 文/不壞的土叔 我叫張陵捧弃,是天一觀的道長(zhǎng)。 經(jīng)常有香客問我,道長(zhǎng)违霞,這世上最難降的妖魔是什么嘴办? 我笑而不...
    開封第一講書人閱讀 58,339評(píng)論 1 293
  • 正文 為了忘掉前任,我火速辦了婚禮买鸽,結(jié)果婚禮上涧郊,老公的妹妹穿的比我還像新娘。我一直安慰自己眼五,他們只是感情好妆艘,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,387評(píng)論 6 391
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著看幼,像睡著了一般批旺。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上诵姜,一...
    開封第一講書人閱讀 51,287評(píng)論 1 301
  • 那天汽煮,我揣著相機(jī)與錄音,去河邊找鬼棚唆。 笑死暇赤,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的宵凌。 我是一名探鬼主播翎卓,決...
    沈念sama閱讀 40,130評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼摆寄!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起坯门,我...
    開封第一講書人閱讀 38,985評(píng)論 0 275
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤微饥,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后古戴,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體欠橘,經(jīng)...
    沈念sama閱讀 45,420評(píng)論 1 313
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,617評(píng)論 3 334
  • 正文 我和宋清朗相戀三年现恼,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了肃续。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 39,779評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡叉袍,死狀恐怖始锚,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情喳逛,我是刑警寧澤瞧捌,帶...
    沈念sama閱讀 35,477評(píng)論 5 345
  • 正文 年R本政府宣布,位于F島的核電站,受9級(jí)特大地震影響姐呐,放射性物質(zhì)發(fā)生泄漏殿怜。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,088評(píng)論 3 328
  • 文/蒙蒙 一曙砂、第九天 我趴在偏房一處隱蔽的房頂上張望头谜。 院中可真熱鬧,春花似錦鸠澈、人聲如沸柱告。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,716評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)末荐。三九已至,卻和暖如春新锈,著一層夾襖步出監(jiān)牢的瞬間甲脏,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 32,857評(píng)論 1 269
  • 我被黑心中介騙來泰國(guó)打工妹笆, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留块请,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 47,876評(píng)論 2 370
  • 正文 我出身青樓拳缠,卻偏偏與公主長(zhǎng)得像墩新,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子窟坐,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,700評(píng)論 2 354

推薦閱讀更多精彩內(nèi)容