[Python3]洗數(shù)據(jù)新手向教程Ⅰ:用自帶函數(shù)對(duì)文本進(jìn)行加工

此教程包含如何對(duì)文檔進(jìn)行簡(jiǎn)單的數(shù)據(jù)采集和存儲(chǔ)。

基礎(chǔ)知識(shí)儲(chǔ)備

String & List & Dictionary & Tuple 相關(guān)函數(shù)
File IO 相關(guān)函數(shù)
詳見(jiàn)我的另一篇簡(jiǎn)書(shū)：
Python for Informatics(File&String&List&Dictionary&Tuple)

項(xiàng)目示例

讀取外部文檔怠晴，摳出confidence值牍蜂，計(jì)算平均值（習(xí)題來(lái)自《Python for Informatics》)

from urllib.request import urlopen

file_url = 'http://www.py4inf.com/code/mbox-short.txt'
file_list = urlopen(file_url)
conf_list = []

for line in file_list:
    line = str(line, 'utf-8') #注意類(lèi)型轉(zhuǎn)換，urlopen()得到的是byte形式
    sign = "X-DSPAM-Confidence: "
    if line.startswith(sign): #防止混進(jìn)非目標(biāo)行的數(shù)據(jù)
        start = line.find(sign)+len(sign)
        end = line.find(' ',start)
        confidence = line[start: end]
        print(confidence)
        conf_list.append(float(confidence))

sum = 0
num = 0
for conf in conf_list:
    sum += conf
    num +=1

print("Average spam condifence: "+str(sum/num))

讀取外部文檔，收集所有單詞（不重復(fù)）并儲(chǔ)存在list中霎烙，按字母順序排列（習(xí)題來(lái)自《Python for Informatics》)

from urllib.request import urlopen

url = "http://www.py4inf.com/code/romeo.txt"
url_file = urlopen(url)
words = []

for line in url_file:
    line = str(line,'utf-8')
    temp_words = line.split()
    for word in temp_words:
        if word not in words:
            words.append(word)

words.sort()
print(words)

統(tǒng)計(jì)文本中前十高頻詞（習(xí)題來(lái)自《Python for Informatics》)

import string
fhand = open('text.txt')
words = dict()

for line in fhand:
    line = str(line)
    table = str.maketrans(' ',' ',string.punctuation)
    line.translate(table) #剝?nèi)ニ袠?biāo)點(diǎn)，記得Import string(python3中,translate()函數(shù)只有一個(gè)argument)
    line.lower()
    word_list = line.split()
    for word in word_list:
        if word not in words:
            words[word] =1
        else:
            words[word]+=1

words_cooked = list()

for key,value in words.items():
    words_cooked.append((value,key))

words_cooked.sort(reverse= True)

for key, value in words_cooked[:10]:
    print(key,value)

最后編輯于：2018.02.21 17:03:48

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個(gè)濱河市吼过，隨后出現(xiàn)的幾起案子锐秦，更是在濱河造成了極大的恐慌，老刑警劉巖盗忱，帶你破解...
沈念sama閱讀 218,546評(píng)論 6贊 507
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件酱床，死亡現(xiàn)場(chǎng)離奇詭異，居然都是意外死亡趟佃，警方通過(guò)查閱死者的電腦和手機(jī)扇谣，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 93,224評(píng)論 3贊 395
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門(mén)，熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)闲昭，“玉大人罐寨，你說(shuō)我怎么就攤上這事⌒蚓兀” “怎么了鸯绿？”我有些...
開(kāi)封第一講書(shū)人閱讀 164,911評(píng)論 0贊 354
道士緝兇錄：失蹤的賣(mài)姜人
文/不壞的土叔我叫張陵，是天一觀的道長(zhǎng)簸淀。經(jīng)常有香客問(wèn)我瓶蝴，道長(zhǎng)，這世上最難降的妖魔是什么租幕？我笑而不...
開(kāi)封第一講書(shū)人閱讀 58,737評(píng)論 1贊 294
?港島之戀（遺憾婚禮）
正文為了忘掉前任舷手，我火速辦了婚禮，結(jié)果婚禮上劲绪，老公的妹妹穿的比我還像新娘男窟。我一直安慰自己，他們只是感情好贾富，可當(dāng)我...
茶點(diǎn)故事閱讀 67,753評(píng)論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來(lái)的
文/花漫我一把揭開(kāi)白布歉眷。她就那樣靜靜地躺著，像睡著了一般祷安。火紅的嫁衣襯著肌膚如雪姥芥。梳的紋絲不亂的頭發(fā)上，一...
開(kāi)封第一講書(shū)人閱讀 51,598評(píng)論 1贊 305
城市分裂傳說(shuō)
那天汇鞭，我揣著相機(jī)與錄音，去河邊找鬼庸追。笑死霍骄，一個(gè)胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的淡溯。我是一名探鬼主播读整，決...
沈念sama閱讀 40,338評(píng)論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開(kāi)眼，長(zhǎng)吁一口氣：“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼咱娶！你這毒婦竟也來(lái)了米间？” 一聲冷哼從身側(cè)響起强品，我...
開(kāi)封第一講書(shū)人閱讀 39,249評(píng)論 0贊 276
萬(wàn)榮殺人案實(shí)錄
序言：老撾萬(wàn)榮一對(duì)情侶失蹤，失蹤者是張志新（化名）和其女友劉穎屈糊，沒(méi)想到半個(gè)月后的榛，有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 45,696評(píng)論 1贊 314
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡逻锐，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,888評(píng)論 3贊 336
?白月光啟示錄
正文我和宋清朗相戀三年夫晌，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片昧诱。...
茶點(diǎn)故事閱讀 40,013評(píng)論 1贊 348
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡晓淀，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出盏档，到底是詐尸還是另有隱情凶掰，我是刑警寧澤，帶...
沈念sama閱讀 35,731評(píng)論 5贊 346
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布蜈亩，位于F島的核電站锄俄，受9級(jí)特大地震影響，放射性物質(zhì)發(fā)生泄漏勺拣。R本人自食惡果不足惜奶赠，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,348評(píng)論 3贊 330
男人毒藥：我在死后第九天來(lái)索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望药有。院中可真熱鬧毅戈，春花似錦、人聲如沸愤惰。這莊子的主人今日做“春日...
開(kāi)封第一講書(shū)人閱讀 31,929評(píng)論 0贊 22
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)宦言。三九已至扇单，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間奠旺，已是汗流浹背蜘澜。一陣腳步聲響...
開(kāi)封第一講書(shū)人閱讀 33,048評(píng)論 1贊 270
情欲美人皮
我被黑心中介騙來(lái)泰國(guó)打工，沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留响疚，地道東北人鄙信。一個(gè)月前我還...
沈念sama閱讀 48,203評(píng)論 3贊 370
代替公主和親
正文我出身青樓，卻偏偏與公主長(zhǎng)得像忿晕，于是被迫代替她去往敵國(guó)和親装诡。傳聞我的和親對(duì)象是個(gè)殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 44,960評(píng)論 2贊 355

[Python3]洗數(shù)據(jù)新手向教程Ⅰ:用自帶函數(shù)對(duì)文本進(jìn)行加工

基礎(chǔ)知識(shí)儲(chǔ)備

項(xiàng)目示例

推薦閱讀更多精彩內(nèi)容