Python 如何處理大文件

Python作為一門程序設(shè)計(jì)語言身弊,在易讀熄捍、易維護(hù)方面有獨(dú)特優(yōu)勢(shì)雾狈,越來越多的人使用 Python 進(jìn)行數(shù)據(jù)分析和處理廓潜,而 Pandas 正是為了解決數(shù)據(jù)分析任務(wù)而創(chuàng)建的,其包含大量能便捷處理數(shù)據(jù)的函數(shù)和方法善榛,使得數(shù)據(jù)處理變得容易辩蛋,它也是使 Python 成為強(qiáng)大而高效的數(shù)據(jù)分析環(huán)境的重要因素之一。

但是 Pandas 是個(gè)內(nèi)存的類庫移盆,用于處理小數(shù)據(jù)(能放入內(nèi)存)沒問題悼院,對(duì)于大數(shù)據(jù)(內(nèi)存放不下)就沒有那么方便了。而我們平時(shí)工作中卻能經(jīng)常碰到這種較大的文件(從數(shù)據(jù)庫或網(wǎng)站下載出來的數(shù)據(jù))味滞,Pandas 無能為力樱蛤,我們就只能自己想辦法,本文就來討論這個(gè)問題剑鞍。

本文所說的大數(shù)據(jù),并不是那種 TB爽醋、PB 級(jí)別的需要分布式處理的大數(shù)據(jù)蚁署,而是指普通 PC 機(jī)內(nèi)存放不下,但可以存在硬盤內(nèi)的 GB 級(jí)別的文件數(shù)據(jù)蚂四,這也是很常見的情況光戈。

由于此類文件不可以一次性讀入內(nèi)存哪痰,所以在數(shù)據(jù)處理的時(shí)候,通常需要采用逐行或者分塊讀取的方式進(jìn)行處理久妆,雖然 Python 和 pandas 在讀取文件時(shí)支持這種方式晌杰,但因?yàn)闆]有游標(biāo)系統(tǒng),使得一些函數(shù)和方法需要分段使用或者函數(shù)和方法本身都需要自己寫代碼來完成筷弦,下面我們就最常見的幾類問題來進(jìn)行介紹肋演,并寫出代碼示例供讀者參考和感受。

一烂琴、??? 聚合

簡單聚合只要遍歷一遍數(shù)據(jù)爹殊,按照聚合目標(biāo)將聚合列計(jì)算一遍即可。如:求和(sum)奸绷,遍歷數(shù)據(jù)時(shí)對(duì)讀取的數(shù)據(jù)進(jìn)行累加梗夸;計(jì)數(shù)(count),遍歷數(shù)據(jù)時(shí)号醉,記錄遍歷數(shù)即可反症;平均(mean),遍歷時(shí)同時(shí)記錄累計(jì)和和遍歷數(shù)畔派,最后相除即可铅碍。這里以求和問題為例進(jìn)行介紹。

設(shè)有如下文件父虑,數(shù)據(jù)片段如下:

現(xiàn)在需要計(jì)算銷售總額(amount 列)

(一)逐行讀取

total=0

with open("orders.txt",'r') ? as f:? ? ? ? ? ? ? ? ? ? ? ? ? ?打開文件

??? ? line=f.readline()? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??標(biāo)題行

??? ? while True:

??????? line = f.readline()? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?逐行讀入

??????? if not line:? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?讀不到內(nèi)容時(shí)結(jié)束

??????????? break

??????? total += ? float(line.split("\t")[4])? ? ? ? ? ? ? ? ? ??累加

print(total)

(二)pandas分塊讀取

使用 pandas 可以分塊讀取了该酗,工作邏輯結(jié)構(gòu)如下圖:

import pandas as pd

chunk_data = ? pd.read_csv("orders.txt",sep="\t",chunksize=100000)? ? ? ?/分段讀取文件,每段 10 萬行

total=0

for chunk in chunk_data:

??? ? total+=chunk['amount'].sum()? ? ? ? ? ? ? ? /累加各段的銷售額? ? ? ? ? ? ? ? ? ? ? ??

print(total)

pandas更擅長以大段讀取的方式進(jìn)行計(jì)算士嚎,理論上 chunksize 越大呜魄,計(jì)算速度越快,但要注意內(nèi)存的限制莱衩。如果 chunksize 設(shè)置成 1爵嗅,就成了逐行讀取,速度會(huì)非常非常慢笨蚁,因此不建議使用 pandas 逐行讀取文件來完成此類任務(wù)睹晒。

二、??? 過濾

過濾流程圖:

過濾和聚合差不多括细,將大文件分成 n 段伪很,對(duì)各段進(jìn)行過濾,最后將每一段的結(jié)果進(jìn)行合并即可奋单。

繼續(xù)以上面數(shù)據(jù)為例锉试,過濾出紐約州的銷售信息

(一)小結(jié)果集

(二)大結(jié)果集

大文件聚合和過濾運(yùn)算的邏輯相對(duì)簡單,但因?yàn)?Python 沒有直接提供游標(biāo)數(shù)據(jù)類型览濒,代碼也要寫很多行呆盖。

三拖云、??? 排序

排序流程圖:

排序要麻煩得多,如上圖所示:

1.? 分段讀取數(shù)據(jù)应又;

2.? 對(duì)每一段進(jìn)行排序宙项;

3.? 將每一段的排序結(jié)果寫出至臨時(shí)文件;

4.? 維護(hù)一個(gè) k 個(gè)元素的列表(k 等于分段數(shù))株扛,每個(gè)臨時(shí)文件將一行數(shù)據(jù)放入該列表尤筐;

5.? 將列表中的記錄的按排序的字段的排序 (與第二步的排序方式相同,升序都升序席里,降序都降序)叔磷;

6.? 將列表的最小或最大記錄寫出至結(jié)果文件 (升序時(shí)最小,降序時(shí)最大)奖磁;

7.? 從寫出記錄的臨時(shí)文件中再讀取一行放入列表改基;

8.? 重復(fù) 6.7 步,直至所有記錄寫出至結(jié)果文件咖为。

繼續(xù)以上面數(shù)據(jù)為例秕狰,用 Python 寫一段完整的外存排序算法,將文件中的數(shù)據(jù)按訂單金額升序排序

import pandas as pd

import os

import time

import shutil

import uuid

import traceback


def parse_type(s):

??? ? if s.isdigit():

??????? return int(s)

??? ? try:

??????? res = float(s)

??????? return res

??? ? except:

??????? return s

??? ?

def pos_by(by,head,sep):

??? ? by_num = 0

??? ? for col in head.split(sep):

??????? if col.strip()==by:

??????????? break

??????? else:

??????????? by_num+=1

??? ? return by_num

?

def ? merge_sort(directory,ofile,by,ascending=True,sep=","):

??? ?

with open(ofile,'w') as ? outfile:

???????

??????? file_list = os.listdir(directory)

???????

??????? file_chunk = [open(directory+"/"+file,'r') ? for file in file_list]

??????? k_row = [file_chunk[i].readline()for ? i in range(len(file_chunk))]

??????? by = pos_by(by,k_row[0],sep)

???????

??????? outfile.write(k_row[0])

??? ? k_row = [file_chunk[i].readline()for i in range(len(file_chunk))]

k_by = ? [parse_type(k_row[i].split(sep)[by].strip())for i in range(len(file_chunk))]

?

with open(ofile,'a') as ? outfile:

???????

??????? while True:

??????????? for i in range(len(k_by)):

??????????????? if i >= len(k_by):

??????????????????? break

???????????????

??????????????? sorted_k_by = sorted(k_by) if ? ascending else sorted(k_by,reverse=True)

??????????????? if k_by[i] == sorted_k_by[0]:

??????????????????? outfile.write(k_row[i])

??????????????????? k_row[i] = file_chunk[i].readline()

??????????????????? if not k_row[i]:

??????????????????????? file_chunk[i].close()

??????????????????????? del(file_chunk[i])

??????????????????????? del(k_row[i])

??????????????????????? del(k_by[i])

??????????????????? else:

??????????????????????? k_by[i] = ? parse_type(k_row[i].split(sep)[by].strip())

??????????? if len(k_by)==0:

??????????????? break? ??

def ? external_sort(file_path,by,ofile,tmp_dir,ascending=True,chunksize=50000,sep=',',usecols=None,index_col=None):

os.makedirs(tmp_dir,exist_ok=True)?

??? ? try:

??????? data_chunk = ? pd.read_csv(file_path,sep=sep,usecols=usecols,index_col=index_col,chunksize=chunksize)

??????? for chunk in data_chunk:

??????????? chunk = ? chunk.sort_values(by,ascending=ascending)

??????????? ? chunk.to_csv(tmp_dir+"/"+"chunk"+str(int(time.time()*10**7))+str(uuid.uuid4())+".csv",index=None,sep=sep)

??????? ? merge_sort(tmp_dir,ofile=ofile,by=by,ascending=ascending,sep=sep)

??? ? except Exception:

??????? print(traceback.format_exc())

??? ? finally:

??????? shutil.rmtree(tmp_dir, ? ignore_errors=True)?

if __name__ == "__main__":

??? ? infile = "D:/python_question_data/orders.txt"

??? ? ofile = "D:/python_question_data/extra_sort_res_py.txt"

??? ? tmp = "D:/python_question_data/tmp"

??? ? external_sort(infile,'amount',ofile,tmp,ascending=True,chunksize=1000000,sep='\t')

這里是用逐行歸并寫出的方式完成外存排序的躁染,由于 pandas 逐行讀取的方式效率非常低鸣哀,所以沒有借助 pandas 完成逐行歸并排序。讀者感興趣的話可以嘗試使用 pandas 按塊歸并吞彤,比較下兩者的效率我衬。

相比于聚合和過濾,這個(gè)代碼相當(dāng)復(fù)雜了饰恕,對(duì)于很多非專業(yè)程序員來講已經(jīng)是不太可能實(shí)現(xiàn)的任務(wù)了挠羔,而且它的運(yùn)算效率也不高。

以上代碼也僅處理了規(guī)范的結(jié)構(gòu)化文件和單列排序埋嵌。如果文件結(jié)構(gòu)不規(guī)范比如不帶表頭破加、各行的分隔符數(shù)量不同、排序列是不規(guī)范的日期格式或者按照多列排序等等情況雹嗦,代碼還會(huì)進(jìn)一步復(fù)雜化范舀。

四、??? 分組

大文件的分組匯總也很麻煩了罪,一個(gè)容易想到的辦法是先將文件按分組列排序锭环,然后再遍歷有序文件,如果分組列值和前一行相同則匯總在同一組內(nèi)泊藕,和前一行不同則新建一組繼續(xù)匯總田藐。如果結(jié)果集過大,還要看情況把計(jì)算好的分組結(jié)果及時(shí)寫出吱七。

這個(gè)算法相對(duì)簡單汽久,但性能很差,需要經(jīng)過大排序的過程踊餐。一般數(shù)據(jù)庫會(huì)使用 Hash 分組的方案景醇,能夠有效地提高速度,但代碼復(fù)雜度要高出幾倍吝岭。普通非專業(yè)人員基本上沒有可能寫出來了三痰。這里也就不再列出代碼了。

通過以上介紹窜管,我們知道散劫,Python 處理大文件還是非常費(fèi)勁的,這主要是因?yàn)樗鼪]有提供為大數(shù)據(jù)服務(wù)的游標(biāo)類型及相關(guān)運(yùn)算幕帆,只能自己寫代碼获搏,不僅繁瑣而且運(yùn)算效率低。

Python不方便失乾,那么還有什么工具適合非專業(yè)程序員來處理大文件呢常熙?

esProc SPL在這方面要要比 Python 方便得多,SPL 是專業(yè)的結(jié)構(gòu)化數(shù)據(jù)處理語言碱茁,提供了比 pandas 更豐富的運(yùn)算裸卫,內(nèi)置有游標(biāo)數(shù)據(jù)類型,解決大文件的運(yùn)算就非常簡單纽竣。比如上面這些例子都可以很容易完成墓贿。

一、??? 聚合

二蜓氨、??? 過濾

三聋袋、??? 排序

四、??? 分組

特別指出语盈,SPL 的分組匯總就是采用前面說過的數(shù)據(jù)庫中常用的 HASH 算法舱馅,效率很高。

SPL中還內(nèi)置了并行計(jì)算刀荒,現(xiàn)在多核 CPU 很常見代嗤,使用并行計(jì)算可以大幅度提高性能,比如分組匯總缠借,只多加一個(gè) @m 就可以變成并行計(jì)算干毅。

而 Python 寫并行計(jì)算的程序就太困難了,網(wǎng)上說啥的都有泼返,就是找不到一個(gè)簡單的辦法硝逢。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子渠鸽,更是在濱河造成了極大的恐慌叫乌,老刑警劉巖,帶你破解...
    沈念sama閱讀 212,029評(píng)論 6 492
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件徽缚,死亡現(xiàn)場(chǎng)離奇詭異憨奸,居然都是意外死亡墩新,警方通過查閱死者的電腦和手機(jī)猜拾,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,395評(píng)論 3 385
  • 文/潘曉璐 我一進(jìn)店門颈畸,熙熙樓的掌柜王于貴愁眉苦臉地迎上來扳还,“玉大人郁岩,你說我怎么就攤上這事粟瞬『龆剩” “怎么了浑侥?”我有些...
    開封第一講書人閱讀 157,570評(píng)論 0 348
  • 文/不壞的土叔 我叫張陵详炬,是天一觀的道長盐类。 經(jīng)常有香客問我,道長痕寓,這世上最難降的妖魔是什么傲醉? 我笑而不...
    開封第一講書人閱讀 56,535評(píng)論 1 284
  • 正文 為了忘掉前任,我火速辦了婚禮呻率,結(jié)果婚禮上硬毕,老公的妹妹穿的比我還像新娘。我一直安慰自己礼仗,他們只是感情好吐咳,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,650評(píng)論 6 386
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著元践,像睡著了一般韭脊。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上单旁,一...
    開封第一講書人閱讀 49,850評(píng)論 1 290
  • 那天沪羔,我揣著相機(jī)與錄音,去河邊找鬼象浑。 笑死蔫饰,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的愉豺。 我是一名探鬼主播篓吁,決...
    沈念sama閱讀 39,006評(píng)論 3 408
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼蚪拦!你這毒婦竟也來了杖剪?” 一聲冷哼從身側(cè)響起冻押,我...
    開封第一講書人閱讀 37,747評(píng)論 0 268
  • 序言:老撾萬榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎盛嘿,沒想到半個(gè)月后洛巢,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 44,207評(píng)論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡孩擂,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,536評(píng)論 2 327
  • 正文 我和宋清朗相戀三年狼渊,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片类垦。...
    茶點(diǎn)故事閱讀 38,683評(píng)論 1 341
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖城须,靈堂內(nèi)的尸體忽然破棺而出蚤认,到底是詐尸還是另有隱情,我是刑警寧澤糕伐,帶...
    沈念sama閱讀 34,342評(píng)論 4 330
  • 正文 年R本政府宣布砰琢,位于F島的核電站,受9級(jí)特大地震影響良瞧,放射性物質(zhì)發(fā)生泄漏陪汽。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,964評(píng)論 3 315
  • 文/蒙蒙 一褥蚯、第九天 我趴在偏房一處隱蔽的房頂上張望挚冤。 院中可真熱鬧,春花似錦赞庶、人聲如沸训挡。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,772評(píng)論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽澜薄。三九已至,卻和暖如春摊册,著一層夾襖步出監(jiān)牢的瞬間肤京,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 32,004評(píng)論 1 266
  • 我被黑心中介騙來泰國打工茅特, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留忘分,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 46,401評(píng)論 2 360
  • 正文 我出身青樓温治,卻偏偏與公主長得像饭庞,于是被迫代替她去往敵國和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子熬荆,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,566評(píng)論 2 349

推薦閱讀更多精彩內(nèi)容