都 2021 年了宏邮,您還用 Pandas 處理大數(shù)據(jù)吶

Pandas 對大數(shù)據(jù)的處理并不咋地,本文介紹兩個(gè) Python 處理大數(shù)據(jù)的支持庫纠拔,并對這三個(gè) Python 數(shù)據(jù)處理支持庫進(jìn)行對比秉剑。

先說說大數(shù)據(jù)的概念。本文中的大數(shù)據(jù)指的是比你的電腦內(nèi)存大的數(shù)據(jù)绿语,并非動(dòng)輒幾個(gè) T 的那種大數(shù)據(jù)秃症,那些數(shù)據(jù)單機(jī)也處理不了,你看了也沒啥用吕粹。

本文要介紹的兩個(gè)支持庫是 Dask 和 Vaex种柑,這兩個(gè)庫已經(jīng)推出有幾年了,現(xiàn)在也比較成熟了匹耕。

Dask 主要是通過并行技術(shù)提高數(shù)據(jù)處理速度聚请。


Vaex 號稱可以每秒處理十億行數(shù)據(jù)的統(tǒng)計(jì)操作,還支持可視化,還可以實(shí)現(xiàn)交互式數(shù)據(jù)探索驶赏。

這兩個(gè)支持庫與 Pandas 的 df 并不完全兼容炸卑,但語法也差不多,而且都支持最常見的數(shù)據(jù)處理操作煤傍,只不過 Dask 偏重于使用集群技術(shù)處理數(shù)據(jù)盖文,而 Vaex 則偏重于在單機(jī)上處理大數(shù)據(jù)。

測試數(shù)據(jù)

隨機(jī)生成兩個(gè) 100 萬行蚯姆,1000 列的 CSV 文件五续,每個(gè)文件 18G,兩個(gè) 36G龄恋,數(shù)據(jù)是 0-100 之間均勻分布的隨機(jī)數(shù)疙驾。

import pandas as pd
import numpy as np
from os import path
n_rows = 1_000_000
n_cols = 1000
for i in range(1, 3):
    filename = 'analysis_%d.csv' % i
    file_path = path.join('csv_files', filename)
    df = pd.DataFrame(np.random.uniform(0, 100, size=(n_rows, n_cols)), columns=['col%d' % i for i in range(n_cols)])
    print('Saving', file_path)
    df.to_csv(file_path, index=False)
df.head()

測試環(huán)境

  • MacBook Pro,內(nèi)存 32G
  • 禁用虛擬內(nèi)存郭毕,在測試時(shí)將硬盤空間填滿它碎,只使用實(shí)際內(nèi)存。

測試內(nèi)容

  • 計(jì)算分位數(shù)
  • 添加新列
  • 過濾列值
  • 按列分組匯總
  • 可視化

測試效果

Pandas

讀取不了 18G 的文件显押,直接玩兒完扳肛, Jupyter 內(nèi)核淚崩。

Vaex

將兩個(gè) CSV 文件轉(zhuǎn)為 HDF5 格式

import vaex
csv_files = glob.glob('csv_files/*.csv')
for i, csv_file in enumerate(csv_files, 1):
    for j, dv in enumerate(vaex.from_csv(csv_file, chunk_size=5_000_000), 1):
        print('Exporting %d %s to hdf5 part %d' % (i, csv_file, j))
        dv.export_hdf5(f'hdf5_files/analysis_{i:02}_{j:02}.hdf5')

轉(zhuǎn)換為 HDF5:不到 7 分鐘乘碑,轉(zhuǎn)換后敞峭,兩個(gè)文件大小降低到 16G。
打開文件dv = vaex.open('hdf5_files/*.hdf5')蝉仇,用時(shí) 20 分鐘旋讹,如果轉(zhuǎn)換為二進(jìn)制文件會更快
顯示 Headdv.head(),差一點(diǎn)就 20 分鐘轿衔,莫名其妙3良!!害驹!
計(jì)算分位數(shù)quantile = dv.percentile_approx('col1', 10)鞭呕,秒出
添加新列dv ['col1_binary'] = dv.col1> dv.percentile_approx('col1',10),秒出
過濾數(shù)據(jù)dv = dv[dv.col2 > 10]宛官,秒出
分組匯總group_res = dv.groupby(by=dv.col1_binary, agg={'col3_mean': vaex.agg.mean('col3')})葫松,秒出
可視化直方圖plot = dv.plot1d(dv.col3, what='count(*)', limits=[0, 100]),秒出
匯總?cè)繑?shù)據(jù)suma = np.sum(dv.sum(dv.column_names))底洗,40 秒

Dask

轉(zhuǎn)換為 HDF5:超過 12 分鐘

import dask.dataframe as dd
ds = dd.read_csv('csv_files/*.csv')
ds.to_hdf('hdf5_files_dask/analysis_01_01.hdf5', key='table')

打開文件: 秒開腋么,但這是因?yàn)闆]有使用 compute,這個(gè)命令才要命

import dask.dataframe as dd
ds = dd.read_csv('csv_files/*.csv')

顯示 Headds.head()亥揖,9 秒
計(jì)算分位數(shù)quantile = ds.col1.quantile(0.1).compute()珊擂,此時(shí)用了 compute圣勒,結(jié)果 Jupyter 內(nèi)核崩了
添加新列ds['col1_binary'] = ds.col1 > ds.col1.quantile(0.1),不支持分位數(shù)摧扇,無法測試
過濾數(shù)據(jù)ds = ds[(ds.col2 > 10)]圣贸,秒出
分組匯總:Dask 不支持分組匯總
可視化直方圖:Dask 不支持可視化數(shù)據(jù)
匯總?cè)繑?shù)據(jù):Dask 不支持匯總?cè)繑?shù)據(jù)
這也不支持,那也不支持扛稽,沒啥可比的了

測試結(jié)論

  • Vaex 要把 CSV 轉(zhuǎn)為 HDF5 才能發(fā)揮優(yōu)勢吁峻,head 耗時(shí)那么長實(shí)在是令人費(fèi)解,其它操作都很快在张。
  • Dask 的優(yōu)化主要是針對集群而非單機(jī)锡搜,如果你是單機(jī)就不推薦了
  • Pandas 確實(shí)沒法比,就不說了瞧掺。

看完了這個(gè)測試,各位心里有點(diǎn)概念了吧凡傅,有興趣的可以自己測試下辟狈。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市夏跷,隨后出現(xiàn)的幾起案子哼转,更是在濱河造成了極大的恐慌,老刑警劉巖槽华,帶你破解...
    沈念sama閱讀 211,743評論 6 492
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件壹蔓,死亡現(xiàn)場離奇詭異,居然都是意外死亡猫态,警方通過查閱死者的電腦和手機(jī)佣蓉,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,296評論 3 385
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來亲雪,“玉大人勇凭,你說我怎么就攤上這事∫逶” “怎么了虾标?”我有些...
    開封第一講書人閱讀 157,285評論 0 348
  • 文/不壞的土叔 我叫張陵,是天一觀的道長灌砖。 經(jīng)常有香客問我璧函,道長,這世上最難降的妖魔是什么基显? 我笑而不...
    開封第一講書人閱讀 56,485評論 1 283
  • 正文 為了忘掉前任蘸吓,我火速辦了婚禮,結(jié)果婚禮上撩幽,老公的妹妹穿的比我還像新娘美澳。我一直安慰自己,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,581評論 6 386
  • 文/花漫 我一把揭開白布制跟。 她就那樣靜靜地躺著舅桩,像睡著了一般。 火紅的嫁衣襯著肌膚如雪雨膨。 梳的紋絲不亂的頭發(fā)上擂涛,一...
    開封第一講書人閱讀 49,821評論 1 290
  • 那天,我揣著相機(jī)與錄音聊记,去河邊找鬼撒妈。 笑死,一個(gè)胖子當(dāng)著我的面吹牛排监,可吹牛的內(nèi)容都是我干的狰右。 我是一名探鬼主播,決...
    沈念sama閱讀 38,960評論 3 408
  • 文/蒼蘭香墨 我猛地睜開眼舆床,長吁一口氣:“原來是場噩夢啊……” “哼棋蚌!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起挨队,我...
    開封第一講書人閱讀 37,719評論 0 266
  • 序言:老撾萬榮一對情侶失蹤谷暮,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后盛垦,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體湿弦,經(jīng)...
    沈念sama閱讀 44,186評論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,516評論 2 327
  • 正文 我和宋清朗相戀三年腾夯,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了颊埃。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 38,650評論 1 340
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡蝶俱,死狀恐怖竟秫,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情跷乐,我是刑警寧澤肥败,帶...
    沈念sama閱讀 34,329評論 4 330
  • 正文 年R本政府宣布,位于F島的核電站愕提,受9級特大地震影響馒稍,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜浅侨,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,936評論 3 313
  • 文/蒙蒙 一纽谒、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧如输,春花似錦鼓黔、人聲如沸央勒。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,757評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽崔步。三九已至,卻和暖如春缎谷,著一層夾襖步出監(jiān)牢的瞬間井濒,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,991評論 1 266
  • 我被黑心中介騙來泰國打工列林, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留瑞你,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 46,370評論 2 360
  • 正文 我出身青樓希痴,卻偏偏與公主長得像者甲,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個(gè)殘疾皇子砌创,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,527評論 2 349

推薦閱讀更多精彩內(nèi)容