Pandas 對大數(shù)據(jù)的處理并不咋地,本文介紹兩個(gè) Python 處理大數(shù)據(jù)的支持庫纠拔,并對這三個(gè) Python 數(shù)據(jù)處理支持庫進(jìn)行對比秉剑。
先說說大數(shù)據(jù)的概念。本文中的大數(shù)據(jù)指的是比你的電腦內(nèi)存大的數(shù)據(jù)绿语,并非動(dòng)輒幾個(gè) T 的那種大數(shù)據(jù)秃症,那些數(shù)據(jù)單機(jī)也處理不了,你看了也沒啥用吕粹。
本文要介紹的兩個(gè)支持庫是 Dask 和 Vaex种柑,這兩個(gè)庫已經(jīng)推出有幾年了,現(xiàn)在也比較成熟了匹耕。
Dask 主要是通過并行技術(shù)提高數(shù)據(jù)處理速度聚请。
Vaex 號稱可以每秒處理十億行數(shù)據(jù)的統(tǒng)計(jì)操作,還支持可視化,還可以實(shí)現(xiàn)交互式數(shù)據(jù)探索驶赏。
這兩個(gè)支持庫與 Pandas 的 df 并不完全兼容炸卑,但語法也差不多,而且都支持最常見的數(shù)據(jù)處理操作煤傍,只不過 Dask 偏重于使用集群技術(shù)處理數(shù)據(jù)盖文,而 Vaex 則偏重于在單機(jī)上處理大數(shù)據(jù)。
測試數(shù)據(jù)
隨機(jī)生成兩個(gè) 100 萬行蚯姆,1000 列的 CSV 文件五续,每個(gè)文件 18G,兩個(gè) 36G龄恋,數(shù)據(jù)是 0-100 之間均勻分布的隨機(jī)數(shù)疙驾。
import pandas as pd
import numpy as np
from os import path
n_rows = 1_000_000
n_cols = 1000
for i in range(1, 3):
filename = 'analysis_%d.csv' % i
file_path = path.join('csv_files', filename)
df = pd.DataFrame(np.random.uniform(0, 100, size=(n_rows, n_cols)), columns=['col%d' % i for i in range(n_cols)])
print('Saving', file_path)
df.to_csv(file_path, index=False)
df.head()
測試環(huán)境
- MacBook Pro,內(nèi)存 32G
- 禁用虛擬內(nèi)存郭毕,在測試時(shí)將硬盤空間填滿它碎,只使用實(shí)際內(nèi)存。
測試內(nèi)容
- 計(jì)算分位數(shù)
- 添加新列
- 過濾列值
- 按列分組匯總
- 可視化
測試效果
Pandas
讀取不了 18G 的文件显押,直接玩兒完扳肛, Jupyter 內(nèi)核淚崩。
Vaex
將兩個(gè) CSV 文件轉(zhuǎn)為 HDF5 格式
import vaex
csv_files = glob.glob('csv_files/*.csv')
for i, csv_file in enumerate(csv_files, 1):
for j, dv in enumerate(vaex.from_csv(csv_file, chunk_size=5_000_000), 1):
print('Exporting %d %s to hdf5 part %d' % (i, csv_file, j))
dv.export_hdf5(f'hdf5_files/analysis_{i:02}_{j:02}.hdf5')
轉(zhuǎn)換為 HDF5:不到 7 分鐘乘碑,轉(zhuǎn)換后敞峭,兩個(gè)文件大小降低到 16G。
打開文件: dv = vaex.open('hdf5_files/*.hdf5')
蝉仇,用時(shí) 20 分鐘旋讹,如果轉(zhuǎn)換為二進(jìn)制文件會更快
顯示 Head: dv.head()
,差一點(diǎn)就 20 分鐘轿衔,莫名其妙3良!!害驹!
計(jì)算分位數(shù):quantile = dv.percentile_approx('col1', 10)
鞭呕,秒出
添加新列:dv ['col1_binary'] = dv.col1> dv.percentile_approx('col1',10)
,秒出
過濾數(shù)據(jù):dv = dv[dv.col2 > 10]
宛官,秒出
分組匯總: group_res = dv.groupby(by=dv.col1_binary, agg={'col3_mean': vaex.agg.mean('col3')})
葫松,秒出
可視化直方圖:plot = dv.plot1d(dv.col3, what='count(*)', limits=[0, 100])
,秒出
匯總?cè)繑?shù)據(jù):suma = np.sum(dv.sum(dv.column_names))
底洗,40 秒
Dask
轉(zhuǎn)換為 HDF5:超過 12 分鐘
import dask.dataframe as dd
ds = dd.read_csv('csv_files/*.csv')
ds.to_hdf('hdf5_files_dask/analysis_01_01.hdf5', key='table')
打開文件: 秒開腋么,但這是因?yàn)闆]有使用 compute
,這個(gè)命令才要命
import dask.dataframe as dd
ds = dd.read_csv('csv_files/*.csv')
顯示 Head: ds.head()
亥揖,9 秒
計(jì)算分位數(shù):quantile = ds.col1.quantile(0.1).compute()
珊擂,此時(shí)用了 compute
圣勒,結(jié)果 Jupyter 內(nèi)核崩了
添加新列:ds['col1_binary'] = ds.col1 > ds.col1.quantile(0.1)
,不支持分位數(shù)摧扇,無法測試
過濾數(shù)據(jù):ds = ds[(ds.col2 > 10)]
圣贸,秒出
分組匯總:Dask 不支持分組匯總
可視化直方圖:Dask 不支持可視化數(shù)據(jù)
匯總?cè)繑?shù)據(jù):Dask 不支持匯總?cè)繑?shù)據(jù)
這也不支持,那也不支持扛稽,沒啥可比的了
測試結(jié)論
- Vaex 要把 CSV 轉(zhuǎn)為 HDF5 才能發(fā)揮優(yōu)勢吁峻,head 耗時(shí)那么長實(shí)在是令人費(fèi)解,其它操作都很快在张。
- Dask 的優(yōu)化主要是針對集群而非單機(jī)锡搜,如果你是單機(jī)就不推薦了
- Pandas 確實(shí)沒法比,就不說了瞧掺。
看完了這個(gè)測試,各位心里有點(diǎn)概念了吧凡傅,有興趣的可以自己測試下辟狈。