koalas簡介
pandas在python數(shù)據(jù)分析中是一個非常好用的庫办斑,但他是單機的枉阵,能夠處理的數(shù)據(jù)量有限岂昭。spark在大數(shù)據(jù)生態(tài)中目前處于霸主地位(當然在國內(nèi)實時流計算flink更流行一些)守问,它擅長處理海量數(shù)據(jù),而koalas就是可以將pandas操作搬到spark上運行的神器碧查。你沒看錯运敢,不需要學習新的東西,只需要替換一個包忠售,就能將pandas代碼運行到spark上传惠。
詳細資料可以上這里get
https://docs.microsoft.com/zh-cn/azure/databricks/languages/koalas
windows10下安裝koalas
我使用的python版本是3.7,用anaconda管理包稻扬。
依賴包pyarrow下載
下載地址
https://pypi.org/project/pyarrow/#files
選擇跟我們環(huán)境對應(yīng)的whl文件
koalas下載
下載地址
https://pypi.org/project/koalas/
操蛋的是兩個包下載特別慢卦方,在此共享一份,版本信息:python3.7 windows
鏈接:https://pan.baidu.com/s/1R5KrOiOBqtxfMto_nV21dw
提取碼:2d2r
安裝
我將上面下載的兩個包放到了E盤腐螟。打開anaconda powershell prompt進入到e盤
e:
依次安裝兩個包
pip install .\pyarrow-0.17.1-cp37-cp37m-win_amd64.whl
pip install .\koalas-1.0.1-py3-none-any.whl
到這里就完成環(huán)境安裝了愿汰,就這么簡單。
環(huán)境驗證
我下面的代碼是從這個網(wǎng)站上拿下來的乐纸,是一個koalas教程衬廷,可以自己運行體會一下
https://docs.microsoft.com/zh-cn/azure/databricks/_static/notebooks/pandas-to-koalas-in-10-minutes.html
打開jupyter,運行下面代碼
import numpy as np
import pandas as pd
import databricks.koalas as ks
# Create a pandas Series
pser = pd.Series([1, 3, 5, np.nan, 6, 8])
# Create a Koalas Series
kser = ks.Series([1, 3, 5, np.nan, 6, 8])
# Create a Koalas Series by passing a pandas Series
kser = ks.Series(pser)
kser = ks.from_pandas(pser)
print(pser)
print("*****************************")
print(kser)
0 1.0
1 3.0
2 5.0
3 NaN
4 6.0
5 8.0
dtype: float64
0 1.0
1 3.0
2 5.0
3 NaN
4 6.0
5 8.0
Name: 0, dtype: float64
# Create a pandas DataFrame
pdf = pd.DataFrame({'A': np.random.rand(5),
'B': np.random.rand(5)})
# Create a Koalas DataFrame
kdf = ks.DataFrame({'A': np.random.rand(5),
'B': np.random.rand(5)})
# Create a Koalas DataFrame by passing a pandas DataFrame
kdf = ks.DataFrame(pdf)
kdf = ks.from_pandas(pdf)
print(pdf)
print(kdf)
kdf.sort_index()
kdf.describe()
A B
0 0.413144 0.047644
1 0.326874 0.395861
2 0.398785 0.813530
3 0.281820 0.084914
4 0.299369 0.431540
A B
0 0.413144 0.047644
1 0.326874 0.395861
2 0.398785 0.813530
3 0.281820 0.084914
4 0.299369 0.431540
A B
0 0.413144 0.047644
1 0.326874 0.395861
2 0.398785 0.813530
3 0.281820 0.084914
4 0.299369 0.431540
A B
count 5.000000 5.000000
mean 0.343998 0.354698
std 0.059021 0.310319
min 0.281820 0.047644
25% 0.299369 0.084914
50% 0.326874 0.395861
75% 0.398785 0.431540
max 0.413144 0.813530