1. 基本統(tǒng)計分析函數(shù)
- data.describe()
綜合分析镜廉,計算平均值,標準差愚战,最大值桨吊,最小值威根,各種分位數(shù)
單個統(tǒng)計函數(shù)
- sum()
- mean()
- mad() : mean absolute deviation
- median()
- min()
- max()
- mode()
- abs()
- prod()
- std()
- var() : unbiased variance
- idxmax() : compute the index labels with the maximum
- idxmim() : compute the index labels of the minimum
(注意:在numpy當(dāng)中是argmax和argmin)
累計統(tǒng)計分析函數(shù)
- cumsum() :計算前n個的和
- cummax():計算前n個的最大值
- cummin() :計算前n哥的最小值
- cumprod() :計算前n個的積
2. 畫圖
- data.plot()
詳見官方API reference
3. 邏輯與算術(shù)運算
- 使用<, >等進行篩選
data[data['p_change']>2]
- 使用|, &完成復(fù)合的邏輯
data[(data['p_change'] > 2) & (data['open'] > 15)]
-
使用data.query()完成復(fù)合邏輯運算
data.query("p_change > 2 & open > 15")
- isin()
判斷值是否存在,決定是否保留
- 算術(shù)運算:.sub/.add
#加上具體的一個數(shù)字
data['open'].add(1)
#篩選兩列的差值
close = data['close']
open1=data['open']
data['a_new_column']=close.sub(open1)
data([['open', 'close']].apply(lambda x:x.max() - x.min(), axis = 0)
4. 文件讀取
- pandas.read_csv(filepath, sep =',' , delimiter = None, index_col)
usecols: 指定讀取的列名
- DataFrame.to_csv(path, sep = ',', header = True, index_label = None, mode = 'w', encoding = None)
header:是否寫進列索引值 True/False
index:是否寫進行索引 True/False
mode:‘w' 重寫 ’a' 追加
- pandas.read_hdf(path, key = None, **kwargs)
從h5文件當(dāng)中讀取數(shù)據(jù)
key:讀取的建
mode:打開文件的模式
return:Theselected object
- a.to_hdf("./test.h5", key='x')
h5文件是一種設(shè)計用于存儲和組織大量數(shù)據(jù)的文件格式视乐,比csv快,占的內(nèi)存小敢茁。而且是跨平臺的佑淀,可以輕松遷移到hadoop上面。一個h5文件可以放入多個key彰檬,來實現(xiàn)三維結(jié)構(gòu)伸刃。將不同指標存儲在不同文件當(dāng)中
最后編輯于 :
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者