pandas是機(jī)器學(xué)習(xí)中最常用的數(shù)據(jù)處理庫(kù),那么一些高級(jí)技巧你是否了解呢?
apply函數(shù)
pandas中的lambda函數(shù)可以說是最有用的功能之一,也是我的最愛梅誓。自由度很高,你可以對(duì)自己的數(shù)據(jù)進(jìn)行各種操作了佛南。該函數(shù)如下:
DataFrame.apply(func, axis=0, broadcast=False, raw=False, reduce=None, args=(), **kwds)
一般來說我們只使用前面的幾個(gè)參數(shù)梗掰,func傳入你想要對(duì)數(shù)據(jù)實(shí)施的函數(shù),axis=0表示對(duì)行操作嗅回,axis=1表示對(duì)列操作及穗,舉一個(gè)用法:
df['size_num'] = df.apply(lambda x:int(x['size']), axis=1) #將size轉(zhuǎn)化為int類型
上面的代碼通過傳入lambda函數(shù)對(duì)整列數(shù)據(jù)進(jìn)行操作,你可以隨意定義你的函數(shù)來實(shí)現(xiàn)各種功能绵载。
按照條件篩選
pandas具有強(qiáng)大的篩選功能埂陆,組合使用可以快速得到你想要的數(shù)據(jù)
df[df['size_num']>22.0] #單條件篩選
df[(df['size_num']>22.0) & (df['size_num]<50)] #多條件篩選
保存格式的選擇
pandas的保存相信大家都不陌生,但是事實(shí)上保存操作中有很多參數(shù)是可以配置的娃豹,這樣可以導(dǎo)出你想要的格式
selected_data.to_csv('selected_data.csv', index=False, header=False)
一個(gè)常用參數(shù)是index焚虱,pandas在導(dǎo)出表格時(shí)會(huì)默認(rèn)在前面加上一列Index,通常我們可以吧它設(shè)為False,因?yàn)檫@個(gè)index沒什么用懂版;另一個(gè)常用參數(shù)是header, 表示的是是否輸出表頭著摔,可根據(jù)實(shí)際情況設(shè)置