1. 數(shù)據(jù)讀取與存取
讀取數(shù)據(jù)到dataframe中
pd.DataFrame.from_csv('csv_file') # 將csv文件讀取话侧,放入df中
pd.read_csv('csv_file') # 將csv文件讀取合呐,放入df中。同樣有‘'read_excel'等方法
將dataframe寫(xiě)入csv等格式文件
df.to_csv('file.csv', sep=',', index=False) #將數(shù)據(jù)寫(xiě)入file.csv文件,同樣坛吁,也有'to_excel'等方法
2. 數(shù)據(jù)類(lèi)型轉(zhuǎn)換
df.to_dict() #將df類(lèi)型轉(zhuǎn)成dict類(lèi)型
df.to_json() #將df類(lèi)型轉(zhuǎn)成json類(lèi)型
df.to_numpy() #將df類(lèi)型轉(zhuǎn)成numpy類(lèi)型宋渔,與'.values'方法結(jié)果一致
pd.to_datetime() # 將表示時(shí)間的str轉(zhuǎn)變成Timestamp
pd.Timestamp() # 將表示時(shí)間的str轉(zhuǎn)變成Timestamp
3. 數(shù)據(jù)集信息
df.info() #數(shù)據(jù)集基本信息
df.describe() #數(shù)據(jù)集基本統(tǒng)計(jì)信息
統(tǒng)計(jì)信息包括:均值、標(biāo)準(zhǔn)差剂习、四分位數(shù),可以在此基礎(chǔ)上計(jì)算出其他統(tǒng)計(jì)量
4. df類(lèi)型和ds類(lèi)型基本屬性
df.index # 返回pandas.core.indexes類(lèi)型
df.index.to_list() # 將index中每個(gè)元素放入list中
pandas.Series 同樣有上述屬性
df.columns # 返回pandas.core.indexes類(lèi)型
df.columns.to_list() # 將columns中每個(gè)元素放入list中
tips: df.index 和 df.index.to_list()返回的結(jié)果都可以用'[0]'的方式索引较沪,結(jié)果一樣鳞绕。
df_new = pd.DataFrame(df.values, index=df.index, columns=df.colunns)
df_new = pd.DataFrame(df.values, index=df.index.to_list(), columns=df.colunns.to_list())
pandas.Series類(lèi)型沒(méi)有columns屬性,但是有name屬性
ds = pd.Series(np.random.randn(100,), index=df.index, name='隨機(jī)數(shù)')
5. 基本數(shù)據(jù)操作
檢查Nan值 df.isnull()
檢查缺失值购对,即數(shù)值數(shù)組中的 NaN 和目標(biāo)數(shù)組中的 None/NaN
刪除缺失值df.dropna(axis=0, how='any')
表示刪除含有Nan值的行
替換缺失值df.replace(to_replace=None, value=None)
表示用value值替換to_replace值
刪除特征df.drop('feature_variable_name', axis=1)
axis默認(rèn)0
取前 [n] 行df.head(n)
默認(rèn)前5行
6. DataFrame基本操作
改變index df.index=df['time']
表示將df中‘time’列作為新的索引
改變columns df.columns=['a', 'b']
表示將原來(lái)的列名更換成‘a(chǎn)’和‘b’猾昆,注意個(gè)數(shù)要一樣
重命名列 df.rename(columns = {df.columns[2]:'size'}, inplace=True)
表示將原先的第3列名稱換成‘size’
重新索引df.reindex([])
[]表示新的索引順序,原來(lái)['a','b','c']骡苞, 可以變成['b','a','c']
根據(jù)索引排序 df.sort_index()
根據(jù)元素值排序df.sort_values()
df合并 pd.concat(axis=0)
數(shù)據(jù)查詢:
df.iloc[]
用索引值
df.loc[]
用index和columns實(shí)際名稱
df['size']
根據(jù)columns中某一名稱
df.szie
取df中‘size’這一列
分組功能 df.groupby()
分割區(qū)間pd.cut()
apply方法pd.apply()