一、生成數(shù)據(jù)表
1蓄坏、首先導(dǎo)入pandas庫(kù),一般都會(huì)用到numpy庫(kù)丑念,所以我們先導(dǎo)入備用:
import numpy as np
import pandas as pd
2涡戳、導(dǎo)入CSV或者xlsx文件:
df = pd.DataFrame(pd.read_csv('name.csv',header=1))
df = pd.DataFrame(pd.read_excel('name.xlsx'))
3、用pandas創(chuàng)建數(shù)據(jù)表:
df = pd.DataFrame({"id":[1001,1002,1003,1004,1005,1006],
"date":pd.date_range('20130102', periods=6),
"city":['Beijing ', 'SH', ' guangzhou ', 'Shenzhen', 'shanghai', 'BEIJING '],
"age":[23,44,54,32,34,32],
"category":['100-A','100-B','110-A','110-C','210-A','130-F'],
"price":[1200,np.nan,2133,5433,np.nan,4432]},
columns =['id','date','city','category','age','price'])
二脯倚、數(shù)據(jù)表信息查看
1渔彰、維度查看:
df.shape
2、數(shù)據(jù)表基本信息(維度推正、列名稱(chēng)恍涂、數(shù)據(jù)格式、所占空間等):
df.info()
3舔稀、每一列數(shù)據(jù)的格式:
df.dtypes
4乳丰、某一列格式:
df['B'].dtype
5掌测、空值:
df.isnull()
6内贮、查看某一列空值:
df.isnull()
7、查看某一列的唯一值:
df['B'].unique()
8汞斧、查看數(shù)據(jù)表的值:
df.values
9夜郁、查看列名稱(chēng):
df.columns
10、查看前10行數(shù)據(jù)粘勒、后10行數(shù)據(jù):
df.head() #默認(rèn)前10行數(shù)據(jù)
df.tail() #默認(rèn)后10 行數(shù)據(jù)
三竞端、數(shù)據(jù)表清洗
1、用數(shù)字0填充空值:
df.fillna(value=0)
2庙睡、使用列prince的均值對(duì)NA進(jìn)行填充:
df['prince'].fillna(df['prince'].mean())
3事富、清楚city字段的字符空格:
df['city']=df['city'].map(str.strip)
4、大小寫(xiě)轉(zhuǎn)換:
df['city']=df['city'].str.lower()
5乘陪、更改數(shù)據(jù)格式:
df['price'].astype('int')
6统台、更改列名稱(chēng):
df.rename(columns={'category': 'category-size'})
7、刪除后出現(xiàn)的重復(fù)值:
df['city'].drop_duplicates()
8啡邑、刪除先出現(xiàn)的重復(fù)值:
df['city'].drop_duplicates(keep='last')
9贱勃、數(shù)據(jù)替換:
df['city'].replace('sh', 'shanghai')
四、數(shù)據(jù)預(yù)處理
df1=pd.DataFrame({"id":[1001,1002,1003,1004,1005,1006,1007,1008],
"gender":['male','female','male','female','male','female','male','female'],
"pay":['Y','N','Y','Y','N','Y','N','Y',],
"m-point":[10,12,20,40,40,40,30,20]})
1、數(shù)據(jù)表合并
df_inner=pd.merge(df,df1,how='inner') # 匹配合并贵扰,交集
df_left=pd.merge(df,df1,how='left') #
df_right=pd.merge(df,df1,how='right')
df_outer=pd.merge(df,df1,how='outer') #并集
2仇穗、設(shè)置索引列
df_inner.set_index('id')
3、按照特定列的值排序:
df_inner.sort_values(by=['age'])
4戚绕、按照索引列排序:
df_inner.sort_index()
5纹坐、如果prince列的值>3000,group列顯示high列肢,否則顯示low:
df_inner['group'] = np.where(df_inner['price'] > 3000,'high','low')
6恰画、對(duì)復(fù)合多個(gè)條件的數(shù)據(jù)進(jìn)行分組標(biāo)記
df_inner.loc[(df_inner['city'] == 'beijing') & (df_inner['price'] >= 4000), 'sign']=1
7、對(duì)category字段的值依次進(jìn)行分列瓷马,并創(chuàng)建數(shù)據(jù)表拴还,索引值為df_inner的索引列,列名稱(chēng)為category和size
pd.DataFrame((x.split('-') for x in df_inner['category']),index=df_inner.index,columns=['category','size']))
8欧聘、將完成分裂后的數(shù)據(jù)表和原df_inner數(shù)據(jù)表進(jìn)行匹配
df_inner=pd.merge(df_inner,split,right_index=True, left_index=True)
五片林、數(shù)據(jù)提取
主要用到的三個(gè)函數(shù):loc,iloc和ix,loc函數(shù)按標(biāo)簽值進(jìn)行提取怀骤,iloc按位置進(jìn)行提取费封,ix可以同時(shí)按標(biāo)簽和位置進(jìn)行提取。
1蒋伦、按索引提取單行的數(shù)值
df_inner.loc[3]
2弓摘、按索引提取區(qū)域行數(shù)值
df_inner.iloc[0:5]
3、重設(shè)索引
df_inner.reset_index()
4痕届、設(shè)置日期為索引
df_inner=df_inner.set_index('date')
5韧献、提取4日之前的所有數(shù)據(jù)
df_inner[:'2013-01-04']
6、使用iloc按位置區(qū)域提取數(shù)據(jù)
df_inner.iloc[:3,:2] #冒號(hào)前后的數(shù)字不再是索引的標(biāo)簽名稱(chēng)研叫,而是數(shù)據(jù)所在的位置锤窑,從0開(kāi)始,前三行嚷炉,前兩列渊啰。
7、適應(yīng)iloc按位置單獨(dú)提起數(shù)據(jù)
df_inner.iloc[[0,2,5],[4,5]] #提取第0申屹、2绘证、5行,4哗讥、5列
8嚷那、使用ix按索引標(biāo)簽和位置混合提取數(shù)據(jù)
df_inner.ix[:'2013-01-03',:4] #2013-01-03號(hào)之前,前四列數(shù)據(jù)
9忌栅、判斷city列的值是否為北京
df_inner['city'].isin(['beijing'])
10车酣、判斷city列里是否包含beijing和shanghai曲稼,然后將符合條件的數(shù)據(jù)提取出來(lái)
df_inner.loc[df_inner['city'].isin(['beijing','shanghai'])]
11、提取前三個(gè)字符湖员,并生成數(shù)據(jù)表
pd.DataFrame(category.str[:3])
六贫悄、數(shù)據(jù)篩選
使用與、或娘摔、非三個(gè)條件配合大于窄坦、小于、等于對(duì)數(shù)據(jù)進(jìn)行篩選凳寺,并進(jìn)行計(jì)數(shù)和求和鸭津。
1、使用“與”進(jìn)行篩選
df_inner.loc[(df_inner['age'] > 25) & (df_inner['city'] == 'beijing'), ['id','city','age','category','gender']]
2肠缨、使用“或”進(jìn)行篩選
df_inner.loc[(df_inner['age'] > 25) | (df_inner['city'] == 'beijing'), ['id','city','age','category','gender']].sort(['age'])
3逆趋、使用“非”條件進(jìn)行篩選
df_inner.loc[(df_inner['city'] != 'beijing'), ['id','city','age','category','gender']].sort(['id'])
4、對(duì)篩選后的數(shù)據(jù)按city列進(jìn)行計(jì)數(shù)
df_inner.loc[(df_inner['city'] != 'beijing'), ['id','city','age','category','gender']].sort(['id']).city.count()
5晒奕、使用query函數(shù)進(jìn)行篩選
df_inner.query('city == ["beijing", "shanghai"]')
6闻书、對(duì)篩選后的結(jié)果按prince進(jìn)行求和
df_inner.query('city == ["beijing", "shanghai"]').price.sum()
七、數(shù)據(jù)匯總
主要函數(shù)是groupby和pivote_table
1脑慧、對(duì)所有的列進(jìn)行計(jì)數(shù)匯總
df_inner.groupby('city').count()
2魄眉、按城市對(duì)id字段進(jìn)行計(jì)數(shù)
df_inner.groupby('city')['id'].count()
3、對(duì)兩個(gè)字段進(jìn)行匯總計(jì)數(shù)
df_inner.groupby(['city','size'])['id'].count()
4闷袒、對(duì)city字段進(jìn)行匯總坑律,并分別計(jì)算prince的合計(jì)和均值
df_inner.groupby('city')['price'].agg([len,np.sum, np.mean])
八、數(shù)據(jù)統(tǒng)計(jì)
數(shù)據(jù)采樣囊骤,計(jì)算標(biāo)準(zhǔn)差晃择,協(xié)方差和相關(guān)系數(shù)
1、簡(jiǎn)單的數(shù)據(jù)采樣
df_inner.sample(n=3)
2淘捡、手動(dòng)設(shè)置采樣權(quán)重
weights = [0, 0, 0, 0, 0.5, 0.5]
df_inner.sample(n=2, weights=weights)
3藕各、采樣后不放回
df_inner.sample(n=6, replace=False)
4池摧、采樣后放回
df_inner.sample(n=6, replace=True)
5焦除、 數(shù)據(jù)表描述性統(tǒng)計(jì)
df_inner.describe().round(2).T #round函數(shù)設(shè)置顯示小數(shù)位,T表示轉(zhuǎn)置
6作彤、計(jì)算列的標(biāo)準(zhǔn)差
df_inner['price'].std()
7膘魄、計(jì)算兩個(gè)字段間的協(xié)方差
df_inner['price'].cov(df_inner['m-point'])
8、數(shù)據(jù)表中所有字段間的協(xié)方差
df_inner.cov()
9竭讳、兩個(gè)字段的相關(guān)性分析
df_inner['price'].corr(df_inner['m-point']) #相關(guān)系數(shù)在-1到1之間创葡,接近1為正相關(guān),接近-1為負(fù)相關(guān)绢慢,0為不相關(guān)
10灿渴、數(shù)據(jù)表的相關(guān)性分析
df_inner.corr()
九洛波、數(shù)據(jù)輸出
分析后的數(shù)據(jù)可以輸出為xlsx格式和csv格式
1、寫(xiě)入Excel
df_inner.to_excel('excel_to_python.xlsx', sheet_name='bluewhale_cc')
2骚露、寫(xiě)入到CSV
df_inner.to_csv('excel_to_python.csv')