Python數(shù)據(jù)分析--Pandas(二)

一、生成數(shù)據(jù)表

1蓄坏、首先導(dǎo)入pandas庫(kù),一般都會(huì)用到numpy庫(kù)丑念,所以我們先導(dǎo)入備用:
import numpy as np
import pandas as pd

2涡戳、導(dǎo)入CSV或者xlsx文件:
df = pd.DataFrame(pd.read_csv('name.csv',header=1))
df = pd.DataFrame(pd.read_excel('name.xlsx'))

3、用pandas創(chuàng)建數(shù)據(jù)表:
df = pd.DataFrame({"id":[1001,1002,1003,1004,1005,1006],
"date":pd.date_range('20130102', periods=6),
"city":['Beijing ', 'SH', ' guangzhou ', 'Shenzhen', 'shanghai', 'BEIJING '],
"age":[23,44,54,32,34,32],
"category":['100-A','100-B','110-A','110-C','210-A','130-F'],
"price":[1200,np.nan,2133,5433,np.nan,4432]},
columns =['id','date','city','category','age','price'])

二脯倚、數(shù)據(jù)表信息查看

1渔彰、維度查看:
df.shape

2、數(shù)據(jù)表基本信息(維度推正、列名稱(chēng)恍涂、數(shù)據(jù)格式、所占空間等):

df.info()

3舔稀、每一列數(shù)據(jù)的格式:
df.dtypes

4乳丰、某一列格式:
df['B'].dtype
5掌测、空值:
df.isnull()

6内贮、查看某一列空值:
df.isnull()

7、查看某一列的唯一值:
df['B'].unique()

8汞斧、查看數(shù)據(jù)表的值:
df.values
9夜郁、查看列名稱(chēng):
df.columns

10、查看前10行數(shù)據(jù)粘勒、后10行數(shù)據(jù):
df.head() #默認(rèn)前10行數(shù)據(jù)
df.tail() #默認(rèn)后10 行數(shù)據(jù)

三竞端、數(shù)據(jù)表清洗

1、用數(shù)字0填充空值:
df.fillna(value=0)

2庙睡、使用列prince的均值對(duì)NA進(jìn)行填充:
df['prince'].fillna(df['prince'].mean())
3事富、清楚city字段的字符空格:
df['city']=df['city'].map(str.strip)
4、大小寫(xiě)轉(zhuǎn)換:
df['city']=df['city'].str.lower()
5乘陪、更改數(shù)據(jù)格式:
df['price'].astype('int')
6统台、更改列名稱(chēng):
df.rename(columns={'category': 'category-size'})
7、刪除后出現(xiàn)的重復(fù)值:
df['city'].drop_duplicates()

8啡邑、刪除先出現(xiàn)的重復(fù)值:
df['city'].drop_duplicates(keep='last')

9贱勃、數(shù)據(jù)替換:
df['city'].replace('sh', 'shanghai')

四、數(shù)據(jù)預(yù)處理

df1=pd.DataFrame({"id":[1001,1002,1003,1004,1005,1006,1007,1008],
"gender":['male','female','male','female','male','female','male','female'],
"pay":['Y','N','Y','Y','N','Y','N','Y',],
"m-point":[10,12,20,40,40,40,30,20]})

1、數(shù)據(jù)表合并
df_inner=pd.merge(df,df1,how='inner') # 匹配合并贵扰,交集
df_left=pd.merge(df,df1,how='left') #
df_right=pd.merge(df,df1,how='right')
df_outer=pd.merge(df,df1,how='outer') #并集

2仇穗、設(shè)置索引列
df_inner.set_index('id')

3、按照特定列的值排序:
df_inner.sort_values(by=['age'])

4戚绕、按照索引列排序:
df_inner.sort_index()

5纹坐、如果prince列的值>3000,group列顯示high列肢,否則顯示low:
df_inner['group'] = np.where(df_inner['price'] > 3000,'high','low')

6恰画、對(duì)復(fù)合多個(gè)條件的數(shù)據(jù)進(jìn)行分組標(biāo)記
df_inner.loc[(df_inner['city'] == 'beijing') & (df_inner['price'] >= 4000), 'sign']=1

7、對(duì)category字段的值依次進(jìn)行分列瓷马,并創(chuàng)建數(shù)據(jù)表拴还,索引值為df_inner的索引列,列名稱(chēng)為category和size
pd.DataFrame((x.split('-') for x in df_inner['category']),index=df_inner.index,columns=['category','size']))
8欧聘、將完成分裂后的數(shù)據(jù)表和原df_inner數(shù)據(jù)表進(jìn)行匹配
df_inner=pd.merge(df_inner,split,right_index=True, left_index=True)

五片林、數(shù)據(jù)提取

主要用到的三個(gè)函數(shù):loc,iloc和ix,loc函數(shù)按標(biāo)簽值進(jìn)行提取怀骤,iloc按位置進(jìn)行提取费封,ix可以同時(shí)按標(biāo)簽和位置進(jìn)行提取。
1蒋伦、按索引提取單行的數(shù)值
df_inner.loc[3]
2弓摘、按索引提取區(qū)域行數(shù)值
df_inner.iloc[0:5]
3、重設(shè)索引
df_inner.reset_index()
4痕届、設(shè)置日期為索引
df_inner=df_inner.set_index('date')
5韧献、提取4日之前的所有數(shù)據(jù)
df_inner[:'2013-01-04']
6、使用iloc按位置區(qū)域提取數(shù)據(jù)
df_inner.iloc[:3,:2] #冒號(hào)前后的數(shù)字不再是索引的標(biāo)簽名稱(chēng)研叫,而是數(shù)據(jù)所在的位置锤窑,從0開(kāi)始,前三行嚷炉,前兩列渊啰。
7、適應(yīng)iloc按位置單獨(dú)提起數(shù)據(jù)
df_inner.iloc[[0,2,5],[4,5]] #提取第0申屹、2绘证、5行,4哗讥、5列
8嚷那、使用ix按索引標(biāo)簽和位置混合提取數(shù)據(jù)
df_inner.ix[:'2013-01-03',:4] #2013-01-03號(hào)之前,前四列數(shù)據(jù)
9忌栅、判斷city列的值是否為北京
df_inner['city'].isin(['beijing'])
10车酣、判斷city列里是否包含beijing和shanghai曲稼,然后將符合條件的數(shù)據(jù)提取出來(lái)
df_inner.loc[df_inner['city'].isin(['beijing','shanghai'])]
11、提取前三個(gè)字符湖员,并生成數(shù)據(jù)表
pd.DataFrame(category.str[:3])

六贫悄、數(shù)據(jù)篩選

使用與、或娘摔、非三個(gè)條件配合大于窄坦、小于、等于對(duì)數(shù)據(jù)進(jìn)行篩選凳寺,并進(jìn)行計(jì)數(shù)和求和鸭津。
1、使用“與”進(jìn)行篩選
df_inner.loc[(df_inner['age'] > 25) & (df_inner['city'] == 'beijing'), ['id','city','age','category','gender']]
2肠缨、使用“或”進(jìn)行篩選
df_inner.loc[(df_inner['age'] > 25) | (df_inner['city'] == 'beijing'), ['id','city','age','category','gender']].sort(['age'])
3逆趋、使用“非”條件進(jìn)行篩選
df_inner.loc[(df_inner['city'] != 'beijing'), ['id','city','age','category','gender']].sort(['id'])
4、對(duì)篩選后的數(shù)據(jù)按city列進(jìn)行計(jì)數(shù)
df_inner.loc[(df_inner['city'] != 'beijing'), ['id','city','age','category','gender']].sort(['id']).city.count()
5晒奕、使用query函數(shù)進(jìn)行篩選
df_inner.query('city == ["beijing", "shanghai"]')
6闻书、對(duì)篩選后的結(jié)果按prince進(jìn)行求和
df_inner.query('city == ["beijing", "shanghai"]').price.sum()

七、數(shù)據(jù)匯總

主要函數(shù)是groupby和pivote_table
1脑慧、對(duì)所有的列進(jìn)行計(jì)數(shù)匯總
df_inner.groupby('city').count()
2魄眉、按城市對(duì)id字段進(jìn)行計(jì)數(shù)
df_inner.groupby('city')['id'].count()
3、對(duì)兩個(gè)字段進(jìn)行匯總計(jì)數(shù)
df_inner.groupby(['city','size'])['id'].count()
4闷袒、對(duì)city字段進(jìn)行匯總坑律,并分別計(jì)算prince的合計(jì)和均值
df_inner.groupby('city')['price'].agg([len,np.sum, np.mean])

八、數(shù)據(jù)統(tǒng)計(jì)

數(shù)據(jù)采樣囊骤,計(jì)算標(biāo)準(zhǔn)差晃择,協(xié)方差和相關(guān)系數(shù)
1、簡(jiǎn)單的數(shù)據(jù)采樣
df_inner.sample(n=3)
2淘捡、手動(dòng)設(shè)置采樣權(quán)重
weights = [0, 0, 0, 0, 0.5, 0.5]
df_inner.sample(n=2, weights=weights)
3藕各、采樣后不放回
df_inner.sample(n=6, replace=False)
4池摧、采樣后放回
df_inner.sample(n=6, replace=True)
5焦除、 數(shù)據(jù)表描述性統(tǒng)計(jì)
df_inner.describe().round(2).T #round函數(shù)設(shè)置顯示小數(shù)位,T表示轉(zhuǎn)置
6作彤、計(jì)算列的標(biāo)準(zhǔn)差
df_inner['price'].std()
7膘魄、計(jì)算兩個(gè)字段間的協(xié)方差
df_inner['price'].cov(df_inner['m-point'])
8、數(shù)據(jù)表中所有字段間的協(xié)方差
df_inner.cov()
9竭讳、兩個(gè)字段的相關(guān)性分析
df_inner['price'].corr(df_inner['m-point']) #相關(guān)系數(shù)在-1到1之間创葡,接近1為正相關(guān),接近-1為負(fù)相關(guān)绢慢,0為不相關(guān)
10灿渴、數(shù)據(jù)表的相關(guān)性分析
df_inner.corr()

九洛波、數(shù)據(jù)輸出

分析后的數(shù)據(jù)可以輸出為xlsx格式和csv格式
1、寫(xiě)入Excel
df_inner.to_excel('excel_to_python.xlsx', sheet_name='bluewhale_cc')

2骚露、寫(xiě)入到CSV
df_inner.to_csv('excel_to_python.csv')

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末蹬挤,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子棘幸,更是在濱河造成了極大的恐慌焰扳,老刑警劉巖,帶你破解...
    沈念sama閱讀 211,639評(píng)論 6 492
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件误续,死亡現(xiàn)場(chǎng)離奇詭異吨悍,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī)蹋嵌,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,277評(píng)論 3 385
  • 文/潘曉璐 我一進(jìn)店門(mén)育瓜,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人栽烂,你說(shuō)我怎么就攤上這事爆雹。” “怎么了愕鼓?”我有些...
    開(kāi)封第一講書(shū)人閱讀 157,221評(píng)論 0 348
  • 文/不壞的土叔 我叫張陵钙态,是天一觀的道長(zhǎng)。 經(jīng)常有香客問(wèn)我菇晃,道長(zhǎng)册倒,這世上最難降的妖魔是什么? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 56,474評(píng)論 1 283
  • 正文 為了忘掉前任磺送,我火速辦了婚禮驻子,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘估灿。我一直安慰自己崇呵,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,570評(píng)論 6 386
  • 文/花漫 我一把揭開(kāi)白布馅袁。 她就那樣靜靜地躺著域慷,像睡著了一般。 火紅的嫁衣襯著肌膚如雪汗销。 梳的紋絲不亂的頭發(fā)上犹褒,一...
    開(kāi)封第一講書(shū)人閱讀 49,816評(píng)論 1 290
  • 那天,我揣著相機(jī)與錄音弛针,去河邊找鬼叠骑。 笑死,一個(gè)胖子當(dāng)著我的面吹牛削茁,可吹牛的內(nèi)容都是我干的宙枷。 我是一名探鬼主播掉房,決...
    沈念sama閱讀 38,957評(píng)論 3 408
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼慰丛!你這毒婦竟也來(lái)了圃阳?” 一聲冷哼從身側(cè)響起,我...
    開(kāi)封第一講書(shū)人閱讀 37,718評(píng)論 0 266
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤璧帝,失蹤者是張志新(化名)和其女友劉穎捍岳,沒(méi)想到半個(gè)月后,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體睬隶,經(jīng)...
    沈念sama閱讀 44,176評(píng)論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡锣夹,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,511評(píng)論 2 327
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了苏潜。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片银萍。...
    茶點(diǎn)故事閱讀 38,646評(píng)論 1 340
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖恤左,靈堂內(nèi)的尸體忽然破棺而出贴唇,到底是詐尸還是另有隱情,我是刑警寧澤飞袋,帶...
    沈念sama閱讀 34,322評(píng)論 4 330
  • 正文 年R本政府宣布戳气,位于F島的核電站,受9級(jí)特大地震影響巧鸭,放射性物質(zhì)發(fā)生泄漏瓶您。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,934評(píng)論 3 313
  • 文/蒙蒙 一纲仍、第九天 我趴在偏房一處隱蔽的房頂上張望呀袱。 院中可真熱鬧,春花似錦郑叠、人聲如沸夜赵。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 30,755評(píng)論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)寇僧。三九已至,卻和暖如春署拟,著一層夾襖步出監(jiān)牢的瞬間婉宰,已是汗流浹背歌豺。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 31,987評(píng)論 1 266
  • 我被黑心中介騙來(lái)泰國(guó)打工推穷, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人类咧。 一個(gè)月前我還...
    沈念sama閱讀 46,358評(píng)論 2 360
  • 正文 我出身青樓馒铃,卻偏偏與公主長(zhǎng)得像蟹腾,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子区宇,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,514評(píng)論 2 348

推薦閱讀更多精彩內(nèi)容