Python數(shù)據(jù)分析--Pandas(二)

一、生成數(shù)據(jù)表

1蓄坏、首先導(dǎo)入pandas庫(kù)，一般都會(huì)用到numpy庫(kù)丑念，所以我們先導(dǎo)入備用：
import numpy as np
import pandas as pd

2涡戳、導(dǎo)入CSV或者xlsx文件：
df = pd.DataFrame(pd.read_csv('name.csv',header=1))
df = pd.DataFrame(pd.read_excel('name.xlsx'))

3、用pandas創(chuàng)建數(shù)據(jù)表：
df = pd.DataFrame({"id":[1001,1002,1003,1004,1005,1006],
"date":pd.date_range('20130102', periods=6),
"city":['Beijing ', 'SH', ' guangzhou ', 'Shenzhen', 'shanghai', 'BEIJING '],
"age":[23,44,54,32,34,32],
"category":['100-A','100-B','110-A','110-C','210-A','130-F'],
"price":[1200,np.nan,2133,5433,np.nan,4432]},
columns =['id','date','city','category','age','price'])

二脯倚、數(shù)據(jù)表信息查看

1渔彰、維度查看：
df.shape

2、數(shù)據(jù)表基本信息（維度推正、列名稱(chēng)恍涂、數(shù)據(jù)格式、所占空間等）：

df.info()

3舔稀、每一列數(shù)據(jù)的格式：
df.dtypes

4乳丰、某一列格式：
df['B'].dtype
5掌测、空值：
df.isnull()

6内贮、查看某一列空值：
df.isnull()

7、查看某一列的唯一值：
df['B'].unique()

8汞斧、查看數(shù)據(jù)表的值：
df.values
9夜郁、查看列名稱(chēng)：
df.columns

10、查看前10行數(shù)據(jù)粘勒、后10行數(shù)據(jù)：
df.head() #默認(rèn)前10行數(shù)據(jù)
df.tail() #默認(rèn)后10 行數(shù)據(jù)

三竞端、數(shù)據(jù)表清洗

1、用數(shù)字0填充空值：
df.fillna(value=0)

2庙睡、使用列prince的均值對(duì)NA進(jìn)行填充：
df['prince'].fillna(df['prince'].mean())
3事富、清楚city字段的字符空格：
df['city']=df['city'].map(str.strip)
4、大小寫(xiě)轉(zhuǎn)換：
df['city']=df['city'].str.lower()
5乘陪、更改數(shù)據(jù)格式：
df['price'].astype('int')
6统台、更改列名稱(chēng)：
df.rename(columns={'category': 'category-size'})
7、刪除后出現(xiàn)的重復(fù)值：
df['city'].drop_duplicates()

8啡邑、刪除先出現(xiàn)的重復(fù)值：
df['city'].drop_duplicates(keep='last')

9贱勃、數(shù)據(jù)替換：
df['city'].replace('sh', 'shanghai')

四、數(shù)據(jù)預(yù)處理

df1=pd.DataFrame({"id":[1001,1002,1003,1004,1005,1006,1007,1008],
"gender":['male','female','male','female','male','female','male','female'],
"pay":['Y','N','Y','Y','N','Y','N','Y',],
"m-point":[10,12,20,40,40,40,30,20]})

1、數(shù)據(jù)表合并
df_inner=pd.merge(df,df1,how='inner') # 匹配合并贵扰，交集
df_left=pd.merge(df,df1,how='left') #
df_right=pd.merge(df,df1,how='right')
df_outer=pd.merge(df,df1,how='outer') #并集

2仇穗、設(shè)置索引列
df_inner.set_index('id')

3、按照特定列的值排序：
df_inner.sort_values(by=['age'])

4戚绕、按照索引列排序：
df_inner.sort_index()

5纹坐、如果prince列的值>3000，group列顯示high列肢，否則顯示low：
df_inner['group'] = np.where(df_inner['price'] > 3000,'high','low')

6恰画、對(duì)復(fù)合多個(gè)條件的數(shù)據(jù)進(jìn)行分組標(biāo)記
df_inner.loc[(df_inner['city'] == 'beijing') & (df_inner['price'] >= 4000), 'sign']=1

7、對(duì)category字段的值依次進(jìn)行分列瓷马，并創(chuàng)建數(shù)據(jù)表拴还，索引值為df_inner的索引列，列名稱(chēng)為category和size
pd.DataFrame((x.split('-') for x in df_inner['category']),index=df_inner.index,columns=['category','size']))
8欧聘、將完成分裂后的數(shù)據(jù)表和原df_inner數(shù)據(jù)表進(jìn)行匹配
df_inner=pd.merge(df_inner,split,right_index=True, left_index=True)

五片林、數(shù)據(jù)提取

主要用到的三個(gè)函數(shù)：loc,iloc和ix，loc函數(shù)按標(biāo)簽值進(jìn)行提取怀骤，iloc按位置進(jìn)行提取费封，ix可以同時(shí)按標(biāo)簽和位置進(jìn)行提取。
1蒋伦、按索引提取單行的數(shù)值
df_inner.loc[3]
2弓摘、按索引提取區(qū)域行數(shù)值
df_inner.iloc[0:5]
3、重設(shè)索引
df_inner.reset_index()
4痕届、設(shè)置日期為索引
df_inner=df_inner.set_index('date')
5韧献、提取4日之前的所有數(shù)據(jù)
df_inner[:'2013-01-04']
6、使用iloc按位置區(qū)域提取數(shù)據(jù)
df_inner.iloc[:3,:2] #冒號(hào)前后的數(shù)字不再是索引的標(biāo)簽名稱(chēng)研叫，而是數(shù)據(jù)所在的位置锤窑，從0開(kāi)始，前三行嚷炉，前兩列渊啰。
7、適應(yīng)iloc按位置單獨(dú)提起數(shù)據(jù)
df_inner.iloc[[0,2,5],[4,5]] #提取第0申屹、2绘证、5行，4哗讥、5列
8嚷那、使用ix按索引標(biāo)簽和位置混合提取數(shù)據(jù)
df_inner.ix[:'2013-01-03',:4] #2013-01-03號(hào)之前，前四列數(shù)據(jù)
9忌栅、判斷city列的值是否為北京
df_inner['city'].isin(['beijing'])
10车酣、判斷city列里是否包含beijing和shanghai曲稼，然后將符合條件的數(shù)據(jù)提取出來(lái)
df_inner.loc[df_inner['city'].isin(['beijing','shanghai'])]
11、提取前三個(gè)字符湖员，并生成數(shù)據(jù)表
pd.DataFrame(category.str[:3])

六贫悄、數(shù)據(jù)篩選

使用與、或娘摔、非三個(gè)條件配合大于窄坦、小于、等于對(duì)數(shù)據(jù)進(jìn)行篩選凳寺，并進(jìn)行計(jì)數(shù)和求和鸭津。
1、使用“與”進(jìn)行篩選
df_inner.loc[(df_inner['age'] > 25) & (df_inner['city'] == 'beijing'), ['id','city','age','category','gender']]
2肠缨、使用“或”進(jìn)行篩選
df_inner.loc[(df_inner['age'] > 25) | (df_inner['city'] == 'beijing'), ['id','city','age','category','gender']].sort(['age'])
3逆趋、使用“非”條件進(jìn)行篩選
df_inner.loc[(df_inner['city'] != 'beijing'), ['id','city','age','category','gender']].sort(['id'])
4、對(duì)篩選后的數(shù)據(jù)按city列進(jìn)行計(jì)數(shù)
df_inner.loc[(df_inner['city'] != 'beijing'), ['id','city','age','category','gender']].sort(['id']).city.count()
5晒奕、使用query函數(shù)進(jìn)行篩選
df_inner.query('city == ["beijing", "shanghai"]')
6闻书、對(duì)篩選后的結(jié)果按prince進(jìn)行求和
df_inner.query('city == ["beijing", "shanghai"]').price.sum()

七、數(shù)據(jù)匯總

主要函數(shù)是groupby和pivote_table
1脑慧、對(duì)所有的列進(jìn)行計(jì)數(shù)匯總
df_inner.groupby('city').count()
2魄眉、按城市對(duì)id字段進(jìn)行計(jì)數(shù)
df_inner.groupby('city')['id'].count()
3、對(duì)兩個(gè)字段進(jìn)行匯總計(jì)數(shù)
df_inner.groupby(['city','size'])['id'].count()
4闷袒、對(duì)city字段進(jìn)行匯總坑律，并分別計(jì)算prince的合計(jì)和均值
df_inner.groupby('city')['price'].agg([len,np.sum, np.mean])

八、數(shù)據(jù)統(tǒng)計(jì)

數(shù)據(jù)采樣囊骤，計(jì)算標(biāo)準(zhǔn)差晃择，協(xié)方差和相關(guān)系數(shù)
1、簡(jiǎn)單的數(shù)據(jù)采樣
df_inner.sample(n=3)
2淘捡、手動(dòng)設(shè)置采樣權(quán)重
weights = [0, 0, 0, 0, 0.5, 0.5]
df_inner.sample(n=2, weights=weights)
3藕各、采樣后不放回
df_inner.sample(n=6, replace=False)
4池摧、采樣后放回
df_inner.sample(n=6, replace=True)
5焦除、數(shù)據(jù)表描述性統(tǒng)計(jì)
df_inner.describe().round(2).T #round函數(shù)設(shè)置顯示小數(shù)位，T表示轉(zhuǎn)置
6作彤、計(jì)算列的標(biāo)準(zhǔn)差
df_inner['price'].std()
7膘魄、計(jì)算兩個(gè)字段間的協(xié)方差
df_inner['price'].cov(df_inner['m-point'])
8、數(shù)據(jù)表中所有字段間的協(xié)方差
df_inner.cov()
9竭讳、兩個(gè)字段的相關(guān)性分析
df_inner['price'].corr(df_inner['m-point']) #相關(guān)系數(shù)在-1到1之間创葡，接近1為正相關(guān)，接近-1為負(fù)相關(guān)绢慢，0為不相關(guān)
10灿渴、數(shù)據(jù)表的相關(guān)性分析
df_inner.corr()

九洛波、數(shù)據(jù)輸出

分析后的數(shù)據(jù)可以輸出為xlsx格式和csv格式
1、寫(xiě)入Excel
df_inner.to_excel('excel_to_python.xlsx', sheet_name='bluewhale_cc')

2骚露、寫(xiě)入到CSV
df_inner.to_csv('excel_to_python.csv')

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末蹬挤，一起剝皮案震驚了整個(gè)濱河市，隨后出現(xiàn)的幾起案子棘幸，更是在濱河造成了極大的恐慌焰扳，老刑警劉巖，帶你破解...
沈念sama閱讀 211,639評(píng)論 6贊 492
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件误续，死亡現(xiàn)場(chǎng)離奇詭異吨悍，居然都是意外死亡，警方通過(guò)查閱死者的電腦和手機(jī)蹋嵌，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 90,277評(píng)論 3贊 385
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門(mén)育瓜，熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)，“玉大人栽烂，你說(shuō)我怎么就攤上這事爆雹。” “怎么了愕鼓？”我有些...
開(kāi)封第一講書(shū)人閱讀 157,221評(píng)論 0贊 348
道士緝兇錄：失蹤的賣(mài)姜人
文/不壞的土叔我叫張陵钙态，是天一觀的道長(zhǎng)。經(jīng)常有香客問(wèn)我菇晃，道長(zhǎng)册倒，這世上最難降的妖魔是什么？我笑而不...
開(kāi)封第一講書(shū)人閱讀 56,474評(píng)論 1贊 283
?港島之戀（遺憾婚禮）
正文為了忘掉前任磺送，我火速辦了婚禮驻子，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘估灿。我一直安慰自己崇呵，他們只是感情好，可當(dāng)我...
茶點(diǎn)故事閱讀 65,570評(píng)論 6贊 386
惡毒庶女頂嫁案：這布局不是一般人想出來(lái)的
文/花漫我一把揭開(kāi)白布馅袁。她就那樣靜靜地躺著域慷，像睡著了一般。火紅的嫁衣襯著肌膚如雪汗销。梳的紋絲不亂的頭發(fā)上犹褒，一...
開(kāi)封第一講書(shū)人閱讀 49,816評(píng)論 1贊 290
城市分裂傳說(shuō)
那天，我揣著相機(jī)與錄音弛针，去河邊找鬼叠骑。笑死，一個(gè)胖子當(dāng)著我的面吹牛削茁，可吹牛的內(nèi)容都是我干的宙枷。我是一名探鬼主播掉房，決...
沈念sama閱讀 38,957評(píng)論 3贊 408
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開(kāi)眼，長(zhǎng)吁一口氣：“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼慰丛！你這毒婦竟也來(lái)了圃阳？” 一聲冷哼從身側(cè)響起，我...
開(kāi)封第一講書(shū)人閱讀 37,718評(píng)論 0贊 266
萬(wàn)榮殺人案實(shí)錄
序言：老撾萬(wàn)榮一對(duì)情侶失蹤璧帝，失蹤者是張志新（化名）和其女友劉穎捍岳，沒(méi)想到半個(gè)月后，有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體睬隶，經(jīng)...
沈念sama閱讀 44,176評(píng)論 1贊 303
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡锣夹，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 36,511評(píng)論 2贊 327
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了苏潜。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片银萍。...
茶點(diǎn)故事閱讀 38,646評(píng)論 1贊 340
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡，死狀恐怖恤左，靈堂內(nèi)的尸體忽然破棺而出贴唇，到底是詐尸還是另有隱情，我是刑警寧澤飞袋，帶...
沈念sama閱讀 34,322評(píng)論 4贊 330
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布戳气，位于F島的核電站，受9級(jí)特大地震影響巧鸭，放射性物質(zhì)發(fā)生泄漏瓶您。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 39,934評(píng)論 3贊 313
男人毒藥：我在死后第九天來(lái)索命
文/蒙蒙一纲仍、第九天我趴在偏房一處隱蔽的房頂上張望呀袱。院中可真熱鬧，春花似錦郑叠、人聲如沸夜赵。這莊子的主人今日做“春日...
開(kāi)封第一講書(shū)人閱讀 30,755評(píng)論 0贊 21
一樁弒父案乡革，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)寇僧。三九已至，卻和暖如春署拟，著一層夾襖步出監(jiān)牢的瞬間婉宰，已是汗流浹背歌豺。一陣腳步聲響...
開(kāi)封第一講書(shū)人閱讀 31,987評(píng)論 1贊 266
情欲美人皮
我被黑心中介騙來(lái)泰國(guó)打工推穷，沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留，地道東北人类咧。一個(gè)月前我還...
沈念sama閱讀 46,358評(píng)論 2贊 360
代替公主和親
正文我出身青樓馒铃，卻偏偏與公主長(zhǎng)得像蟹腾，于是被迫代替她去往敵國(guó)和親。傳聞我的和親對(duì)象是個(gè)殘疾皇子区宇，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 43,514評(píng)論 2贊 348