二声功、pandas

1烦却、數(shù)據(jù)讀取

import pandas
nba_2013 = pandas.read_csv('nba_2013.csv')
print(type(nba_2013))
print(nba_2013.dtypes)
print(nba_2013.head()) #默認顯示前五行
print(nba_2013.tail()) #默認顯示后五行
print(nba_2013.columns)
print(nba_2013.shape)

print(type(nba_2013))的輸出:
<class 'pandas.core.frame.DataFrame'>

2、索引與計算

import pandas
nba_2013 = pandas.read_csv('nba_2013.csv')
print(nba_2013.loc[0]) #索引為0的數(shù)據(jù)
print(nba_2013.loc[3:6]) #索引為3先巴、4其爵、5、6的數(shù)據(jù)
print(nba_2013['player'])
print(nba_2013[['player','age']])
col_names = nba_2013.columns.tolist() #把變量名返回為列表形式
print(col_names)
end_point_columns = []
for i in col_names:
    if i.endswith('.'):
        end_point_columns.append(i) #把變量名為‘.’結(jié)尾的加入end_point_columns
end_point = nba_2013[end_point_columns]
print(end_point)

添加變量:

a=nba_2013['age']*10
print(a)
print(nba_2013.shape)
nba_2013['age*10']=a
print(nba_2013)

3筹裕、數(shù)據(jù)排序

import pandas
nba_2013 = pandas.read_csv('nba_2013.csv')
nba_2013.sort_values('age',inplace=True) #按年齡大小進行排序
print(nba_2013['age']) 
nba_2013.sort_values('age',inplace=True,ascending=False) #從大到小排
print(nba_2013['age'])

輸出:
16 19
168 19
355 20
115 20
422 20
129 20
186 20
......
156 37
8 38
226 38
148 39
325 39
Name: age, Length: 481, dtype: int64
325 39
148 39
226 38
8 38
156 37
......
249 20
355 20
115 20
168 19
16 19
Name: age, Length: 481, dtype: int64

4醋闭、泰坦尼克數(shù)據(jù)簡單處理

(1)首先導入數(shù)據(jù)窄驹,查看所有特征

import pandas
import numpy
pandas.set_option('display.max_columns',None) #顯示數(shù)據(jù)的所有列
# pandas.set_option('display.max_rows',None) #顯示數(shù)據(jù)的所有行
titanic = pandas.read_csv('titanic.csv')
print(titanic.columns)

輸出:
Index(['PassengerId', 'Survived', 'Pclass', 'Name', 'Sex', 'Age', 'SibSp',
'Parch', 'Ticket', 'Fare', 'Cabin', 'Embarked'],
dtype='object')

(2)查找Age的缺失值朝卒,并計數(shù)

age = titanic['Age']
print(age.loc[0:10])
age_is_null = pandas.isnull(age)
print(age_is_null)
age_is_NAN = age[age_is_null]
print(age_is_NAN)
print(len(age_is_NAN)) #缺失值117

輸出:
0 22.0
1 38.0
2 26.0
3 35.0
4 35.0
5 NaN
6 54.0
7 2.0
8 27.0
9 14.0
10 4.0
Name: Age, dtype: float64
0 False
1 False
2 False
3 False
4 False
5 True
6 False
......
884 False
885 False
886 False
887 False
888 True
889 False
890 False
Name: Age, Length: 891, dtype: bool
5 NaN
17 NaN
19 NaN
26 NaN
28 NaN

......
863 NaN
868 NaN
878 NaN
888 NaN
Name: Age, Length: 177, dtype: float64
177

(3)含有缺失值時無法直接計算均值等,要進行處理

mean_age = sum(titanic['Age'])/len(titanic['Age'])
print(mean_age)
good_age = age[age_is_null==False]
correct_mean_age = sum(good_age)/len(good_age)
print(correct_mean_age)

輸出:
nan
29.69911764705882

(4)透視圖

# 方法一:計算不同倉位的價格的平均數(shù)
fare = titanic.pivot_table(index='Pclass',values='Fare',aggfunc=numpy.mean)
print(fare)
#不同倉位獲救人數(shù)的平均數(shù)
passenager_survival = titanic.pivot_table(index='Pclass',values='Survived',aggfunc=numpy.mean)
print(passenager_survival)
#不同倉位的平均年齡
passenager_age = titanic.pivot_table(index='Pclass',values='Age',aggfunc=numpy.mean)
print(passenager_age)

輸出:
Fare
Pclass
1 84.154687
2 20.662183
3 13.675550
Survived
Pclass
1 0.629630
2 0.472826
3 0.242363
Age
Pclass
1 38.233441
2 29.877630
3 25.140620

(5)去掉缺失值

drop_na_columns = titanic.dropna(axis=1)  #axis=1丟掉列 默認丟掉行
new_titanic = titanic.dropna(axis=0,subset=['Age','Sex'])
row_index_5_age = titanic.loc[5,'Age'] #5是沒有值的
print(row_index_5_age) #現(xiàn)在打印5上的age

輸出:
nan
(6)排序

new_titanic = titanic.sort_values('Age',ascending=False)
print(new_titanic[0:10])
titanic_reindex = new_titanic.reset_index(drop=True) #drop=true 以前的索引值不要了乐埠,重新排
print('----------')
print(titanic_reindex.loc[0:10])

輸出:

 PassengerId  Survived  Pclass                                  Name  \
630          631         1       1  Barkworth, Mr. Algernon Henry Wilson   
851          852         0       3                   Svensson, Mr. Johan   
493          494         0       1               Artagaveytia, Mr. Ramon   
96            97         0       1             Goldschmidt, Mr. George B   
116          117         0       3                  Connors, Mr. Patrick   
672          673         0       2           Mitchell, Mr. Henry Michael   
745          746         0       1          Crosby, Capt. Edward Gifford   
33            34         0       2                 Wheadon, Mr. Edward H   
54            55         0       1        Ostby, Mr. Engelhart Cornelius   
280          281         0       3                      Duane, Mr. Frank   

      Sex   Age  SibSp  Parch      Ticket     Fare Cabin Embarked  
630  male  80.0      0      0       27042  30.0000   A23        S  
851  male  74.0      0      0      347060   7.7750   NaN        S  
493  male  71.0      0      0    PC 17609  49.5042   NaN        C  
96   male  71.0      0      0    PC 17754  34.6542    A5        C  
116  male  70.5      0      0      370369   7.7500   NaN        Q  
672  male  70.0      0      0  C.A. 24580  10.5000   NaN        S  
745  male  70.0      1      1   WE/P 5735  71.0000   B22        S  
33   male  66.0      0      0  C.A. 24579  10.5000   NaN        S  
54   male  65.0      0      1      113509  61.9792   B30        C  
280  male  65.0      0      0      336439   7.7500   NaN        Q  
----------
    PassengerId  Survived  Pclass                                  Name   Sex  \
0           631         1       1  Barkworth, Mr. Algernon Henry Wilson  male   
1           852         0       3                   Svensson, Mr. Johan  male   
2           494         0       1               Artagaveytia, Mr. Ramon  male   
3            97         0       1             Goldschmidt, Mr. George B  male   
4           117         0       3                  Connors, Mr. Patrick  male   
5           673         0       2           Mitchell, Mr. Henry Michael  male   
6           746         0       1          Crosby, Capt. Edward Gifford  male   
7            34         0       2                 Wheadon, Mr. Edward H  male   
8            55         0       1        Ostby, Mr. Engelhart Cornelius  male   
9           281         0       3                      Duane, Mr. Frank  male   
10          457         0       1             Millet, Mr. Francis Davis  male   

     Age  SibSp  Parch      Ticket     Fare Cabin Embarked  
0   80.0      0      0       27042  30.0000   A23        S  
1   74.0      0      0      347060   7.7750   NaN        S  
2   71.0      0      0    PC 17609  49.5042   NaN        C  
3   71.0      0      0    PC 17754  34.6542    A5        C  
4   70.5      0      0      370369   7.7500   NaN        Q  
5   70.0      0      0  C.A. 24580  10.5000   NaN        S  
6   70.0      1      1   WE/P 5735  71.0000   B22        S  
7   66.0      0      0  C.A. 24579  10.5000   NaN        S  
8   65.0      0      1      113509  61.9792   B30        C  
9   65.0      0      0      336439   7.7500   NaN        Q  
10  65.0      0      0       13509  26.5500   E38        S  

Process finished with exit code 0

(7)自定義函數(shù)

A抗斤、第一百個人的數(shù)據(jù)

def hundredth_row(data):
    hundredth_item = data.loc[99]
    return hundredth_item
hundredth_row = titanic.apply(hundredth_row)
print(hundredth_row)

輸出:
PassengerId 100
Survived 0
Pclass 2
Name Kantor, Mr. Sinai
Sex male
Age 34
SibSp 1
Parch 0
Ticket 244367
Fare 26
Cabin NaN
Embarked S
dtype: object

B、計算各特征的缺失值

def not_null_count(data):
    data_null = pandas.isnull(data)
    null = data[data_null]
    return len(null)
data_null_count = titanic.apply(not_null_count)
print(data_null_count)

PassengerId 0
Survived 0
Pclass 0
Name 0
Sex 0
Age 177
SibSp 0
Parch 0
Ticket 0
Fare 0
Cabin 687
Embarked 2
dtype: int64

C丈咐、把數(shù)值型變量改成定性變量瑞眼,并由此做透視圖

def age_to_lei(data):
    age = data['Age']
    if pandas.isnull(age)==True:
        return 'unknow'
    elif age>18:
        return 'adult'
    else:
        return 'child'
new_age = titanic.apply(age_to_lei,axis=1)
print(new_age)
#不同年齡段的存活率
titanic['new_age']=new_age
newage_survived = pandas.pivot_table(titanic,index='new_age',values='Survived')
print(newage_survived)

輸出:
0 adult
1 adult
2 adult
3 adult
4 adult
......
885 adult
886 adult
887 adult
888 unknow
889 adult
890 adult
Length: 891, dtype: object

new_age Survived
adult 0.382609
child 0.503597
unknow 0.293785

5、series

import pandas as pd
import numpy as np
T10yr = pd.read_csv('T10yr.csv')
print(T10yr.columns)
serise_Date = T10yr['Date']
print(serise_Date[0:5])
print(type(serise_Date))
serise_High = T10yr['High']
print(serise_High[0:5])

輸出:
Index(['Date', 'Open', 'High', 'Low', 'Close', 'Volume', 'Adj Close'], dtype='object')
0 2000-01-03
1 2000-01-04
2 2000-01-05
3 2000-01-06
4 2000-01-07
Name: Date, dtype: object
<class 'pandas.core.series.Series'>
0 6.603
1 6.548
2 6.599
3 6.585
4 6.595
Name: High, dtype: float64


對兩個series進行處理棵逊,一個作為索引伤疙,一個作為值

from pandas import Series
serise_Date_value = serise_Date.values
print(type(serise_Date_value))
serise_High_value = serise_High.values
serise_High_Date = Series(index=serise_Date_value,data=serise_High_value)
print(serise_High_Date[['2000-01-03','2000-01-05']])
print(serise_High_Date['2000-01-03':'2000-01-07'])
print('-------------------')
print(serise_High_Date[0:5])

輸出:
<class 'numpy.ndarray'>
2000-01-03 6.603
2000-01-05 6.599
dtype: float64
2000-01-03 6.603
2000-01-04 6.548
2000-01-05 6.599
2000-01-06 6.585
2000-01-07 6.595
dtype: float64


2000-01-03 6.603
2000-01-04 6.548
2000-01-05 6.599
2000-01-06 6.585
2000-01-07 6.595
dtype: float64


.apply可以調(diào)函數(shù)用

high_low = T10yr[['Low','High']]
high_low.apply(lambda x:np.std,axis=1)
print(high_low)

輸出:
Low High
0 6.498 6.603
1 6.485 6.548
2 6.508 6.599
3 6.540 6.585
......
4163 1.549 1.587
4164 1.511 1.570
4165 1.493 1.535
4166 1.458 1.530

[4167 rows x 2 columns]

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子徒像,更是在濱河造成了極大的恐慌黍特,老刑警劉巖,帶你破解...
    沈念sama閱讀 218,607評論 6 507
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件锯蛀,死亡現(xiàn)場離奇詭異灭衷,居然都是意外死亡,警方通過查閱死者的電腦和手機旁涤,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,239評論 3 395
  • 文/潘曉璐 我一進店門翔曲,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人劈愚,你說我怎么就攤上這事瞳遍。” “怎么了造虎?”我有些...
    開封第一講書人閱讀 164,960評論 0 355
  • 文/不壞的土叔 我叫張陵灶泵,是天一觀的道長。 經(jīng)常有香客問我犬金,道長忆畅,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,750評論 1 294
  • 正文 為了忘掉前任氓轰,我火速辦了婚禮婚夫,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘署鸡。我一直安慰自己案糙,他們只是感情好,可當我...
    茶點故事閱讀 67,764評論 6 392
  • 文/花漫 我一把揭開白布靴庆。 她就那樣靜靜地躺著时捌,像睡著了一般。 火紅的嫁衣襯著肌膚如雪炉抒。 梳的紋絲不亂的頭發(fā)上奢讨,一...
    開封第一講書人閱讀 51,604評論 1 305
  • 那天,我揣著相機與錄音焰薄,去河邊找鬼拿诸。 笑死,一個胖子當著我的面吹牛塞茅,可吹牛的內(nèi)容都是我干的亩码。 我是一名探鬼主播,決...
    沈念sama閱讀 40,347評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼野瘦,長吁一口氣:“原來是場噩夢啊……” “哼描沟!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,253評論 0 276
  • 序言:老撾萬榮一對情侶失蹤吏廉,失蹤者是張志新(化名)和其女友劉穎蠢络,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體迟蜜,經(jīng)...
    沈念sama閱讀 45,702評論 1 315
  • 正文 獨居荒郊野嶺守林人離奇死亡刹孔,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,893評論 3 336
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了娜睛。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片髓霞。...
    茶點故事閱讀 40,015評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖畦戒,靈堂內(nèi)的尸體忽然破棺而出方库,到底是詐尸還是另有隱情,我是刑警寧澤障斋,帶...
    沈念sama閱讀 35,734評論 5 346
  • 正文 年R本政府宣布纵潦,位于F島的核電站,受9級特大地震影響垃环,放射性物質(zhì)發(fā)生泄漏邀层。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 41,352評論 3 330
  • 文/蒙蒙 一遂庄、第九天 我趴在偏房一處隱蔽的房頂上張望寥院。 院中可真熱鬧,春花似錦涛目、人聲如沸秸谢。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,934評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽估蹄。三九已至,卻和暖如春沫换,著一層夾襖步出監(jiān)牢的瞬間臭蚁,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,052評論 1 270
  • 我被黑心中介騙來泰國打工苗沧, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留刊棕,地道東北人炭晒。 一個月前我還...
    沈念sama閱讀 48,216評論 3 371
  • 正文 我出身青樓待逞,卻偏偏與公主長得像,于是被迫代替她去往敵國和親网严。 傳聞我的和親對象是個殘疾皇子识樱,可洞房花燭夜當晚...
    茶點故事閱讀 44,969評論 2 355

推薦閱讀更多精彩內(nèi)容