【Titanic】-預處理基礎(chǔ)之Pandas

import pandas as pd #引入pandas

titanic=pd.read_csv('...') #讀取csv, titanic為DataFrame

titanic.head() #獲取前5行

titanic.shape #DataFrame行和列

titanic.describe()#統(tǒng)計DataFrame每列的count,mean,std,min,25%,50%,75%,max

titanic.info()#統(tǒng)計每列的null/notnull,類型腕扶,內(nèi)存占用

titanic.isnull().sum()#統(tǒng)計每列為空的數(shù)量

titanic[titanic['Embarked'].isnull()] #獲取Embarked列值為空的所有數(shù)據(jù)

titanic["Embarked"]=titanic["Embarked"].fillna('C') #Embarked列為空的值都賦為C辨图,然后將新DF的列賦值回去(必須賦值回去员凝,fillna并不改變原來的值,得到的是一個新列)

itanic["Deck"].unique() #獲取Deck所有unique后的值

titanic_df=titanic_df.drop(['PassengerId','Name','Ticket'],axis=1) ?#drop掉無需的列

titanic_df=titanic_df.join(embark_dummies_titanic) #df之間做join

test_df["Age"] #獲取列名為Age的列拿穴,為一個Serial

embark_perc=titanic_df[["Embarked","Survived"]].groupby(['Embarked'],as_index=False) #對Embarked列做groupby

average_age_test=test_df["Age"].mean()#均值

std_age_test=test_df["Age"].std()#標準差

count_nan_age_test=test_df["Age"].isnull().sum()#非空之和

titanic_df['Family'].loc[titanic_df['Family']>0]=1 ?#將family大于0的都置為1

titanic["NameLength"]=titanic["Name"].apply(lambdax:len(x))#對老列進行運行得到新列

person_dummies_titanic=pd.get_dummies(titanic_df['Person'])#對Person列轉(zhuǎn)為One-Hot編碼

titanic.corr()["Survived"]#求取titanic各列和Survived列的協(xié)方差

titanic[titanic['Embarked'].isnull()] ?#獲取Embarked所有非空的列

pd.Series([1,3,5,np.nan,6,8])#創(chuàng)建Seriers

pd.date_range('20130101',periods=6) #創(chuàng)建從20130101開始6天严卖,數(shù)據(jù)類型為DatetimeIndex

pd.DataFrame(np.random.randn(6,4),index=dates,columns=list('ABCD')) #創(chuàng)建DF宴抚,列為A,B,C,D行為上面創(chuàng)建的時間index

df2.dtypes #獲取DF的數(shù)據(jù)類型

df.tail(3)#獲取df最后3行

df.index#獲取df的index

df.columns #獲取df的列

df.values #獲取df的values

df.sort_index(axis=1,ascending=False) #按照軸來排序

df.sort(columns='B') #按照列值排序

df[0:3] ?#獲取前三行

df['20130102':'20130104'] 獲取Index從20130102到20170104

df.loc['20130102':'20130104',['A','B']] ?#index從20130102到20170104,袄膏,并選擇a,b列

df1.dropna(how='any') 刪除所有任意有控制的行

排序:

df.sort_values(by='internalReturn', ascending=False) #按照internalReturn列降序排序

df.sort_index(axis=1, ascending=False) # axis代碼軸践图,0代表行,1代碼列沉馆。這樣即是對列之間做排序

df[df.A>0] #選擇列A大于0的所有列

f2=df.copy() #拷貝得到一個新的df

df.loc #使用標簽選擇

df.loc['20130102':'20130104',['A','B']] #選擇從20130102到20130104間A,B列數(shù)據(jù)

df.iloc#使用位置選擇

df.iloc[3:5,0:2] ?#選擇index為3到5直接码党,列號從0到2之間的數(shù)據(jù)

賦值

df['F']=s1 #s1為一個Serial,將s1復制到F列

df.at[dates[0],'A'] = 0 #按標簽賦值斥黑,將第一行揖盘,A列元素賦值為0?

df.iat[0,1]=0 #按位置賦值,將0行1锌奴,列元素賦值為0




參考http://python.jobbole.com/84416/

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末兽狭,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌椭符,老刑警劉巖荔燎,帶你破解...
    沈念sama閱讀 221,430評論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異销钝,居然都是意外死亡有咨,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,406評論 3 398
  • 文/潘曉璐 我一進店門蒸健,熙熙樓的掌柜王于貴愁眉苦臉地迎上來座享,“玉大人,你說我怎么就攤上這事似忧≡眩” “怎么了?”我有些...
    開封第一講書人閱讀 167,834評論 0 360
  • 文/不壞的土叔 我叫張陵盯捌,是天一觀的道長淳衙。 經(jīng)常有香客問我,道長饺著,這世上最難降的妖魔是什么箫攀? 我笑而不...
    開封第一講書人閱讀 59,543評論 1 296
  • 正文 為了忘掉前任,我火速辦了婚禮幼衰,結(jié)果婚禮上靴跛,老公的妹妹穿的比我還像新娘。我一直安慰自己渡嚣,他們只是感情好梢睛,可當我...
    茶點故事閱讀 68,547評論 6 397
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著识椰,像睡著了一般绝葡。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上腹鹉,一...
    開封第一講書人閱讀 52,196評論 1 308
  • 那天挤牛,我揣著相機與錄音,去河邊找鬼种蘸。 笑死,一個胖子當著我的面吹牛竞膳,可吹牛的內(nèi)容都是我干的航瞭。 我是一名探鬼主播,決...
    沈念sama閱讀 40,776評論 3 421
  • 文/蒼蘭香墨 我猛地睜開眼坦辟,長吁一口氣:“原來是場噩夢啊……” “哼刊侯!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起锉走,我...
    開封第一講書人閱讀 39,671評論 0 276
  • 序言:老撾萬榮一對情侶失蹤滨彻,失蹤者是張志新(化名)和其女友劉穎藕届,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體亭饵,經(jīng)...
    沈念sama閱讀 46,221評論 1 320
  • 正文 獨居荒郊野嶺守林人離奇死亡休偶,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 38,303評論 3 340
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了辜羊。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片踏兜。...
    茶點故事閱讀 40,444評論 1 352
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖八秃,靈堂內(nèi)的尸體忽然破棺而出碱妆,到底是詐尸還是另有隱情,我是刑警寧澤昔驱,帶...
    沈念sama閱讀 36,134評論 5 350
  • 正文 年R本政府宣布疹尾,位于F島的核電站,受9級特大地震影響骤肛,放射性物質(zhì)發(fā)生泄漏纳本。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 41,810評論 3 333
  • 文/蒙蒙 一萌衬、第九天 我趴在偏房一處隱蔽的房頂上張望饮醇。 院中可真熱鬧,春花似錦秕豫、人聲如沸朴艰。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,285評論 0 24
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽祠墅。三九已至,卻和暖如春歌径,著一層夾襖步出監(jiān)牢的瞬間毁嗦,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,399評論 1 272
  • 我被黑心中介騙來泰國打工回铛, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留狗准,地道東北人。 一個月前我還...
    沈念sama閱讀 48,837評論 3 376
  • 正文 我出身青樓茵肃,卻偏偏與公主長得像腔长,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子验残,可洞房花燭夜當晚...
    茶點故事閱讀 45,455評論 2 359

推薦閱讀更多精彩內(nèi)容

  • pyspark.sql模塊 模塊上下文 Spark SQL和DataFrames的重要類: pyspark.sql...
    mpro閱讀 9,464評論 0 13
  • 探索數(shù)據(jù)集-泰坦尼克號數(shù)據(jù) 一捞附、讀取數(shù)據(jù) import pandas as pdimport numpy as n...
    楊小彤閱讀 832評論 0 1
  • 1.故事背景 泰坦尼克號沉船事故是世界上最著名的沉船事故之一。1912年4月15日,在她的處女航期間鸟召,泰坦尼克號撞...
    弱堿強酸閱讀 1,954評論 0 8
  • 受到numpy100題的啟發(fā)胆绊,我們制作了pandas50題。 Pandas 是基于 NumPy 的一種數(shù)據(jù)處理工具...
    91160e77b9d6閱讀 1,079評論 0 0
  • 對kaggle不做過多介紹 都知道這是一個數(shù)據(jù)挖掘的圣地欧募,泰坦尼克號事件也不多做介紹压状,馬上進入正題 ...
    披風海膽放閱讀 1,212評論 1 4