Pandas 數(shù)據(jù)處理(一) —— 幾個簡單函數(shù)掌握辟癌!

對于 Pandas, 接觸過 Python 數(shù)據(jù)處理的小伙伴們都應該挺熟悉的巍棱,做數(shù)據(jù)處理不可或缺的一個程序包惑畴,最大的特點高效,本篇文章將通過案例介紹一下 Pandas 的一些基礎使用航徙!

1桨菜,讀入數(shù)據(jù)

大部分數(shù)據(jù)都可以用 read_csv() 函數(shù)讀入,函數(shù)中有個 sep 參數(shù)捉偏,表示數(shù)據(jù)的分隔符倒得,默認為 “,” (因為大部分 csv 文件數(shù)據(jù)之間就是以 夭禽,隔開的)

users = pd.read_csv("https://raw.githubusercontent.com/justmarkham/DAT8/master/data/u.user",                   sep = '|')# Read data;users

原始數(shù)據(jù):

Snipaste_2020-06-13_08-22-39.png

讀取之后的數(shù)據(jù):

Snipaste_2020-06-13_08-26-03.png

除了 read_csv 之外霞掺,還有一個常用的 read_table函數(shù)也可進行讀取操作,用法與 read_csv 相似

2讹躯,改變索引值菩彬,只展示前幾行數(shù)據(jù)

set_index() 函數(shù)用來改變索引值,注意需要加一個參數(shù) replace = True 表示替代潮梯; 利用 head(n) 函數(shù)表示只展示前 n 行數(shù)據(jù)

users.set_index('user_id',inplace = True)users.head(25)
Snipaste_2020-06-13_08-26-13.png

tail(n) 只展示后幾行數(shù)據(jù)骗灶;

3,查看數(shù)據(jù)的行和列的基本信息

1秉馏,shape 返回 數(shù)據(jù)的行數(shù)和列數(shù)耙旦,以 tuple 形式返回;

users.shape# (943, 4)

2萝究,columns 返回數(shù)據(jù)列名免都;

users.columns# Index(['age', 'gender', 'occupation', 'zip_code'], dtype='object')

3,index 返回行名帆竹;

users.indexInt64Index([  1,   2,   3,   4,   5,   6,   7,   8,   9,  10,            ...            934, 935, 936, 937, 938, 939, 940, 941, 942, 943],           dtype='int64', name='user_id', length=943)

4绕娘,dtypes 返回各列的數(shù)據(jù)類型;

users.dtypes# age            int64gender        objectoccupation    objectzip_code      objectdtype: object

4栽连,只選取某列或多列數(shù)據(jù)

Pandas 提供多種方式可供選擇险领,注:users 表示 Pandas 可處理的DataFrame 格式;

1,users.列名;

users.occupation

2绢陌,users[['列名']]挨下;

users[['occupation']]

3,users.loc[:,['列名']]下面;

users.loc[:,['occupation']]
Snipaste_2020-06-13_10-39-00.png

同時選取多列數(shù)據(jù)時

1,users[['列名1','列名2']]绩聘;

users[['occupation','age']]

2沥割,users.loc[:,['列名1','列名2']];

users.loc[:,['occupation','age']]
Snipaste_2020-06-13_20-49-34.png

5,對列中數(shù)據(jù)做去重統(tǒng)計

1凿菩,列名.nunique() 查看某一列數(shù)據(jù)有多少個不重復樣本机杜;

users.occupation.nunique()# 21

也可以通過這種方式實現(xiàn)

列名.value_counts().count()

users.occupation.value_counts().count()# 21

如果想在1 的基礎之上,查看每一個不重復樣本在數(shù)據(jù)列表沖出現(xiàn)了幾次衅谷,可用下面語句

users.列名.value_counts()

users.occupation.value_counts().head()# student          196other            105educator          95administrator     79engineer          67Name: occupation, dtype: int64

6椒拗,對數(shù)據(jù)列表中的數(shù)字列做個簡單統(tǒng)計

users.describe() 即可實現(xiàn),默認統(tǒng)計的是 numeric columns(列中數(shù)據(jù)都是以數(shù)值進行展示的)

users.describe()
Snipaste_2020-06-13_20-49-55.png

當然也可以統(tǒng)計全部列获黔,加一個參數(shù) include = 'all';

users.describe(include = 'all')
Snipaste_2020-06-13_20-50-02.png

users.列名.describe() 也可以對指定列進行統(tǒng)計:

users.occupation.describe()#count         943unique         21top       studentfreq          196Name: occupation, dtype: object

7蚀苛,對數(shù)據(jù)做組聚類

groupby 函數(shù)對某一列做聚類操作,返回的是 GroupBy 對象玷氏;與 5 中方法相似堵未,區(qū)別是 groupby 是以聚類后的列為參照,查看其他列的數(shù)據(jù)統(tǒng)計情況

c =users.groupby("occupation")c# <pandas.core.groupby.generic.DataFrameGroupBy object at 0x0000017673002788>

GroupBy.head(n) 查看前 n 行數(shù)據(jù)

c.head(5)

GroupBy.cout() 對每個樣本對應其他列進行數(shù)據(jù)統(tǒng)計

c.count()

GroupBy.size() 統(tǒng)計列中每個樣本出現(xiàn)次數(shù)

c.size()

還有其它許可操作的函數(shù)盏触,

Snipaste_2020-06-13_10-33-50.png

詳細的可去官網(wǎng)上查詢:https://pandas.pydata.org/docs/reference/groupby.html

8渗蟹,對數(shù)據(jù)按照某一列進行排序

用到 data.sort_values() 函數(shù),默認從小到大赞辩,可以設置 ascending = False 設置為從大到写蒲俊;

users.sort_values(["age"],ascending = False)

也可以參考多個列進行排序:

users.sort_values(["age","zip_code"],ascending = False)
double_columns_sort.png

9辨嗽,創(chuàng)建新的列

加入新的列比較簡單世落,創(chuàng)建一個 Series (行數(shù)需與原列表數(shù)據(jù)行數(shù)保持一致),賦值到源數(shù)據(jù)即可

data['列名'] = 新創(chuàng)建的 series糟需;下面我利用對 age 中數(shù)據(jù)進行均一化岛心,把數(shù)據(jù)存放在新的列 age_normalize 中

Snipaste_2020-06-13_10-57-10.png

10,刪除指定列

用 drop() 函數(shù)可刪除源數(shù)據(jù)中的指定列

users.drop(['age'],axis = 1)

這里的 axis 代表指定要刪除的是行還是列篮灼,默認為0忘古,0代表的是行,1代表的是列诅诱;也可以直接用下面命令:

users.drop(columns =['age'])
drop_columns.png
?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
  • 序言:七十年代末髓堪,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌干旁,老刑警劉巖驶沼,帶你破解...
    沈念sama閱讀 217,406評論 6 503
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異争群,居然都是意外死亡回怜,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,732評論 3 393
  • 文/潘曉璐 我一進店門换薄,熙熙樓的掌柜王于貴愁眉苦臉地迎上來玉雾,“玉大人,你說我怎么就攤上這事轻要「囱” “怎么了?”我有些...
    開封第一講書人閱讀 163,711評論 0 353
  • 文/不壞的土叔 我叫張陵冲泥,是天一觀的道長驹碍。 經(jīng)常有香客問我,道長凡恍,這世上最難降的妖魔是什么志秃? 我笑而不...
    開封第一講書人閱讀 58,380評論 1 293
  • 正文 為了忘掉前任,我火速辦了婚禮嚼酝,結果婚禮上洽损,老公的妹妹穿的比我還像新娘。我一直安慰自己革半,他們只是感情好碑定,可當我...
    茶點故事閱讀 67,432評論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著又官,像睡著了一般延刘。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上六敬,一...
    開封第一講書人閱讀 51,301評論 1 301
  • 那天碘赖,我揣著相機與錄音,去河邊找鬼外构。 笑死普泡,一個胖子當著我的面吹牛,可吹牛的內容都是我干的审编。 我是一名探鬼主播撼班,決...
    沈念sama閱讀 40,145評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼垒酬!你這毒婦竟也來了砰嘁?” 一聲冷哼從身側響起件炉,我...
    開封第一講書人閱讀 39,008評論 0 276
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎矮湘,沒想到半個月后斟冕,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,443評論 1 314
  • 正文 獨居荒郊野嶺守林人離奇死亡缅阳,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 37,649評論 3 334
  • 正文 我和宋清朗相戀三年磕蛇,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片十办。...
    茶點故事閱讀 39,795評論 1 347
  • 序言:一個原本活蹦亂跳的男人離奇死亡秀撇,死狀恐怖,靈堂內的尸體忽然破棺而出橘洞,到底是詐尸還是另有隱情捌袜,我是刑警寧澤说搅,帶...
    沈念sama閱讀 35,501評論 5 345
  • 正文 年R本政府宣布炸枣,位于F島的核電站,受9級特大地震影響弄唧,放射性物質發(fā)生泄漏适肠。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 41,119評論 3 328
  • 文/蒙蒙 一候引、第九天 我趴在偏房一處隱蔽的房頂上張望侯养。 院中可真熱鬧,春花似錦澄干、人聲如沸逛揩。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,731評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽辩稽。三九已至,卻和暖如春从媚,著一層夾襖步出監(jiān)牢的瞬間逞泄,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 32,865評論 1 269
  • 我被黑心中介騙來泰國打工拜效, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留喷众,地道東北人。 一個月前我還...
    沈念sama閱讀 47,899評論 2 370
  • 正文 我出身青樓紧憾,卻偏偏與公主長得像到千,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子赴穗,可洞房花燭夜當晚...
    茶點故事閱讀 44,724評論 2 354