數(shù)據(jù)處理基石:Pandas數(shù)據(jù)探索

Pandas數(shù)據(jù)初探索

本文介紹的是Pandas數(shù)據(jù)初探索。當(dāng)我們生成或者導(dǎo)入了數(shù)據(jù)之后咱圆,通過(guò)數(shù)據(jù)的探索工作能夠快速了解和認(rèn)識(shí)數(shù)據(jù)基本信息笛辟,比如數(shù)據(jù)中字段的類(lèi)型、索引序苏、最值手幢、缺失值等,可以讓我們對(duì)數(shù)據(jù)的全貌有一個(gè)初步了解忱详。

image

思維導(dǎo)圖

image

模擬數(shù)據(jù)

本文中的方法介紹使用的是一份模擬數(shù)據(jù)围来,有字符型、數(shù)值型匈睁,還有時(shí)間類(lèi)型监透;同時(shí)數(shù)據(jù)刻意存在了缺失值:

image

使用pandas的read_excel方法對(duì)數(shù)據(jù)進(jìn)行讀取:

image

同時(shí)生成一個(gè)Series類(lèi)型數(shù)據(jù):

image

數(shù)據(jù)樣本

頭尾數(shù)據(jù)查看

  • head(N):默認(rèn)是頭部5條航唆,可以指定查看N條
  • tail(N):默認(rèn)是尾部5條胀蛮,可以指定查看N條
image

隨機(jī)查看sample

默認(rèn)是隨機(jī)看一條數(shù)據(jù),也可以指定查看的條數(shù):

image

查看數(shù)據(jù)形狀shape

在這里的形狀指的是數(shù)據(jù)有多少行和多少列佛点,通過(guò)查看數(shù)據(jù)的shape就能知道數(shù)據(jù)的大小

  • DataFrame類(lèi)型:兩個(gè)數(shù)值醇滥,表示行和列
  • Series類(lèi)型:只有行數(shù)
image

數(shù)據(jù)大小size

數(shù)據(jù)大小表示的是數(shù)據(jù)中總共有多少個(gè)數(shù)據(jù)黎比,即shape方法的結(jié)果中兩個(gè)數(shù)值相乘

df.size  # 56=7*8

數(shù)據(jù)維度ndim

表示數(shù)據(jù)是多少維超营,比如二維鸳玩,三維等

image

數(shù)據(jù)基本信息info

顯示數(shù)據(jù)類(lèi)型、索引情況演闭、行列數(shù)不跟、列屬性名稱(chēng)、占用的內(nèi)存等信息米碰;Series數(shù)據(jù)沒(méi)有該方法

image

數(shù)據(jù)類(lèi)型dtypes

df.dtypes  # 每個(gè)列屬性的數(shù)據(jù)類(lèi)型
s.dtype  # 沒(méi)有s窝革,結(jié)果一個(gè)類(lèi)型
image

列屬性和行索引

通過(guò)axes來(lái)查看;DataFrame數(shù)據(jù)既有行索引也有列名吕座,Series數(shù)據(jù)只有行索引虐译。

image

查看行索引

通過(guò)專(zhuān)門(mén)的index屬性來(lái)查看行索引

image

查看列屬性

df.columns
image

查看數(shù)據(jù)

兩個(gè)方法或?qū)傩圆榭矗?/p>

  • values
  • to_numpy()
image

查看缺失值

在數(shù)據(jù)幀中如果存在缺失值,則用True表示吴趴,否則取值為False:

image

查看內(nèi)存情況memory_usage()

查看每列的內(nèi)存使用情況漆诽,以字節(jié)為單位:

df.memory_usage()
s.memory_usage()
image

統(tǒng)計(jì)信息

描述信息只針對(duì)數(shù)值型的數(shù)據(jù),可以看到該字段中數(shù)據(jù)的統(tǒng)計(jì)值信息

整體信息describe

返回的是數(shù)值型數(shù)據(jù)中的個(gè)數(shù)锣枝、均值厢拭、方差、四分位數(shù)等統(tǒng)計(jì)值情況

df.describe()
image

查看均值

一般 DataFrame 計(jì)算后為一個(gè) Series撇叁,Series 計(jì)算后是一個(gè)具體的數(shù)值

下面的代碼是按照列來(lái)計(jì)算均值:

df.mean()  # 按列計(jì)算

# 結(jié)果
age         21.714286
chinese    111.285714
math       117.000000
english    119.571429
dtype: float64

查看某個(gè)列的均值:

df["math"].mean()  # 117.0

下面的代碼是按照行來(lái)計(jì)算均值:

df.mean(1)  # 按照行計(jì)算

0    89.50
1    96.25
2    87.50
3    93.50
4    89.25
5    95.50
6    95.25
dtype: float64
image

Pandas內(nèi)置數(shù)學(xué)計(jì)算方法

Pandas中內(nèi)置的多種數(shù)學(xué)計(jì)算函數(shù)

# 默認(rèn)按照列0計(jì)算供鸠,1表示按照行計(jì)算

df.abs() # 絕對(duì)值
df.mode() # 眾數(shù)
df.mean() # 返回所有列的均值
df.mean(1) # 返回所有行的均值
df.max() # 返回每一列的最大值
df.min() # 返回每一列的最小值
df.median() # 返回每一列的中位數(shù)
df.std() # 返回每一列的標(biāo)準(zhǔn)差, 貝塞爾校正的樣本標(biāo)準(zhǔn)偏差
df.var() # 無(wú)偏方差
df.corr() # 返回列與列之間的相關(guān)系數(shù)
df.count() # 返回每一列中的非空值的個(gè)數(shù)
df.prod() # 連乘
df.mad() # 平均絕對(duì)偏差
df.cumprod() # 累積連乘,累乘
df.cumsum(axis=0) # 累積連加,累加
df.nunique() # 去重?cái)?shù)量,不同值的量
df.sem() # 平均值的標(biāo)準(zhǔn)誤差
df.idxmax() # 每列最大的值的索引名
df.idxmin() # 最小
df.cummin() # 累積最小值
df.cummax() # 累積最大值
df.skew() # 樣本偏度 (第三階)
df.kurt() # 樣本峰度 (第四階)
df.quantile() # 樣本分位數(shù) (不同 % 的值)

總結(jié)

本文主要是對(duì)Pandas中的數(shù)據(jù)探索做了一個(gè)詳細(xì)介紹陨闹,幫助我們快速了解數(shù)據(jù)的基本信息楞捂,同時(shí)也方便后續(xù)的數(shù)據(jù)處理和分析。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末趋厉,一起剝皮案震驚了整個(gè)濱河市泡一,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌觅廓,老刑警劉巖鼻忠,帶你破解...
    沈念sama閱讀 216,402評(píng)論 6 499
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異杈绸,居然都是意外死亡帖蔓,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,377評(píng)論 3 392
  • 文/潘曉璐 我一進(jìn)店門(mén)瞳脓,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)塑娇,“玉大人,你說(shuō)我怎么就攤上這事劫侧÷癯辏” “怎么了哨啃?”我有些...
    開(kāi)封第一講書(shū)人閱讀 162,483評(píng)論 0 353
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)写妥。 經(jīng)常有香客問(wèn)我拳球,道長(zhǎng),這世上最難降的妖魔是什么珍特? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 58,165評(píng)論 1 292
  • 正文 為了忘掉前任祝峻,我火速辦了婚禮,結(jié)果婚禮上扎筒,老公的妹妹穿的比我還像新娘莱找。我一直安慰自己,他們只是感情好嗜桌,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,176評(píng)論 6 388
  • 文/花漫 我一把揭開(kāi)白布奥溺。 她就那樣靜靜地躺著,像睡著了一般骨宠。 火紅的嫁衣襯著肌膚如雪浮定。 梳的紋絲不亂的頭發(fā)上,一...
    開(kāi)封第一講書(shū)人閱讀 51,146評(píng)論 1 297
  • 那天诱篷,我揣著相機(jī)與錄音壶唤,去河邊找鬼。 笑死棕所,一個(gè)胖子當(dāng)著我的面吹牛闸盔,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播琳省,決...
    沈念sama閱讀 40,032評(píng)論 3 417
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼迎吵,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了针贬?” 一聲冷哼從身側(cè)響起击费,我...
    開(kāi)封第一講書(shū)人閱讀 38,896評(píng)論 0 274
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎桦他,沒(méi)想到半個(gè)月后蔫巩,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,311評(píng)論 1 310
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡快压,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,536評(píng)論 2 332
  • 正文 我和宋清朗相戀三年圆仔,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片蔫劣。...
    茶點(diǎn)故事閱讀 39,696評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡坪郭,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出脉幢,到底是詐尸還是另有隱情歪沃,我是刑警寧澤嗦锐,帶...
    沈念sama閱讀 35,413評(píng)論 5 343
  • 正文 年R本政府宣布,位于F島的核電站沪曙,受9級(jí)特大地震影響奕污,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜珊蟀,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,008評(píng)論 3 325
  • 文/蒙蒙 一菊值、第九天 我趴在偏房一處隱蔽的房頂上張望外驱。 院中可真熱鬧育灸,春花似錦、人聲如沸昵宇。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 31,659評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)瓦哎。三九已至砸喻,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間蒋譬,已是汗流浹背割岛。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 32,815評(píng)論 1 269
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留犯助,地道東北人癣漆。 一個(gè)月前我還...
    沈念sama閱讀 47,698評(píng)論 2 368
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像剂买,于是被迫代替她去往敵國(guó)和親惠爽。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,592評(píng)論 2 353

推薦閱讀更多精彩內(nèi)容