Kaggle指南(四)—— 探索性數(shù)據(jù)分析

之前說到在模型選擇方面沒有銀彈,那么如何確定最合適的模型提出假設(shè),探索性數(shù)據(jù)分析(EDA)是一個(gè)必不可少的環(huán)節(jié)。

為什么要做EDA

  1. 更好的理解數(shù)據(jù)涨醋。數(shù)據(jù)主要是什么類型,數(shù)據(jù)量有多少逝撬,大概分布如何浴骂。。
  2. 構(gòu)建模型直覺宪潮。根據(jù)對數(shù)據(jù)的了解可以構(gòu)建對于模型的直覺溯警,這可能需要一些經(jīng)驗(yàn)。
  3. 提出模型假設(shè)狡相。當(dāng)你對數(shù)據(jù)有基本的了解以及直覺之后就可以預(yù)設(shè)從那個(gè)范圍選取模型梯轻,線性、決策樹尽棕、聚類還是NN喳挑。

分析什么

這里我們以iris數(shù)據(jù)集為例

import pandas as pd
iris = pd.read_csv('https://raw.githubusercontent.com/mwaskom/seaborn-data/master/iris.csv')
  1. 數(shù)據(jù)取樣


    隨機(jī)獲取5個(gè)樣例,可以看到有多少列萄金,每列的數(shù)據(jù)類型蟀悦。類似的你也可以用.head()或者.tail()方法, 得到的分別是數(shù)據(jù)集的頭部和尾部數(shù)據(jù)氧敢。

  2. 概要統(tǒng)計(jì)信息

主要用到的是Pandas的describe()

這個(gè)方法輸出非常豐富日戈,包括數(shù)據(jù)總量、平均數(shù)孙乖、方差浙炼、最小最大值以及各種分位數(shù)。通過這個(gè)結(jié)果可以對數(shù)據(jù)大概分布有一個(gè)了解

  1. 可視化
    數(shù)據(jù)可視化在EDA過程中非常重要唯袄,常惩淝可以通過可視化過程發(fā)現(xiàn)可能的建模方向×悼剑可視化主要有兩個(gè)目的资厉,一是探索單個(gè)特征的分布規(guī)律 , 二是探索特征之間的相互關(guān)系蔬顾。

在單特征探索用到的主要工具有直方圖宴偿、散點(diǎn)圖

直方圖



直方圖將單個(gè)特征值的數(shù)據(jù)劃分為不同的數(shù)據(jù)區(qū)段,可以直觀看到數(shù)據(jù)在各個(gè)區(qū)段的分布情況诀豁。需要注意的是窄刘,直方圖是一種聚合方法,我們無法看到一個(gè)數(shù)據(jù)區(qū)間里面的數(shù)據(jù)分布情況舷胜,這有時(shí)候可能造成判斷偏差娩践。
在存在數(shù)據(jù)缺失或有異常值的情況這種誤差可能尤其明顯,這時(shí)候可能需要做一些預(yù)處理,比如填補(bǔ)缺失值或者取log等操作翻伺。

點(diǎn)圖


以index為x軸材泄, 各特征值為y值畫散點(diǎn)圖,可以看到數(shù)據(jù)隨index變化情況穆趴,用以檢查數(shù)據(jù)有沒有shuffle, 比如上圖petal_length是均勻分布的脸爱,petal_width就呈現(xiàn)出階段性特點(diǎn)。

在多特征相互作用探索用到的主要工具有散點(diǎn)圖和相關(guān)矩陣圖

散點(diǎn)圖

可以看兩個(gè)特征之間的相互關(guān)系未妹。值得注意的是簿废,有時(shí)散點(diǎn)圖會

矩陣圖


矩陣圖囊括了散點(diǎn)圖和直方圖,是Pandas提供的一種非常方便的可視化工具络它,但是需要注意的是對于大型數(shù)據(jù)集渲染速度可能有些慢

寫在最后
EDA 由于其探索方式多種多樣族檬,其本身可以稱之為一種藝術(shù),其效果好壞來自于你對數(shù)據(jù)的直覺以及對于各種工具技巧的熟悉程度化戳,想要提高這方面的能力需要不斷的練習(xí)并且學(xué)習(xí)各種先進(jìn)的思路单料。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市点楼,隨后出現(xiàn)的幾起案子扫尖,更是在濱河造成了極大的恐慌,老刑警劉巖掠廓,帶你破解...
    沈念sama閱讀 221,273評論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件换怖,死亡現(xiàn)場離奇詭異,居然都是意外死亡蟀瞧,警方通過查閱死者的電腦和手機(jī)沉颂,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,349評論 3 398
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來悦污,“玉大人铸屉,你說我怎么就攤上這事∏卸耍” “怎么了彻坛?”我有些...
    開封第一講書人閱讀 167,709評論 0 360
  • 文/不壞的土叔 我叫張陵,是天一觀的道長踏枣。 經(jīng)常有香客問我小压,道長,這世上最難降的妖魔是什么椰于? 我笑而不...
    開封第一講書人閱讀 59,520評論 1 296
  • 正文 為了忘掉前任,我火速辦了婚禮仪搔,結(jié)果婚禮上瘾婿,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好偏陪,可當(dāng)我...
    茶點(diǎn)故事閱讀 68,515評論 6 397
  • 文/花漫 我一把揭開白布抢呆。 她就那樣靜靜地躺著,像睡著了一般笛谦。 火紅的嫁衣襯著肌膚如雪抱虐。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 52,158評論 1 308
  • 那天饥脑,我揣著相機(jī)與錄音恳邀,去河邊找鬼。 笑死灶轰,一個(gè)胖子當(dāng)著我的面吹牛谣沸,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播笋颤,決...
    沈念sama閱讀 40,755評論 3 421
  • 文/蒼蘭香墨 我猛地睜開眼乳附,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了伴澄?” 一聲冷哼從身側(cè)響起赋除,我...
    開封第一講書人閱讀 39,660評論 0 276
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎非凌,沒想到半個(gè)月后举农,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 46,203評論 1 319
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡清焕,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,287評論 3 340
  • 正文 我和宋清朗相戀三年并蝗,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片秸妥。...
    茶點(diǎn)故事閱讀 40,427評論 1 352
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡滚停,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出粥惧,到底是詐尸還是另有隱情键畴,我是刑警寧澤,帶...
    沈念sama閱讀 36,122評論 5 349
  • 正文 年R本政府宣布突雪,位于F島的核電站起惕,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏咏删。R本人自食惡果不足惜惹想,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,801評論 3 333
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望督函。 院中可真熱鬧嘀粱,春花似錦激挪、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,272評論 0 23
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至娃磺,卻和暖如春薄湿,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背偷卧。 一陣腳步聲響...
    開封第一講書人閱讀 33,393評論 1 272
  • 我被黑心中介騙來泰國打工豺瘤, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人涯冠。 一個(gè)月前我還...
    沈念sama閱讀 48,808評論 3 376
  • 正文 我出身青樓炉奴,卻偏偏與公主長得像,于是被迫代替她去往敵國和親蛇更。 傳聞我的和親對象是個(gè)殘疾皇子瞻赶,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,440評論 2 359

推薦閱讀更多精彩內(nèi)容