探索性數(shù)據(jù)分析(Exploratory Data Analysis)簡稱EDA寄啼,往往是我們了解锯七、挖掘數(shù)據(jù)的至關(guān)重要的步驟。
EDA的主要工作有:
(1)了解數(shù)據(jù)基本屬性:初步加載清洗數(shù)據(jù)轰枝、描述數(shù)據(jù)(了解數(shù)據(jù)大小衣盾、數(shù)據(jù)類型)寺旺、數(shù)據(jù)的異常情況分析(缺省值和異常值的刻畫、處理)
(2)了解數(shù)據(jù)間的關(guān)系:數(shù)據(jù)分布的刻畫势决、數(shù)據(jù)間關(guān)系刻畫阻塑、數(shù)據(jù)與目標(biāo)之間的關(guān)系刻畫
1、數(shù)據(jù)加載和描述
數(shù)據(jù)下載地址:https://tianchi.aliyun.com/competition/entrance/231784/information
(1) 顯示原始數(shù)據(jù)
? ? ? ? ? ? data.head(10),顯示訓(xùn)練數(shù)據(jù)的前10行虽抄,結(jié)果見下圖:
?這里可以看出走搁,數(shù)據(jù)大小為 10*31,有31列數(shù)據(jù)迈窟,但顯示的時候私植,僅顯示了一部分列。如果想顯示全部列车酣,可以這樣設(shè)置曲稼,設(shè)置后顯示結(jié)果如下:
pd.set_option('display.max_rows', None) #設(shè)置最大顯示行數(shù)
pd.set_option('display.max_columns', None)?#設(shè)置最大顯示列數(shù)
(2)?查看數(shù)據(jù)信息
data.info 包括每個字段的名稱、非空數(shù)量湖员、字段的數(shù)據(jù)類型贫悄,結(jié)果如下:
從結(jié)果中可以看出,該df破衔,共有150000行清女,索引從0-149999,共有31列晰筛,每一列的名稱嫡丙、非空行數(shù)、數(shù)據(jù)類型均給出读第;
且給出該df 有 20個float64, 10個int64, 1個object 數(shù)據(jù)類型曙博;
占用內(nèi)存大小為35.5+ MB
(3)數(shù)據(jù)缺省值刻畫
? ? ? ? 找出有缺省值的數(shù)據(jù)列,并給出缺省的行數(shù)怜瞒,采用以下函數(shù)計算:
運行結(jié)果:
train 空值列名稱般哼,和空值個數(shù):
{'model': 1, 'bodyType': 4506, 'fuelType': 8680, 'gearbox': 5981}
(4)數(shù)據(jù)統(tǒng)計特征刻畫
? ? ? ? ? ? data.describe(),統(tǒng)計出所有列的以下信息:元素個數(shù)惠窄、均值蒸眠、標(biāo)準(zhǔn)差、最小值杆融、25%楞卡、50%、75%脾歇、以及最大值蒋腮。從這里我們可看出,數(shù)據(jù)的取值范圍和大致分布藕各,對應(yīng)數(shù)據(jù)有初步的了解池摧。
2、數(shù)據(jù)間關(guān)系刻畫
(1)數(shù)據(jù)大致分類
????????根據(jù)數(shù)據(jù)類型激况,對數(shù)據(jù)進行初步分類作彤,可分為,時間類型乌逐、連續(xù)類型宦棺、離散類型。這里我們可以通過統(tǒng)計大致區(qū)分連續(xù)數(shù)據(jù)和離散數(shù)據(jù)黔帕。
? ? ? ? 從上述結(jié)果可以看出成黄,v_0至v_14數(shù)據(jù)取值多樣化呐芥,占總比96%,可證明其為連續(xù)數(shù)值奋岁。同時思瘟,我們可以觀測出部分變量的可取值范圍,對數(shù)據(jù)有初步的了解闻伶。
(2)數(shù)據(jù)間關(guān)系刻畫
? ? ? ? ? ? 畫圖可采用seaborn 庫滨攻,據(jù)圖函數(shù)可參考,因分析關(guān)系較多蓝翰,且與個人假設(shè)相關(guān)光绕,后續(xù)如果時間允許,會添加部分自認(rèn)為重要的關(guān)系結(jié)果圖畜份。
????????????????https://blog.csdn.net/qq_40195360/article/details/86605860