二手車交易價格預(yù)測-EDA

探索性數(shù)據(jù)分析(Exploratory Data Analysis)簡稱EDA寄啼,往往是我們了解锯七、挖掘數(shù)據(jù)的至關(guān)重要的步驟。

EDA的主要工作有:

(1)了解數(shù)據(jù)基本屬性:初步加載清洗數(shù)據(jù)轰枝、描述數(shù)據(jù)(了解數(shù)據(jù)大小衣盾、數(shù)據(jù)類型)寺旺、數(shù)據(jù)的異常情況分析(缺省值和異常值的刻畫、處理)

(2)了解數(shù)據(jù)間的關(guān)系:數(shù)據(jù)分布的刻畫势决、數(shù)據(jù)間關(guān)系刻畫阻塑、數(shù)據(jù)與目標(biāo)之間的關(guān)系刻畫


1、數(shù)據(jù)加載和描述

數(shù)據(jù)下載地址:https://tianchi.aliyun.com/competition/entrance/231784/information

加載csv數(shù)據(jù)


加載數(shù)據(jù)果复、描述數(shù)據(jù)陈莽、基本屬性獲取

(1) 顯示原始數(shù)據(jù)

? ? ? ? ? ? data.head(10),顯示訓(xùn)練數(shù)據(jù)的前10行虽抄,結(jié)果見下圖:

train_data.head(10)

?這里可以看出走搁,數(shù)據(jù)大小為 10*31,有31列數(shù)據(jù)迈窟,但顯示的時候私植,僅顯示了一部分列。如果想顯示全部列车酣,可以這樣設(shè)置曲稼,設(shè)置后顯示結(jié)果如下:

pd.set_option('display.max_rows', None) #設(shè)置最大顯示行數(shù)

pd.set_option('display.max_columns', None)?#設(shè)置最大顯示列數(shù)

train_data.head(3)

(2)?查看數(shù)據(jù)信息

data.info 包括每個字段的名稱、非空數(shù)量湖员、字段的數(shù)據(jù)類型贫悄,結(jié)果如下:

data.info()

從結(jié)果中可以看出,該df破衔,共有150000行清女,索引從0-149999,共有31列晰筛,每一列的名稱嫡丙、非空行數(shù)、數(shù)據(jù)類型均給出读第;

且給出該df 有 20個float64, 10個int64, 1個object 數(shù)據(jù)類型曙博;

占用內(nèi)存大小為35.5+ MB

(3)數(shù)據(jù)缺省值刻畫

? ? ? ? 找出有缺省值的數(shù)據(jù)列,并給出缺省的行數(shù)怜瞒,采用以下函數(shù)計算:

計算缺省值列父泳,以及其缺省的行數(shù)

運行結(jié)果:

train 空值列名稱般哼,和空值個數(shù):

{'model': 1, 'bodyType': 4506, 'fuelType': 8680, 'gearbox': 5981}

(4)數(shù)據(jù)統(tǒng)計特征刻畫

? ? ? ? ? ? data.describe(),統(tǒng)計出所有列的以下信息:元素個數(shù)惠窄、均值蒸眠、標(biāo)準(zhǔn)差、最小值杆融、25%楞卡、50%、75%脾歇、以及最大值蒋腮。從這里我們可看出,數(shù)據(jù)的取值范圍和大致分布藕各,對應(yīng)數(shù)據(jù)有初步的了解池摧。

data.describe()

2、數(shù)據(jù)間關(guān)系刻畫

(1)數(shù)據(jù)大致分類

????????根據(jù)數(shù)據(jù)類型激况,對數(shù)據(jù)進行初步分類作彤,可分為,時間類型乌逐、連續(xù)類型宦棺、離散類型。這里我們可以通過統(tǒng)計大致區(qū)分連續(xù)數(shù)據(jù)和離散數(shù)據(jù)黔帕。

描述列可取值個數(shù)代咸,以及占總比,大致區(qū)分?jǐn)?shù)據(jù)類型
運行結(jié)果

? ? ? ? 從上述結(jié)果可以看出成黄,v_0至v_14數(shù)據(jù)取值多樣化呐芥,占總比96%,可證明其為連續(xù)數(shù)值奋岁。同時思瘟,我們可以觀測出部分變量的可取值范圍,對數(shù)據(jù)有初步的了解闻伶。

(2)數(shù)據(jù)間關(guān)系刻畫

? ? ? ? ? ? 畫圖可采用seaborn 庫滨攻,據(jù)圖函數(shù)可參考,因分析關(guān)系較多蓝翰,且與個人假設(shè)相關(guān)光绕,后續(xù)如果時間允許,會添加部分自認(rèn)為重要的關(guān)系結(jié)果圖畜份。

????????????????https://blog.csdn.net/qq_40195360/article/details/86605860

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末诞帐,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子爆雹,更是在濱河造成了極大的恐慌停蕉,老刑警劉巖愕鼓,帶你破解...
    沈念sama閱讀 219,490評論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異慧起,居然都是意外死亡菇晃,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,581評論 3 395
  • 文/潘曉璐 我一進店門蚓挤,熙熙樓的掌柜王于貴愁眉苦臉地迎上來谋旦,“玉大人,你說我怎么就攤上這事屈尼。” “怎么了拴孤?”我有些...
    開封第一講書人閱讀 165,830評論 0 356
  • 文/不壞的土叔 我叫張陵脾歧,是天一觀的道長。 經(jīng)常有香客問我演熟,道長鞭执,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,957評論 1 295
  • 正文 為了忘掉前任芒粹,我火速辦了婚禮兄纺,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘化漆。我一直安慰自己估脆,他們只是感情好,可當(dāng)我...
    茶點故事閱讀 67,974評論 6 393
  • 文/花漫 我一把揭開白布座云。 她就那樣靜靜地躺著疙赠,像睡著了一般。 火紅的嫁衣襯著肌膚如雪朦拖。 梳的紋絲不亂的頭發(fā)上圃阳,一...
    開封第一講書人閱讀 51,754評論 1 307
  • 那天,我揣著相機與錄音璧帝,去河邊找鬼捍岳。 笑死,一個胖子當(dāng)著我的面吹牛睬隶,可吹牛的內(nèi)容都是我干的锣夹。 我是一名探鬼主播,決...
    沈念sama閱讀 40,464評論 3 420
  • 文/蒼蘭香墨 我猛地睜開眼苏潜,長吁一口氣:“原來是場噩夢啊……” “哼晕城!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起窖贤,我...
    開封第一講書人閱讀 39,357評論 0 276
  • 序言:老撾萬榮一對情侶失蹤砖顷,失蹤者是張志新(化名)和其女友劉穎贰锁,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體滤蝠,經(jīng)...
    沈念sama閱讀 45,847評論 1 317
  • 正文 獨居荒郊野嶺守林人離奇死亡豌熄,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,995評論 3 338
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了物咳。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片锣险。...
    茶點故事閱讀 40,137評論 1 351
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖览闰,靈堂內(nèi)的尸體忽然破棺而出芯肤,到底是詐尸還是另有隱情,我是刑警寧澤压鉴,帶...
    沈念sama閱讀 35,819評論 5 346
  • 正文 年R本政府宣布崖咨,位于F島的核電站,受9級特大地震影響油吭,放射性物質(zhì)發(fā)生泄漏击蹲。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 41,482評論 3 331
  • 文/蒙蒙 一婉宰、第九天 我趴在偏房一處隱蔽的房頂上張望歌豺。 院中可真熱鬧,春花似錦心包、人聲如沸类咧。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,023評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽轮听。三九已至,卻和暖如春岭佳,著一層夾襖步出監(jiān)牢的瞬間血巍,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,149評論 1 272
  • 我被黑心中介騙來泰國打工珊随, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留述寡,地道東北人。 一個月前我還...
    沈念sama閱讀 48,409評論 3 373
  • 正文 我出身青樓叶洞,卻偏偏與公主長得像鲫凶,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子衩辟,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 45,086評論 2 355

推薦閱讀更多精彩內(nèi)容

  • pyspark.sql module Module context Spark SQL和DataFrames中的重...
    盜夢者_56f2閱讀 5,435評論 0 19
  • 這是16年5月份編輯的一份比較雜亂適合自己觀看的學(xué)習(xí)記錄文檔螟炫,今天18年5月份再次想寫文章,發(fā)現(xiàn)簡書還為我保存起的...
    Jenaral閱讀 2,762評論 2 9
  • 今天是我的官方生日掸屡,收到了很多,嗯然评,祝福仅财。比如10086,比如金鷹…… 聽說公司食堂的滾屏上也在祝我生日快樂碗淌。 今...
    辛小婷閱讀 92評論 1 0
  • 3月的天氣是多變的盏求,前幾天還穿著厚棉襖,今天就穿著單薄的休閑外套了亿眠。 3月12的植樹節(jié)碎罚,我與同學(xué)繞...
    陽_a017閱讀 234評論 0 0
  • 爸爸走了 。 剛剛過完生日二十二天纳像,正月十六的爸爸荆烈,爸爸離開了我和這個家,我總是在想他爹耗,關(guān)于爸爸。 爸爸留給我的蘋...
    853afb130984閱讀 125評論 0 0