數(shù)據(jù)的探索性分析(EDA)

一. 任務(wù)內(nèi)容

  1. 載入各種數(shù)據(jù)科學(xué)以及可視化庫(kù):
    • 數(shù)據(jù)科學(xué)庫(kù) pandas祖灰、numpy诀豁、scipy矾柜;
    • 可視化庫(kù) matplotlib阱驾、seabon;
    • 其他怪蔑;
  2. 載入數(shù)據(jù):
    • 載入訓(xùn)練集和測(cè)試集里覆;
    • 簡(jiǎn)略觀察數(shù)據(jù)(head()+shape);
  3. 數(shù)據(jù)總覽:
    • 通過(guò)describe()來(lái)熟悉數(shù)據(jù)的相關(guān)統(tǒng)計(jì)量
    • 通過(guò)info()來(lái)熟悉數(shù)據(jù)類型
  4. 判斷數(shù)據(jù)缺失和異常
    • 查看每列的存在nan情況
    • 異常值檢測(cè)
  5. 了解預(yù)測(cè)值的分布
    • 總體分布概況(無(wú)界約翰遜分布等)
    • 查看skewness and kurtosis
    • 查看預(yù)測(cè)值的具體頻數(shù)
  6. 特征分為類別特征和數(shù)字特征缆瓣,并對(duì)類別特征查7. 看unique分布
    • 數(shù)字特征分析
    • 相關(guān)性分析
    • 查看幾個(gè)特征得 偏度和峰值
    • 每個(gè)數(shù)字特征得分布可視化
    • 數(shù)字特征相互之間的關(guān)系可視化
    • 多變量互相回歸關(guān)系可視化
  7. 類型特征分析
    • unique分布
    • 類別特征箱形圖可視化
    • 類別特征的小提琴圖可視化
    • 類別特征的柱形圖可視化類別
    • 特征的每個(gè)類別頻數(shù)可視化(count_plot)
  8. 用pandas_profiling生成數(shù)據(jù)報(bào)告

以上內(nèi)容可參考天池文章

二. 一些知識(shí)點(diǎn)

  1. 偏度(Skewness)
    偏度是用來(lái)度量隨機(jī)變量概率分布的不對(duì)稱性喧枷。
    偏度<0時(shí),概率分布圖左偏。
    偏度=0時(shí)隧甚,表示數(shù)據(jù)均勻分布在平均值兩側(cè)车荔,但不一定是對(duì)稱分布。
    偏度>0時(shí)戚扳,概率分布圖右偏忧便。

  2. 峰度(Kurtosis)
    峰度可以用來(lái)度量隨機(jī)變量概率分布的陡峭程度。
    峰度的取值范圍為[1, +∞)帽借,完全服從正態(tài)分布的數(shù)據(jù)的峰度值為3珠增,峰度值越大,概率分布圖越高砍艾、越尖蒂教,峰度值越小,越矮胖脆荷。
    通常將峰度值減去3凝垛,也被稱為超值峰度(Excess Kurtosis),這樣正態(tài)分布的峰度值等于0简烘,當(dāng)峰度值>0苔严,則表示該數(shù)據(jù)分布與正態(tài)分布相比較為高尖,當(dāng)峰度值<0孤澎,則表示該數(shù)據(jù)分布與正態(tài)分布相比較為矮胖届氢。

三、Tips

  1. 查看數(shù)據(jù)缺少值
    train_data.isnull().sum()
    
  2. NaN可視化
    msno.matrix(Train_data.sample(250))
    
  3. 數(shù)據(jù)分布情況
    包括:無(wú)界約翰遜分布覆旭、正態(tài)分布退子、對(duì)數(shù)分布
    import scipy.stats as st
    y = Train_data['price']
    plt.figure(1); plt.title('Johnson SU')
    sns.distplot(y, kde=False, 
    fit=st.johnsonsu)
    plt.figure(2); plt.title('Normal')
    sns.distplot(y, kde=False, fit=st.norm)
    plt.figure(3); plt.title('Log Normal')
    sns.distplot(y, kde=False, fit=st.lognorm)
    
image.png
  1. 相關(guān)性可視化分析
    相關(guān)性可以用sns包中heatmap、barplot實(shí)現(xiàn)數(shù)據(jù)之間的相關(guān)性型将;可以使用 sns.pairplot觀察成對(duì)變量之間的分布情況寂祥。
    heatmap:
    f , ax = plt.subplots(figsize = (7, 7))
    plt.title('Correlation of Numeric Features 
    with Price',y=1,size=16)
    sns.heatmap(correlation,square = True,  
    vmax=0.8)
    
image.png

pairplot:

sns.set()
columns = ['price', 'v_12', 'v_8' , 'v_0',       'power', 'v_5',  'v_2', 'v_6', 'v_1', 'v_14']
sns.pairplot(Train_data[columns],size = 2 ,kind ='scatter',diag_kind='kde')
plt.show()
image.png
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市七兜,隨后出現(xiàn)的幾起案子丸凭,更是在濱河造成了極大的恐慌,老刑警劉巖腕铸,帶你破解...
    沈念sama閱讀 219,539評(píng)論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件惜犀,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡狠裹,警方通過(guò)查閱死者的電腦和手機(jī)虽界,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,594評(píng)論 3 396
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)涛菠,“玉大人莉御,你說(shuō)我怎么就攤上這事撇吞。” “怎么了礁叔?”我有些...
    開(kāi)封第一講書人閱讀 165,871評(píng)論 0 356
  • 文/不壞的土叔 我叫張陵牍颈,是天一觀的道長(zhǎng)。 經(jīng)常有香客問(wèn)我晴圾,道長(zhǎng)颂砸,這世上最難降的妖魔是什么? 我笑而不...
    開(kāi)封第一講書人閱讀 58,963評(píng)論 1 295
  • 正文 為了忘掉前任死姚,我火速辦了婚禮人乓,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘都毒。我一直安慰自己色罚,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,984評(píng)論 6 393
  • 文/花漫 我一把揭開(kāi)白布账劲。 她就那樣靜靜地躺著戳护,像睡著了一般。 火紅的嫁衣襯著肌膚如雪瀑焦。 梳的紋絲不亂的頭發(fā)上腌且,一...
    開(kāi)封第一講書人閱讀 51,763評(píng)論 1 307
  • 那天,我揣著相機(jī)與錄音榛瓮,去河邊找鬼铺董。 笑死,一個(gè)胖子當(dāng)著我的面吹牛禀晓,可吹牛的內(nèi)容都是我干的精续。 我是一名探鬼主播,決...
    沈念sama閱讀 40,468評(píng)論 3 420
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼粹懒,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼重付!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起凫乖,我...
    開(kāi)封第一講書人閱讀 39,357評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤确垫,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后帽芽,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體删掀,經(jīng)...
    沈念sama閱讀 45,850評(píng)論 1 317
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,002評(píng)論 3 338
  • 正文 我和宋清朗相戀三年嚣镜,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了爬迟。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片橘蜜。...
    茶點(diǎn)故事閱讀 40,144評(píng)論 1 351
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡菊匿,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情蝉绷,我是刑警寧澤叫倍,帶...
    沈念sama閱讀 35,823評(píng)論 5 346
  • 正文 年R本政府宣布,位于F島的核電站佩厚,受9級(jí)特大地震影響姆钉,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜抄瓦,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,483評(píng)論 3 331
  • 文/蒙蒙 一潮瓶、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧钙姊,春花似錦毯辅、人聲如沸。這莊子的主人今日做“春日...
    開(kāi)封第一講書人閱讀 32,026評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至膊毁,卻和暖如春胀莹,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背婚温。 一陣腳步聲響...
    開(kāi)封第一講書人閱讀 33,150評(píng)論 1 272
  • 我被黑心中介騙來(lái)泰國(guó)打工描焰, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人缭召。 一個(gè)月前我還...
    沈念sama閱讀 48,415評(píng)論 3 373
  • 正文 我出身青樓栈顷,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親嵌巷。 傳聞我的和親對(duì)象是個(gè)殘疾皇子萄凤,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,092評(píng)論 2 355