ydata_profiling:自動生成數(shù)據(jù)探索報告的Python庫

之前在做數(shù)據(jù)分析的時候,用過一個自動化生成數(shù)據(jù)探索報告的Python庫:ydata_profiling

一般我們在做數(shù)據(jù)處理前會進行數(shù)據(jù)探索,包括看統(tǒng)計分布、可視化圖表好爬、數(shù)據(jù)質(zhì)量情況等,這個過程會消耗很多時間甥啄,可能需要上百行代碼才能實現(xiàn)存炮。

ydata_profiling能夠直接完成數(shù)據(jù)探索的工作,只需要幾行代碼蜈漓,它會生成互動網(wǎng)頁形式的報告穆桂,里面包含數(shù)據(jù)概覽、字段分布迎变、統(tǒng)計學特征充尉、相關(guān)性飘言、缺失值衣形、樣本信息等。

# 導(dǎo)入庫
from ydata_profiling import ProfileReport
import pandas as pd
# 讀取數(shù)據(jù)
df = pd.read_csv('housing.csv')
# 自動生成數(shù)據(jù)探索報告
profile = ProfileReport(df, title="Profiling Report")
profile

以上代碼在Jupyter notebook中執(zhí)行姿鸿,生成數(shù)據(jù)探索報告如下

ydata_profiling文檔提了幾個用途谆吴,我覺得還是比較實用的。

  • 提供數(shù)據(jù)概覽:包括廣泛的統(tǒng)計數(shù)據(jù)和可視化圖表苛预,提供數(shù)據(jù)的整體視圖句狼。該報告可以作為html文件共享,也可以作為小部件集成在Jupyter筆記本中热某。

  • 數(shù)據(jù)質(zhì)量評估:識別缺失數(shù)據(jù)腻菇、重復(fù)數(shù)據(jù)和異常值胳螟。這些對于數(shù)據(jù)清理和準備很重要,確保分析的可靠性筹吐,并及早發(fā)現(xiàn)問題糖耸。

  • 易于與其他流集成:數(shù)據(jù)分析的所有度量都可以以標準JSON格式使用。

  • 大型數(shù)據(jù)集的數(shù)據(jù)探索:即使體量很大的數(shù)據(jù)集丘薛,ydata_profiling也可以輕松生成報告嘉竟,它同時支持Pandas數(shù)據(jù)幀和Spark數(shù)據(jù)幀。

數(shù)據(jù)集概覽 Overview

首先可以看到數(shù)據(jù)集的整體信息洋侨,包括字段數(shù)舍扰、缺失值行、重復(fù)行希坚、占內(nèi)存大小等等

字段詳細信息 Variables

你可以看到所有字段的統(tǒng)計學特征以及分布情況边苹,包括均值、分位值裁僧、最大最小值


字段分布關(guān)系 Interactions

這是個交互可視化圖勾给,可以選擇任意兩個字段,看他們的散點分布關(guān)系锅知,通過這個你可以很直觀的知道各個字段的關(guān)聯(lián)關(guān)系是什么樣的播急,正相關(guān)、負相關(guān)售睹、無相關(guān)等

字段相關(guān)性 Correations

這里通過熱力圖展示每個字段的相關(guān)性桩警,也可以看到具體的值


缺失值 Missing values

通過柱狀圖可以清晰看到每個字段缺失值情況

樣本 Sample

可以展示前10、尾10的樣本數(shù)據(jù)

如果你想加快數(shù)據(jù)分析的速度昌妹,可以好好把ydata_profiling利用起來捶枢,前期數(shù)據(jù)探索階段可以省很多時間。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末飞崖,一起剝皮案震驚了整個濱河市烂叔,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌固歪,老刑警劉巖蒜鸡,帶你破解...
    沈念sama閱讀 206,013評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異牢裳,居然都是意外死亡逢防,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,205評論 2 382
  • 文/潘曉璐 我一進店門蒲讯,熙熙樓的掌柜王于貴愁眉苦臉地迎上來忘朝,“玉大人,你說我怎么就攤上這事判帮【粥遥” “怎么了溉箕?”我有些...
    開封第一講書人閱讀 152,370評論 0 342
  • 文/不壞的土叔 我叫張陵,是天一觀的道長悦昵。 經(jīng)常有香客問我约巷,道長,這世上最難降的妖魔是什么旱捧? 我笑而不...
    開封第一講書人閱讀 55,168評論 1 278
  • 正文 為了忘掉前任独郎,我火速辦了婚禮,結(jié)果婚禮上枚赡,老公的妹妹穿的比我還像新娘氓癌。我一直安慰自己,他們只是感情好贫橙,可當我...
    茶點故事閱讀 64,153評論 5 371
  • 文/花漫 我一把揭開白布贪婉。 她就那樣靜靜地躺著,像睡著了一般卢肃。 火紅的嫁衣襯著肌膚如雪疲迂。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 48,954評論 1 283
  • 那天莫湘,我揣著相機與錄音尤蒿,去河邊找鬼。 笑死幅垮,一個胖子當著我的面吹牛腰池,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播忙芒,決...
    沈念sama閱讀 38,271評論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼示弓,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了呵萨?” 一聲冷哼從身側(cè)響起奏属,我...
    開封第一講書人閱讀 36,916評論 0 259
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎潮峦,沒想到半個月后囱皿,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 43,382評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡跑杭,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 35,877評論 2 323
  • 正文 我和宋清朗相戀三年铆帽,在試婚紗的時候發(fā)現(xiàn)自己被綠了咆耿。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片德谅。...
    茶點故事閱讀 37,989評論 1 333
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖萨螺,靈堂內(nèi)的尸體忽然破棺而出窄做,到底是詐尸還是另有隱情愧驱,我是刑警寧澤,帶...
    沈念sama閱讀 33,624評論 4 322
  • 正文 年R本政府宣布椭盏,位于F島的核電站组砚,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏掏颊。R本人自食惡果不足惜糟红,卻給世界環(huán)境...
    茶點故事閱讀 39,209評論 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望乌叶。 院中可真熱鬧盆偿,春花似錦、人聲如沸准浴。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,199評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽乐横。三九已至求橄,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間葡公,已是汗流浹背罐农。 一陣腳步聲響...
    開封第一講書人閱讀 31,418評論 1 260
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留催什,地道東北人啃匿。 一個月前我還...
    沈念sama閱讀 45,401評論 2 352
  • 正文 我出身青樓,卻偏偏與公主長得像蛆楞,于是被迫代替她去往敵國和親溯乒。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 42,700評論 2 345

推薦閱讀更多精彩內(nèi)容