數(shù)據(jù)的探索性分析

數(shù)據(jù)的探索性分析

探索性數(shù)據(jù)分析(Exploratory Data Analysis,EDA)是指對(duì)已有數(shù)據(jù)在盡量少的先驗(yàn)假設(shè)下通過(guò)作圖尊浪、制表封救、方程擬合誉结、計(jì)算特征量等手段探索數(shù)據(jù)的結(jié)構(gòu)和規(guī)律的一種數(shù)據(jù)分析方法惩坑,該方法在上世紀(jì)70年代由美國(guó)統(tǒng)計(jì)學(xué)家J.K.Tukey提出。傳統(tǒng)的統(tǒng)計(jì)分析方法常常先假設(shè)數(shù)據(jù)符合一種統(tǒng)計(jì)模型趾痘,然后依據(jù)數(shù)據(jù)樣本來(lái)估計(jì)模型的一些參數(shù)及統(tǒng)計(jì)量扼脐,以此了解數(shù)據(jù)的特征,但實(shí)際中往往有很多數(shù)據(jù)并不符合假設(shè)的統(tǒng)計(jì)模型分布艰赞,這導(dǎo)致數(shù)據(jù)分析結(jié)果不理想方妖。EDA則是一種更加貼合實(shí)際情況的分析方法罚攀,它強(qiáng)調(diào)讓數(shù)據(jù)自身“說(shuō)話”斋泄,通過(guò)EDA我們可以最真實(shí)、直接的觀察到數(shù)據(jù)的結(jié)構(gòu)及特征魁莉。
EDA出現(xiàn)之后募胃,數(shù)據(jù)分析的過(guò)程就分為兩步了痹束,探索階段和驗(yàn)證階段祷嘶。探索階段側(cè)重于發(fā)現(xiàn)數(shù)據(jù)中包含的模式或模型,驗(yàn)證階段側(cè)重于評(píng)估所發(fā)現(xiàn)的模式或模型,很多機(jī)器學(xué)習(xí)算法(分為訓(xùn)練和測(cè)試兩步)都是遵循這種思想剿牺。當(dāng)我們拿到一份數(shù)據(jù)時(shí)晒来,如果做數(shù)據(jù)分析的目的不是非常明確郑现、有針對(duì)性時(shí)接箫,可能會(huì)感到有些茫然(我在哪兒,我要干什么辛友。薄扁。剪返。我最初就是這樣的),那此刻就更加有必要進(jìn)行EDA了邓梅,它能幫助我們先初步的了解數(shù)據(jù)的結(jié)構(gòu)及特征脱盲,甚至發(fā)現(xiàn)一些模式或模型,再結(jié)合行業(yè)背景知識(shí)日缨,也許就能直接得到一些有用的結(jié)論钱反。
EDA的技術(shù)手段主要包括:匯總統(tǒng)計(jì)、可視化面哥,下面分別做介紹。

1.匯總統(tǒng)計(jì)

匯總統(tǒng)計(jì)是量化的(如均值和方差等)毅待,用單個(gè)數(shù)和數(shù)的小集合來(lái)捕獲數(shù)據(jù)集的特征尚卫,從統(tǒng)計(jì)學(xué)的觀點(diǎn)看,這里所提的匯總統(tǒng)計(jì)過(guò)程就是對(duì)統(tǒng)計(jì)量的估計(jì)過(guò)程恩静。

1.1 單個(gè)屬性情況

頻率和眾數(shù)
頻率可以簡(jiǎn)單定義為屬于一個(gè)類別對(duì)象的樣本數(shù)占總樣本的比例焕毫,這里類別對(duì)象可以是分類模型的中不同的類,也可以是一個(gè)區(qū)間或一個(gè)集合驶乾。眾數(shù)指具有最高頻率的類別對(duì)象。
頻率可以幫助查看數(shù)據(jù)在不同類別對(duì)象上的分布情況循签,眾數(shù)可以讓我們獲知數(shù)據(jù)主要集中在那個(gè)類別對(duì)象上级乐,不過(guò)要注意是可能有多個(gè)類別對(duì)象上的頻率與眾數(shù)對(duì)象上的頻率相差不大,此時(shí)就要權(quán)衡眾數(shù)的重要性是否有那么大县匠。

百分位數(shù)
在有序數(shù)據(jù)上风科,百分位數(shù)是一個(gè)重要的統(tǒng)計(jì)量。給定一組數(shù)據(jù)乞旦,百分位數(shù)是這樣的數(shù):這組數(shù)據(jù)中有%的數(shù)據(jù)小于贼穆。百分位數(shù)能讓我們了解數(shù)據(jù)大小分布情況。

位置度量:均值和中位數(shù)
對(duì)于連續(xù)數(shù)據(jù)兰粉,均值和中位數(shù)是比較常用的統(tǒng)計(jì)量故痊,其中中位數(shù)即1/2分位數(shù)。均值對(duì)數(shù)據(jù)中的離群點(diǎn)比較敏感玖姑,一些離群點(diǎn)的存在能顯著的影響均值的大小愕秫,而中位數(shù)能較好的處理離群點(diǎn)的影響,二者視具體情況使用焰络。
為了克服離群點(diǎn)對(duì)均值的影響戴甩,有時(shí)使用截?cái)嗑怠=財(cái)嗑涤幸粋€(gè)參數(shù)闪彼,計(jì)算截?cái)嗑禃r(shí)去除高端(/2)%和低端(/2)%的數(shù)據(jù)甜孤,剩下數(shù)據(jù)的均值即為截?cái)嗑怠?br> 均值、中位數(shù)和百分位數(shù)一樣,都是用來(lái)觀察數(shù)據(jù)值大小分布情況的缴川。

散步分量:極差和方差
極差和方差是常用的統(tǒng)計(jì)量茉稠,用來(lái)觀察數(shù)據(jù)分布的寬度和分散情況。極差是最大值與最小值的差值二跋,它標(biāo)識(shí)著數(shù)據(jù)的最大散步战惊,但若大部分?jǐn)?shù)值集中在較窄的范圍內(nèi),極差反而會(huì)引起誤解扎即,此時(shí)需要結(jié)合方差來(lái)認(rèn)識(shí)數(shù)據(jù)吞获。

step1 導(dǎo)入函數(shù)工具箱/Step 2:數(shù)據(jù)讀取
因?yàn)槭撬愠鯇W(xué)者,我的筆記會(huì)特別的幼稚哈哈哈哈谚鄙。
輸入的工具
numpy pandas warnings matplotlib seaborn jn display time (基礎(chǔ)的)

Panda

學(xué)習(xí)鏈接:https://blog.csdn.net/qq_26591517/article/details/8004129
運(yùn)用panda可以對(duì)數(shù)據(jù)進(jìn)行讀雀骺健(數(shù)據(jù)讀取函數(shù)庫(kù))
使用:

數(shù)據(jù)降維處理:
數(shù)據(jù)規(guī)約產(chǎn)生更小但保持?jǐn)?shù)據(jù)完整性的新數(shù)據(jù)集。在規(guī)約后的數(shù)據(jù)集上進(jìn)行數(shù)據(jù)分析和挖掘?qū)⒏行省?br> 主要的代表模型 PCA LDA LLE 等
學(xué)習(xí)鏈接:

info

describe

通過(guò) .describe() 可以查看數(shù)值特征列的一些統(tǒng)計(jì)信息
Train_data.describe()
(類似于統(tǒng)計(jì)建模所能得出的數(shù)據(jù)種類闷营,包括mean烤黍,middle之類的)

step3 征與標(biāo)簽構(gòu)建

數(shù)據(jù)的選取:(選擇目標(biāo)種類的數(shù)據(jù)類型)

A= B.select_dtypes(exclude/include='C').colums
print(A)

構(gòu)建訓(xùn)練和測(cè)試樣本

繪制標(biāo)簽統(tǒng)計(jì)圖:

plt.(用于繪制多種圖形傻盟,扇形速蕊,直方圖等)
學(xué)習(xí)鏈接:https://blog.csdn.net/WYK1823376647/article/details/84561612?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522158502636019725219928659%2522%252C%2522scm%2522%253A%252220140713.130056874…%2522%257D&request_id=158502636019725219928659&biz_id=0&utm_source=distribute.pc_search_result.none-task
(涉及一些 plt.x(Y/X)

缺省值(default value)

缺省值就是默認(rèn)值。是指一個(gè)屬性娘赴、參數(shù)在被修改前的初始值

step 4 模型訓(xùn)練與預(yù)測(cè)


切分?jǐn)?shù)據(jù)集

MAE 圖像質(zhì)量評(píng)估指標(biāo)


切分?jǐn)?shù)據(jù)集(Train,Val)進(jìn)行模型訓(xùn)練规哲,評(píng)價(jià)和預(yù)測(cè)

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市诽表,隨后出現(xiàn)的幾起案子唉锌,更是在濱河造成了極大的恐慌,老刑警劉巖竿奏,帶你破解...
    沈念sama閱讀 216,402評(píng)論 6 499
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件袄简,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡泛啸,警方通過(guò)查閱死者的電腦和手機(jī)绿语,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,377評(píng)論 3 392
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)平痰,“玉大人汞舱,你說(shuō)我怎么就攤上這事∽诠停” “怎么了昂芜?”我有些...
    開封第一講書人閱讀 162,483評(píng)論 0 353
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)赔蒲。 經(jīng)常有香客問(wèn)我泌神,道長(zhǎng)良漱,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,165評(píng)論 1 292
  • 正文 為了忘掉前任欢际,我火速辦了婚禮母市,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘损趋。我一直安慰自己患久,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,176評(píng)論 6 388
  • 文/花漫 我一把揭開白布浑槽。 她就那樣靜靜地躺著蒋失,像睡著了一般。 火紅的嫁衣襯著肌膚如雪桐玻。 梳的紋絲不亂的頭發(fā)上篙挽,一...
    開封第一講書人閱讀 51,146評(píng)論 1 297
  • 那天,我揣著相機(jī)與錄音镊靴,去河邊找鬼铣卡。 笑死,一個(gè)胖子當(dāng)著我的面吹牛偏竟,可吹牛的內(nèi)容都是我干的煮落。 我是一名探鬼主播,決...
    沈念sama閱讀 40,032評(píng)論 3 417
  • 文/蒼蘭香墨 我猛地睜開眼踊谋,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼州邢!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起褪子,我...
    開封第一講書人閱讀 38,896評(píng)論 0 274
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎骗村,沒(méi)想到半個(gè)月后嫌褪,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,311評(píng)論 1 310
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡胚股,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,536評(píng)論 2 332
  • 正文 我和宋清朗相戀三年笼痛,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片琅拌。...
    茶點(diǎn)故事閱讀 39,696評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡缨伊,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出进宝,到底是詐尸還是另有隱情刻坊,我是刑警寧澤,帶...
    沈念sama閱讀 35,413評(píng)論 5 343
  • 正文 年R本政府宣布党晋,位于F島的核電站谭胚,受9級(jí)特大地震影響徐块,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜灾而,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,008評(píng)論 3 325
  • 文/蒙蒙 一胡控、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧旁趟,春花似錦昼激、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,659評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至余爆,卻和暖如春纷宇,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背蛾方。 一陣腳步聲響...
    開封第一講書人閱讀 32,815評(píng)論 1 269
  • 我被黑心中介騙來(lái)泰國(guó)打工像捶, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人桩砰。 一個(gè)月前我還...
    沈念sama閱讀 47,698評(píng)論 2 368
  • 正文 我出身青樓拓春,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親亚隅。 傳聞我的和親對(duì)象是個(gè)殘疾皇子硼莽,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,592評(píng)論 2 353

推薦閱讀更多精彩內(nèi)容

  • 五懂鸵、探索性數(shù)據(jù)分析 原文:DS-100/textbook/notebooks/ch05譯者:飛龍協(xié)議:CC BY-...
    布客飛龍閱讀 1,054評(píng)論 0 7
  • 6月10日是蘇尼特右旗一年一度珍珠節(jié),在全旗人民歡度節(jié)日的時(shí)候行疏,蘇尼特右旗公安局刑警大隊(duì)民警走進(jìn)會(huì)場(chǎng)開展宣傳工作匆光。...
    香水柚子閱讀 264評(píng)論 0 0
  • 今天在外買東西時(shí)盲再,看到一個(gè)幾歲大的小女孩兒手里拿著她爺爺?shù)氖謾C(jī),正目不轉(zhuǎn)睛地盯著屏幕上的抖音小視頻扛点,看完一條之后喳张,...
    梁思文閱讀 788評(píng)論 4 5
  • 星期五晚上续镇,我們要去吃年夜飯,爸爸為了喝酒蹲姐,決定打車赴宴磨取。 媽媽說(shuō):“晚飯時(shí)段人柿,打車特別難打,我們?cè)缫?..
    潘儀宸閱讀 187評(píng)論 0 1
  • 深秋中午的陽(yáng)光暖暖的肚子給餓的咕咕叫想到等會(huì)要去吃十塊錢的大餐課都不想上心已飛忙厌。
    折雲(yún)閱讀 135評(píng)論 0 0