數(shù)據(jù)的探索性分析
探索性數(shù)據(jù)分析(Exploratory Data Analysis,EDA)是指對(duì)已有數(shù)據(jù)在盡量少的先驗(yàn)假設(shè)下通過(guò)作圖尊浪、制表封救、方程擬合誉结、計(jì)算特征量等手段探索數(shù)據(jù)的結(jié)構(gòu)和規(guī)律的一種數(shù)據(jù)分析方法惩坑,該方法在上世紀(jì)70年代由美國(guó)統(tǒng)計(jì)學(xué)家J.K.Tukey提出。傳統(tǒng)的統(tǒng)計(jì)分析方法常常先假設(shè)數(shù)據(jù)符合一種統(tǒng)計(jì)模型趾痘,然后依據(jù)數(shù)據(jù)樣本來(lái)估計(jì)模型的一些參數(shù)及統(tǒng)計(jì)量扼脐,以此了解數(shù)據(jù)的特征,但實(shí)際中往往有很多數(shù)據(jù)并不符合假設(shè)的統(tǒng)計(jì)模型分布艰赞,這導(dǎo)致數(shù)據(jù)分析結(jié)果不理想方妖。EDA則是一種更加貼合實(shí)際情況的分析方法罚攀,它強(qiáng)調(diào)讓數(shù)據(jù)自身“說(shuō)話”斋泄,通過(guò)EDA我們可以最真實(shí)、直接的觀察到數(shù)據(jù)的結(jié)構(gòu)及特征魁莉。
EDA出現(xiàn)之后募胃,數(shù)據(jù)分析的過(guò)程就分為兩步了痹束,探索階段和驗(yàn)證階段祷嘶。探索階段側(cè)重于發(fā)現(xiàn)數(shù)據(jù)中包含的模式或模型,驗(yàn)證階段側(cè)重于評(píng)估所發(fā)現(xiàn)的模式或模型,很多機(jī)器學(xué)習(xí)算法(分為訓(xùn)練和測(cè)試兩步)都是遵循這種思想剿牺。當(dāng)我們拿到一份數(shù)據(jù)時(shí)晒来,如果做數(shù)據(jù)分析的目的不是非常明確郑现、有針對(duì)性時(shí)接箫,可能會(huì)感到有些茫然(我在哪兒,我要干什么辛友。薄扁。剪返。我最初就是這樣的),那此刻就更加有必要進(jìn)行EDA了邓梅,它能幫助我們先初步的了解數(shù)據(jù)的結(jié)構(gòu)及特征脱盲,甚至發(fā)現(xiàn)一些模式或模型,再結(jié)合行業(yè)背景知識(shí)日缨,也許就能直接得到一些有用的結(jié)論钱反。
EDA的技術(shù)手段主要包括:匯總統(tǒng)計(jì)、可視化面哥,下面分別做介紹。
1.匯總統(tǒng)計(jì)
匯總統(tǒng)計(jì)是量化的(如均值和方差等)毅待,用單個(gè)數(shù)和數(shù)的小集合來(lái)捕獲數(shù)據(jù)集的特征尚卫,從統(tǒng)計(jì)學(xué)的觀點(diǎn)看,這里所提的匯總統(tǒng)計(jì)過(guò)程就是對(duì)統(tǒng)計(jì)量的估計(jì)過(guò)程恩静。
1.1 單個(gè)屬性情況
頻率和眾數(shù)
頻率可以簡(jiǎn)單定義為屬于一個(gè)類別對(duì)象的樣本數(shù)占總樣本的比例焕毫,這里類別對(duì)象可以是分類模型的中不同的類,也可以是一個(gè)區(qū)間或一個(gè)集合驶乾。眾數(shù)指具有最高頻率的類別對(duì)象。
頻率可以幫助查看數(shù)據(jù)在不同類別對(duì)象上的分布情況循签,眾數(shù)可以讓我們獲知數(shù)據(jù)主要集中在那個(gè)類別對(duì)象上级乐,不過(guò)要注意是可能有多個(gè)類別對(duì)象上的頻率與眾數(shù)對(duì)象上的頻率相差不大,此時(shí)就要權(quán)衡眾數(shù)的重要性是否有那么大县匠。
百分位數(shù)
在有序數(shù)據(jù)上风科,百分位數(shù)是一個(gè)重要的統(tǒng)計(jì)量。給定一組數(shù)據(jù)乞旦,百分位數(shù)是這樣的數(shù):這組數(shù)據(jù)中有%的數(shù)據(jù)小于贼穆。百分位數(shù)能讓我們了解數(shù)據(jù)大小分布情況。
位置度量:均值和中位數(shù)
對(duì)于連續(xù)數(shù)據(jù)兰粉,均值和中位數(shù)是比較常用的統(tǒng)計(jì)量故痊,其中中位數(shù)即1/2分位數(shù)。均值對(duì)數(shù)據(jù)中的離群點(diǎn)比較敏感玖姑,一些離群點(diǎn)的存在能顯著的影響均值的大小愕秫,而中位數(shù)能較好的處理離群點(diǎn)的影響,二者視具體情況使用焰络。
為了克服離群點(diǎn)對(duì)均值的影響戴甩,有時(shí)使用截?cái)嗑怠=財(cái)嗑涤幸粋€(gè)參數(shù)闪彼,計(jì)算截?cái)嗑禃r(shí)去除高端(/2)%和低端(/2)%的數(shù)據(jù)甜孤,剩下數(shù)據(jù)的均值即為截?cái)嗑怠?br>
均值、中位數(shù)和百分位數(shù)一樣,都是用來(lái)觀察數(shù)據(jù)值大小分布情況的缴川。
散步分量:極差和方差
極差和方差是常用的統(tǒng)計(jì)量茉稠,用來(lái)觀察數(shù)據(jù)分布的寬度和分散情況。極差是最大值與最小值的差值二跋,它標(biāo)識(shí)著數(shù)據(jù)的最大散步战惊,但若大部分?jǐn)?shù)值集中在較窄的范圍內(nèi),極差反而會(huì)引起誤解扎即,此時(shí)需要結(jié)合方差來(lái)認(rèn)識(shí)數(shù)據(jù)吞获。
step1 導(dǎo)入函數(shù)工具箱/Step 2:數(shù)據(jù)讀取
因?yàn)槭撬愠鯇W(xué)者,我的筆記會(huì)特別的幼稚哈哈哈哈谚鄙。
輸入的工具
numpy pandas warnings matplotlib seaborn jn display time (基礎(chǔ)的)
Panda
學(xué)習(xí)鏈接:https://blog.csdn.net/qq_26591517/article/details/8004129
運(yùn)用panda可以對(duì)數(shù)據(jù)進(jìn)行讀雀骺健(數(shù)據(jù)讀取函數(shù)庫(kù))
使用:
數(shù)據(jù)降維處理:
數(shù)據(jù)規(guī)約產(chǎn)生更小但保持?jǐn)?shù)據(jù)完整性的新數(shù)據(jù)集。在規(guī)約后的數(shù)據(jù)集上進(jìn)行數(shù)據(jù)分析和挖掘?qū)⒏行省?br>
主要的代表模型 PCA LDA LLE 等
學(xué)習(xí)鏈接:
info
describe
通過(guò) .describe() 可以查看數(shù)值特征列的一些統(tǒng)計(jì)信息
Train_data.describe()
(類似于統(tǒng)計(jì)建模所能得出的數(shù)據(jù)種類闷营,包括mean烤黍,middle之類的)
step3 征與標(biāo)簽構(gòu)建
數(shù)據(jù)的選取:(選擇目標(biāo)種類的數(shù)據(jù)類型)
A= B.select_dtypes(exclude/include='C').colums
print(A)
構(gòu)建訓(xùn)練和測(cè)試樣本
繪制標(biāo)簽統(tǒng)計(jì)圖:
plt.(用于繪制多種圖形傻盟,扇形速蕊,直方圖等)
學(xué)習(xí)鏈接:https://blog.csdn.net/WYK1823376647/article/details/84561612?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522158502636019725219928659%2522%252C%2522scm%2522%253A%252220140713.130056874…%2522%257D&request_id=158502636019725219928659&biz_id=0&utm_source=distribute.pc_search_result.none-task
(涉及一些 plt.x(Y/X)
缺省值(default value)
缺省值就是默認(rèn)值。是指一個(gè)屬性娘赴、參數(shù)在被修改前的初始值
step 4 模型訓(xùn)練與預(yù)測(cè)
切分?jǐn)?shù)據(jù)集
MAE 圖像質(zhì)量評(píng)估指標(biāo)