探索數(shù)據(jù)分析
作者:Blink ? ? ? ?
郵箱:592702703@qq.com ?
愛好:喜歡數(shù)據(jù)分析、可視化和機(jī)器學(xué)習(xí)俊犯,目前研究深度學(xué)習(xí)中汉额。
? ? ? ? ? ?可以結(jié)團(tuán)Kaggle或者比賽喔昂勉!
什么叫探索性數(shù)據(jù)分析另伍?
探索性數(shù)據(jù)分析(Exploratory Data Analysis,簡(jiǎn)稱EDA)团搞,摘抄網(wǎng)上的一個(gè)中文解釋严望,是指對(duì)已有的數(shù)據(jù)(特別是調(diào)查或觀察得來(lái)的原始數(shù)據(jù))在盡量少的先驗(yàn)假定下進(jìn)行探索,通過(guò)作圖逻恐、制表像吻、方程擬合峻黍、計(jì)算特征量等手段探索數(shù)據(jù)的結(jié)構(gòu)和規(guī)律的一種數(shù)據(jù)分析方法。特別是黨我們對(duì)面對(duì)大數(shù)據(jù)時(shí)代到來(lái)的時(shí)候拨匆,各種雜亂的“臟數(shù)據(jù)”姆涩,往往不知所措,不知道從哪里開始了解目前拿到手上的數(shù)據(jù)時(shí)候惭每,探索性數(shù)據(jù)分析就非常有效骨饿。探索性數(shù)據(jù)分析是上世紀(jì)六十年代提出,其方法有美國(guó)統(tǒng)計(jì)學(xué)家John Tukey提出的台腥。
附上:Howard Seltman 探索數(shù)據(jù)分析的英語(yǔ)文檔http://www.stat.cmu.edu/~hseltman/309/Book/chapter4.pdf
維基百科的英語(yǔ)解釋:
In statistics, exploratory data analysis(EDA) is an approach to analyzing data sets to summarize their maincharacteristics, often with visual methods. A statistical model can be used ornot, but primarily EDA is for seeing what the data can tell us beyond theformal modeling or hypothesis testing task. Exploratory data analysis waspromoted by John Tukey to encourage statisticians to explore the data, andpossibly formulate hypotheses that could lead to new data collection andexperiments. EDA is different from initial data analysis (IDA), which focusesmore narrowly on checking assumptions required for model fitting and hypothesistesting, and handling missing values and making transformations of variables asneeded. EDA encompasses IDA.
百度翻譯:
在統(tǒng)計(jì)學(xué)中宏赘,探索性數(shù)據(jù)分析(EDA)是一種分析數(shù)據(jù)集以概括其主要特征的方法,通常使用可視化方法黎侈〔焓穑可以使用或使用統(tǒng)計(jì)模型,但主要是EDA是為了了解數(shù)據(jù)在形式化建木海或假設(shè)測(cè)試任務(wù)之外能告訴我們什么贴汪。探索性數(shù)據(jù)分析是John Tukey提拔的鼓勵(lì)統(tǒng)計(jì)學(xué)家的研究數(shù)據(jù),并盡可能提出假設(shè)休吠,盡可能生成新的數(shù)據(jù)收集和實(shí)驗(yàn)扳埂。EDA不同于初始數(shù)據(jù)分析(IDA),瘤礁,它更集中于檢查模型擬合和假設(shè)檢驗(yàn)所需的假設(shè)聂喇,以及處理缺少的值,并根據(jù)需要進(jìn)行變量轉(zhuǎn)換蔚携。EDA包含IDA。
探索性分析的計(jì)劃:
1克饶、Form hypotheses/develop investigation theme to explore形成假設(shè)酝蜒,確定主題去探索
2、Wrangle data清理數(shù)據(jù)矾湃,網(wǎng)上有一個(gè)網(wǎng)址公布斯坦福有一個(gè)軟件叫datawrangler可以供大家自己免費(fèi)下載亡脑,用于探索數(shù)據(jù)分析,很快的解決數(shù)據(jù)清洗的工作邀跃,作為一個(gè)將來(lái)想成為數(shù)據(jù)科學(xué)家的人,處理“臟數(shù)據(jù)”,是我們必須走的路劈猪。這個(gè)軟件我還沒有試凿跳,我把鏈接發(fā)在下面,供愛學(xué)習(xí)的小伙伴好好學(xué)習(xí)僵驰。http://vis.stanford.edu/wrangler/
https://www.trifacta.com/products/wrangler/
https://www.douban.com/note/501799325/
3喷斋、Assess quality of data評(píng)價(jià)數(shù)據(jù)質(zhì)量
4唁毒、Profile data數(shù)據(jù)報(bào)表
5、Explore each individual variable in the dataset探索分析每個(gè)變量
6星爪、Assess the relationship between each variable and the target探索每個(gè)自變量與因變量之間的關(guān)系
7浆西、Assess interactions between variables探索每個(gè)自變量之間的相關(guān)性
8、Explore data across many dimensions從不同的維度來(lái)分析數(shù)據(jù)
通過(guò)以上的探索性分析顽腾,你還可以做以下的工作:
1近零、寫出一系列你自己做的假設(shè),然后接著做更深入的數(shù)據(jù)分析
2抄肖、記錄下自己探索過(guò)程中更進(jìn)一步的數(shù)據(jù)分析過(guò)程
3久信、把自己的中間的結(jié)果給自己的同行看看,讓他們能夠給你一些更有拓展性的反饋憎瘸、或者意見入篮。不要獨(dú)自一個(gè)人做,國(guó)外的思維就是知道了什么就喜歡open to everybody幌甘,要走出去潮售,多多交流,打開新的世界锅风。
4酥诽、將可視化與結(jié)果結(jié)合一起。探索性數(shù)據(jù)分析皱埠,就是依賴你好的模型意識(shí)肮帐,(在《深入淺出數(shù)據(jù)分析》P34中,把模型的敏感度叫心智模型边器,最初的心智模型可能錯(cuò)了训枢,一旦自己的結(jié)果違背自己的假設(shè),就要立即回去詳細(xì)的思考)忘巧。所以我們?cè)跀?shù)據(jù)探索的盡可能把自己的可視化圖和結(jié)果放一起恒界,這樣便于進(jìn)一步分析。
實(shí)戰(zhàn)案例
目標(biāo)名稱:水的供應(yīng)和用水是否與人均國(guó)內(nèi)生產(chǎn)總值有關(guān)砚嘴?(提出假設(shè))
數(shù)據(jù)源:http://www.fao.org/nr/water/aquastat/data/query/index.html下圖數(shù)據(jù)源界面(如果您經(jīng)常做學(xué)術(shù)研究十酣,例如OECD等數(shù)據(jù)都是這樣的。)
數(shù)據(jù)源簡(jiǎn)單介紹:
網(wǎng)站:http://www.fao.org/nr/water/aquastat/metadata/index.stm
組織的三個(gè)主要目標(biāo)是:
1.消除饑餓际长、糧食不安全和營(yíng)養(yǎng)不良
2.消除貧困促進(jìn)經(jīng)濟(jì)社會(huì)進(jìn)步
3.自然資源的可持續(xù)管理和利用耸采,包括土地、水工育、空氣虾宇、氣候和遺傳資源,以造福今世后代如绸。
為支持這些目標(biāo)文留,《憲法》第1條要求糧農(nóng)組織“收集好唯、分析、解釋和傳播與營(yíng)養(yǎng)燥翅、糧食和農(nóng)業(yè)有關(guān)的信息”骑篙。因此,水溫自動(dòng)調(diào)節(jié)器開始森书,其目的是通過(guò)收集有助于聯(lián)合國(guó)糧農(nóng)組織的目標(biāo)靶端,與水資源相關(guān)的信息傳播分析,用水和農(nóng)業(yè)用水管理凛膏,對(duì)國(guó)家重點(diǎn)在非洲杨名,亞洲,美國(guó)猖毫,拉丁美洲台谍,加勒比海。
聯(lián)合國(guó)糧農(nóng)組織提供數(shù)據(jù)吁断,元數(shù)據(jù)趁蕊,報(bào)告國(guó)家概況,河流域概況仔役,分析區(qū)域掷伙,圖,表空間又兵,數(shù)據(jù)任柜,指導(dǎo)方針,和其他的在線工具:
1沛厨、水資源:內(nèi)部宙地、跨界、總
2逆皮、水的用途:按部門绸栅,按來(lái)源,廢水
3页屠、灌溉:地點(diǎn)、面積蓖柔、類型辰企、技術(shù)、作物
4况鸣、水壩:位置牢贸,高度,容量镐捧,表面積
5潜索、與水有關(guān)的機(jī)構(gòu)臭增、政策和立法
項(xiàng)目軟件:軟件python 3.6展示的軟件Anaconda里面的jupster notebook,運(yùn)行環(huán)境Window7竹习,使用電腦Thinkpad T450誊抛。
項(xiàng)目計(jì)劃:
通過(guò)對(duì)數(shù)據(jù)有簡(jiǎn)單的預(yù)估,這個(gè)時(shí)候整陌,由于自己的電腦內(nèi)存比較小拗窃,跑上十萬(wàn)以后的數(shù)據(jù)都會(huì)有明顯的卡頓,為此采取了一個(gè)特殊的策略—使用Tidy Data進(jìn)行試驗(yàn)泌辫。Tidy Data大家可能不熟悉随夸,我直接也給大家上了干貨。TidyData的官方解讀:https://tomaugspurger.github.io/modern-5-tidy.html直接連接可以查看如何使用小批量的數(shù)據(jù)進(jìn)行實(shí)驗(yàn)震放。
本實(shí)驗(yàn)的目標(biāo)為三點(diǎn):每個(gè)變量形成一個(gè)列宾毒,每個(gè)觀測(cè)值形成一行,不同類型的觀測(cè)單元組成一個(gè)表格殿遂。
數(shù)據(jù)轉(zhuǎn)換:
1诈铛、取對(duì)數(shù)log:當(dāng)數(shù)據(jù)的峰值很高,通過(guò)將數(shù)據(jù)取對(duì)數(shù)能夠?qū)?shù)據(jù)歸一化處理勉躺。
2癌瘾、連續(xù)變量分組(bin):分組連續(xù)變量,能夠更加簡(jiǎn)便的了解觀測(cè)值的分布饵溅。
3妨退、簡(jiǎn)化類別:一個(gè)單一的數(shù)據(jù),往往類別太多會(huì)讓人迷亂蜕企,一般不想超過(guò)8-10列咬荷,那就盡量找到重要的類別。(機(jī)器學(xué)習(xí)里面這一個(gè)部分很重要轻掩,和特征選擇一樣)
項(xiàng)目開始:
第一步幸乒,不可或缺的導(dǎo)入五大包:NumPy、Pandas唇牧、Matplotlib罕扎、Seaborn,Warnings大家對(duì)這四個(gè)包不熟悉的可以百度官方網(wǎng)站丐重,有專門的材料腔召。特別主要的就是Seaborn,這個(gè)庫(kù)目前可視化的能力已經(jīng)超過(guò)之前對(duì)Python的理解扮惦,有很多人說(shuō)R可視化效果很好臀蛛,但是我覺得這個(gè)可視化一點(diǎn)都不差。%matplotlib inline很多人不懂為什么會(huì)加上這個(gè)意思,這就是在jupter畫圖的時(shí)候浊仆,能夠?qū)⒖梢暬膱D能夠在結(jié)果中展現(xiàn)出來(lái)客峭,我試過(guò)很多時(shí)候忘記加,結(jié)果圖就只出現(xiàn)一行字抡柿。所以需要加上這個(gè)舔琅。
導(dǎo)入彈出紅色煩人的warinngs包,讓它們被忽略沙绝。
第二步搏明,導(dǎo)入數(shù)據(jù)
由于數(shù)據(jù)是壓縮包的形式,我們平時(shí)一般的是CSV闪檬,TXT的格式星著,那我們可以試一試壓縮包的讀取方式。對(duì)數(shù)據(jù)進(jìn)行基本的了解粗悯,Pandas為我們提供了很多可以簡(jiǎn)便查看和檢查數(shù)據(jù)的方法虚循。data.info(),data.shape样傍,data.head()横缔,data.tail()。
下面是結(jié)果的展示
第三步衫哥,探索變量
結(jié)果顯示不全茎刚,但是把一些重要的變量進(jìn)行解釋一下:
total_area國(guó)土面積(1000公頃)
arable_land可耕作面積
permanent_crop_area多年生作物面積
cultivated_area耕地面積
percent_cultivated耕地面積占比
total_pop總?cè)丝?/p>
rural_pop農(nóng)村人口
urban_pop城市人口
gdp國(guó)內(nèi)生產(chǎn)總值
gdp_per_capita人均國(guó)內(nèi)生產(chǎn)總值
agg_to_gdp農(nóng)業(yè),增加國(guó)內(nèi)生產(chǎn)總值
human_dev_index人類發(fā)展指數(shù)
gender_inequal_index性別不平等指數(shù)
percent_undernourished營(yíng)養(yǎng)不良患病率
avg_annual_rain_depth長(zhǎng)期平均年降水量
national_rainfall_index全國(guó)降雨指數(shù)
第四步撤逢,簡(jiǎn)單的描述統(tǒng)計(jì)(后面對(duì)數(shù)據(jù)描述做詳細(xì)的處理)膛锭,某一列的數(shù)據(jù)的類別數(shù)據(jù),缺失值的簡(jiǎn)單統(tǒng)計(jì)(后面會(huì)對(duì)缺失值詳細(xì)處理)蚊荣,例如統(tǒng)計(jì)國(guó)家有多少個(gè)初狰,時(shí)間段的統(tǒng)計(jì),缺失值(國(guó)土面積)的統(tǒng)計(jì)
第五步互例,數(shù)據(jù)切分
面板數(shù)據(jù)一些基本定義
橫截面:一個(gè)時(shí)期內(nèi)所有國(guó)家的數(shù)據(jù)
時(shí)間序列:一個(gè)國(guó)家隨著時(shí)間推移的數(shù)據(jù)
面板數(shù)據(jù):所有國(guó)家隨著時(shí)間的推移數(shù)據(jù)
地理空間:所有地理上相互關(guān)聯(lián)的數(shù)據(jù)
1奢入、時(shí)間切分,定義時(shí)間切分的函數(shù)媳叨,設(shè)置透視表腥光,索引為國(guó)家,列為變量糊秆,值為對(duì)應(yīng)的Value值武福。這個(gè)就是橫截面數(shù)據(jù)生成。
查看時(shí)間1958-1962年階段的值扩然,使用time_slice函數(shù)使用結(jié)果
2、國(guó)家函數(shù)定義聋伦,索引為變量夫偶,列為每個(gè)時(shí)間階段的變化界睁,這個(gè)就是時(shí)間序列數(shù)據(jù)。
第四十個(gè)國(guó)家的結(jié)果
3兵拢、設(shè)置變量切分函數(shù)翻斟,索引為國(guó)家,列為時(shí)間變化说铃,這個(gè)就是面板數(shù)據(jù)访惜。
當(dāng)變量為total_pop的人口的時(shí)候,面板數(shù)據(jù)如何腻扇?
5债热、國(guó)家和變量二維的時(shí)間序列變化
當(dāng)國(guó)家為Belarus和變量為total_pop時(shí)候的時(shí)間序列表,我們還可以通過(guò)改變國(guó)家和變量的名稱來(lái)查看不同的時(shí)間序列結(jié)果
6幼苛、由于案例中區(qū)域劃分層次太多窒篱,建立字典,將區(qū)域進(jìn)行進(jìn)一步簡(jiǎn)單劃分:
首先查看區(qū)域有多少類別舶沿,通過(guò)結(jié)果發(fā)現(xiàn)墙杯,等級(jí)劃分太頻繁,為此我們進(jìn)行了更進(jìn)一步的簡(jiǎn)化括荡,此處我們應(yīng)用了lambda函數(shù)來(lái)進(jìn)行簡(jiǎn)化地區(qū)的變更高镐,其實(shí)可以應(yīng)用replace函數(shù)來(lái)對(duì)應(yīng)替換。其實(shí)用replace的效率會(huì)更高(http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.replace.html)畸冲,我還放上一個(gè)replace的應(yīng)用嫉髓。
定義一個(gè)小的區(qū)域的函數(shù)
第六步,數(shù)據(jù)質(zhì)量評(píng)估
評(píng)估缺失值數(shù)據(jù)在所有數(shù)據(jù)字段中的普遍性召夹,評(píng)估其丟失是隨機(jī)還是系統(tǒng)的岩喷,并在缺少數(shù)據(jù)是確定模式;
標(biāo)簽包含給定字段丟失數(shù)據(jù)的默認(rèn)值监憎;
確定質(zhì)量評(píng)估抽樣策略和初始EDA纱意;
時(shí)間數(shù)據(jù)類型,保證格式的一致性和粒度的數(shù)據(jù)鲸阔,并執(zhí)行對(duì)數(shù)據(jù)的所有日期的檢查偷霉;
在多個(gè)字段捕捉相同或者相似的信息的情況下,了解它們之間的關(guān)系并評(píng)估最有效的字段使用褐筛;
查看每個(gè)字段數(shù)據(jù)類型
對(duì)于離散值類型类少,確保數(shù)據(jù)格式一致,評(píng)估不同值和唯一百分比的數(shù)據(jù)渔扎,并對(duì)答案的類型進(jìn)行正確檢查
連續(xù)數(shù)據(jù)類型硫狞,進(jìn)行描述性統(tǒng)計(jì),并對(duì)值進(jìn)行檢查
1、導(dǎo)入三大包:missingno残吩、pivottablejs财忽、pandas_profiling
Missingnohttps://github.com/ResidentMario/missingno非常重要的一個(gè)包,可視化的展示數(shù)據(jù)缺失的分布情況泣侮,能夠查看缺失值的分布情況即彪,缺失數(shù)據(jù)有哪些原因,哪些地方有丟失活尊?里面的柱狀圖隶校,熱力圖都可視化效果很好。
Pivottalblejshttps://github.com/nicolaskruchten/jupyter_pivottablejs能夠形成一個(gè)透視表蛹锰,將每個(gè)變量形成統(tǒng)計(jì)深胳。https://github.com/nicolaskruchten/pivottable
Pandas_profilinghttps://github.com/JosPolfliet/pandas-profiling/blob/master/examples/meteorites.ipynb
2、查看一個(gè)切分?jǐn)?shù)據(jù)的缺失值宁仔,missingno工具包的使用
A稠屠、查看‘2013-2017’階段的數(shù)據(jù)缺失,從輸出值我們可以查看哪些國(guó)家翎苫、哪些變量缺失數(shù)據(jù)比較多权埠,圖的最后一列是data completeness我們可以看到國(guó)家的總的缺失情況,
B煎谍、還可以研究一下時(shí)間序列的數(shù)據(jù)缺失值情況:例如變量是水資源總量攘蔽,”exploitable_total”,在每個(gè)時(shí)間段確實(shí)情況呐粘,為了把圖展示的更漂亮满俗,更加合理,把matplotlib的參數(shù)進(jìn)行調(diào)整作岖。從可視化的展示結(jié)果顯示唆垃,只有一小部分國(guó)家報(bào)告了可利用的水資源總量,這些國(guó)家中只有極少數(shù)國(guó)家擁有最近一段時(shí)間的數(shù)據(jù)痘儡。我們將刪除該變量辕万,因?yàn)檫@么少的數(shù)據(jù)點(diǎn)會(huì)導(dǎo)致很多問(wèn)題。
C沉删、接著我們有研究了降雨量的數(shù)據(jù)缺失值研究渐尿,結(jié)果顯示2002年以后就沒有數(shù)據(jù)統(tǒng)計(jì)了,可以剔除該變量矾瑰。
D砖茸、還記得我們之前定義過(guò)的subregion()函數(shù)嗎?這個(gè)時(shí)候殴穴,我們就需要用上單一一個(gè)區(qū)域的數(shù)據(jù)缺失值的研究了凉夯。我們這個(gè)時(shí)候只研究2013-1017年北美洲數(shù)據(jù)的缺失值情況货葬。從圖的結(jié)果顯示,從Haiti到后面的Dominica的55個(gè)變量有不同程度的數(shù)據(jù)缺失狀況劲够。此外我們針對(duì)最后的Dominica的缺失數(shù)據(jù)進(jìn)行檢查宝惰,找出這部分為什么會(huì)缺失?
3再沧、通過(guò)地圖查看folium工具包使用,每個(gè)國(guó)家缺失值數(shù)據(jù)的分布
A尊残、導(dǎo)入包folium炒瘸,沒有安裝就常規(guī)的pip install folium包,還需要下載world.json(http://blog.csdn.net/chinagissoft/article/details/52136253)寝衫,Choropleth圖顷扩,分級(jí)統(tǒng)計(jì)圖法可反映布滿整個(gè)區(qū)域的現(xiàn)象(如地貌切割密度)、呈點(diǎn)狀分布的現(xiàn)象(如居民點(diǎn)的密度)或線狀分布的現(xiàn)象(如河流密度或道路網(wǎng)密度)慰毅,但較多的是反映呈面狀但屬分散分布的現(xiàn)象隘截,如反映人口密度、某農(nóng)作物播種面積的比汹胃、人均收入等婶芭。此法因常用色級(jí)表示,故亦稱色級(jí)統(tǒng)計(jì)圖法着饥。Pandas.notnull*1常規(guī)利用布爾值判斷是否為空值犀农,這里運(yùn)用0或1標(biāo)記。例如我們?cè)诎咐\(yùn)用了各國(guó)農(nóng)業(yè)數(shù)據(jù)缺失對(duì)GDP數(shù)據(jù)的影響宰掉,我們從圖中可以發(fā)現(xiàn)亞洲各國(guó)的數(shù)據(jù)缺失比較嚴(yán)重呵哨。
B、還可以查看2013-2017年階段全球營(yíng)養(yǎng)不良的缺失數(shù)據(jù)情況
C轨奄、通過(guò)seaborn的熱力圖查看隨著時(shí)間的每個(gè)國(guó)家對(duì)55個(gè)指標(biāo)變量的重視程度變化趨勢(shì)
4孟害、pivottablejs包使用,查看數(shù)據(jù)相關(guān)性挪拟,也可以用于數(shù)據(jù)切分挨务,和EXCEL的透視表功能相似。
5舞丛、Pandas_profiling使用耘子,數(shù)據(jù)質(zhì)量探索的主要工具包,報(bào)表包來(lái)研究2013-2017年55個(gè)單變量數(shù)據(jù)的分布以及變量之間的相關(guān)系分析球切。首先對(duì)數(shù)據(jù)簡(jiǎn)單進(jìn)行了一個(gè)統(tǒng)計(jì)性描述谷誓,會(huì)提示每個(gè)變量的缺失值情況,然后其中rejected表示由于和其他的變量之間的相關(guān)性很高吨凑,可以剔除改變量捍歪。此外還會(huì)告訴每個(gè)變量的分布户辱,但是我們利用這個(gè)可能有一些問(wèn)題,就是例如這里的total_pop可能因?yàn)楹推渌兞肯嚓P(guān)性比較高糙臼,所以rejected庐镐。所以后面我們會(huì)單獨(dú)分析人口變量。
6变逃、數(shù)據(jù)峰度和偏度的研究
忽略的人口變量變量必逆,單變量的分析知識(shí)點(diǎn)引入,單變量峰度和偏度分析揽乱,
在每個(gè)變量的探索分析中名眉,我們不難發(fā)現(xiàn)每個(gè)變量都會(huì)有Kurtosis和Skew,前面的是峰度凰棉,后面一個(gè)是偏度损拢。峰度是描述總體中所有取值分布形態(tài)陡緩程度的統(tǒng)計(jì)量。這個(gè)統(tǒng)計(jì)量需要與正態(tài)分布相比較撒犀,峰度為0表示該總體數(shù)據(jù)分布與正態(tài)分布的陡緩程度相同福压;峰度大于0表示該總體數(shù)據(jù)分布與正態(tài)分布相比較為陡峭,為尖頂峰或舞;峰度小于0表示該總體數(shù)據(jù)分布與正態(tài)分布相比較為平坦荆姆,為平頂峰。峰度的絕對(duì)值數(shù)值越大表示其分布形態(tài)的陡緩程度與正態(tài)分布的差異程度越大映凳。
峰度的具體計(jì)算公式為:
偏度與峰度類似胞枕,它也是描述數(shù)據(jù)分布形態(tài)的統(tǒng)計(jì)量,其描述的是某總體取值分布的對(duì)稱性魏宽。這個(gè)統(tǒng)計(jì)量同樣需要與正態(tài)分布相比較腐泻,偏度為0表示其數(shù)據(jù)分布形態(tài)與正態(tài)分布的偏斜程度相同;偏度大于0表示其數(shù)據(jù)分布形態(tài)與正態(tài)分布相比為正偏或右偏队询,即有一條長(zhǎng)尾巴拖在右邊派桩,數(shù)據(jù)右端有較多的極端值;偏度小于0表示其數(shù)據(jù)分布形態(tài)與正態(tài)分布相比為負(fù)偏或左偏蚌斩,即有一條長(zhǎng)尾拖在左邊铆惑,數(shù)據(jù)左端有較多的極端值。偏度的絕對(duì)值數(shù)值越大表示其分布形態(tài)的偏斜程度越大送膳。
偏度的具體計(jì)算公式為:
研究人口的分布情況员魏,發(fā)現(xiàn)農(nóng)村人口最小值里面有一個(gè)-98的異常值,于是就對(duì)這個(gè)農(nóng)村人口進(jìn)行深度研究叠聋,觀察發(fā)現(xiàn)是Qatar這個(gè)地區(qū)的城市人口在2015年比總的人口高98撕阎,而且查看2015年之前的數(shù)據(jù)發(fā)現(xiàn),前面的都是逐漸增長(zhǎng)的碌补,那可以判定這個(gè)-98和-13都有可能是一些異常值虏束,或者是錯(cuò)誤值棉饶。后面對(duì)峰度值和偏度值利用scipy都做了統(tǒng)計(jì)發(fā)現(xiàn)這兩個(gè)指標(biāo)都能得出。我們發(fā)現(xiàn)結(jié)果的峰值和偏值都比較大镇匀,可以做一個(gè)對(duì)數(shù)轉(zhuǎn)換照藻,對(duì)數(shù)變換是數(shù)據(jù)變換的一種常用方式,數(shù)據(jù)變換的目的在于使數(shù)據(jù)的呈現(xiàn)方式接近我們所希望的前提假設(shè)汗侵,從而更好的進(jìn)行統(tǒng)計(jì)推斷幸缕。
7、可視化分析
A晰韵、單變量的變化來(lái)分析總的人口變量變化
B冀值、發(fā)現(xiàn)圖形分布,沒有我們看到的之前各種分布宫屠,可以通過(guò)對(duì)數(shù)轉(zhuǎn)換,從新看看新的分布滑蚯。
C浪蹂、通過(guò)上面的人口的2013-2017年是一個(gè)左偏分布圖。以下還列出了美國(guó)這個(gè)地區(qū)人口時(shí)間序列圖告材,然后北美所有國(guó)家的人口隨時(shí)間增長(zhǎng)圖坤次,接著就是每個(gè)地區(qū)人口增長(zhǎng)百分比,開始線條看著分辨不出每個(gè)國(guó)家的變化斥赋,用熱力圖就很明顯的分辨每個(gè)地區(qū)的增長(zhǎng)情況雾家,這樣就可以做一些分析累铅,查找哪些地區(qū)增長(zhǎng)的明顯,為什么增長(zhǎng)比其他地區(qū)明顯,是否有戰(zhàn)爭(zhēng)或者大規(guī)模遷移導(dǎo)致带到,或者是現(xiàn)在生活條件變好,導(dǎo)致的人口增長(zhǎng)刀森。
D撮奏、研究水資源變量隨時(shí)間的變化,隨地區(qū)的變化的情況弯菊。
第七步纵势,評(píng)估每個(gè)變量與目標(biāo)變量之間的相關(guān)性。
變量分為兩種管钳,一種是離散變量钦铁,一個(gè)是連續(xù)變量。通過(guò)可視化的展示這些自變量的與因變量之間的相關(guān)性才漆。
1牛曹、離散變量與離散變量
熱力圖(http://seaborn.pydata.org/generated/seaborn.heatmap.html?highlight=heatmap#seaborn.heatmap),
柱狀圖(http://seaborn.pydata.org/tutorial/categorical.html?highlight=bar%20plot#bar-plots)
2醇滥、離散變量與連續(xù)變量
箱體圖http://seaborn.pydata.org/generated/seaborn.boxplot.html#seaborn.boxplot
小提琴圖躏仇,http://seaborn.pydata.org/examples/simple_violinplots.html
直方圖恋脚,http://seaborn.pydata.org/tutorial/distributions.html#histograms
3、連續(xù)變量與連續(xù)變量
散點(diǎn)圖http://seaborn.pydata.org/examples/marginal_ticks.html?highlight=scatter
Hexbin圖http://seaborn.pydata.org/tutorial/distributions.html#hexbin-plots
像高斯核圖一樣的圖http://seaborn.pydata.org/tutorial/distributions.html#kernel-density-estimation
熱力圖http://seaborn.pydata.org/generated/seaborn.heatmap.html#seaborn.heatmap
聯(lián)合圖http://seaborn.pydata.org/generated/seaborn.jointplot.html#seaborn.jointplot
首先研究2013-2017年之間的seasonal_varality與GDP per captial之間的相關(guān)性焰手,可以先用散點(diǎn)圖來(lái)查看糟描。
還可以用JointGrid畫圖,自動(dòng)探索兩個(gè)連續(xù)變量之間的相關(guān)性
多自變量與因變量之間的相關(guān)性研究书妻,其他54個(gè)變量與GDP之間的正相關(guān)和負(fù)相關(guān)的比例船响,通過(guò)可視化展示。最后發(fā)現(xiàn)總的外在循環(huán)水資源的供應(yīng)與人均GDP成負(fù)相關(guān)躲履,
參考文獻(xiàn):網(wǎng)易云課堂《python數(shù)據(jù)分析與機(jī)器學(xué)習(xí)》见间,唐宇迪
附帶國(guó)外一個(gè)kaggle案例的數(shù)據(jù)分析案例
https://www.kaggle.com/aselad/why-are-our-employees-leaving-prematurely/notebook