????????點(diǎn)贊+留郵箱词渤,即可獲得探索性數(shù)據(jù)分析所有思維導(dǎo)圖噢!
「前情提要」
????????俗話說(shuō):“工欲善其事喧务,必先利其器⊥髌裕”做數(shù)據(jù)分析就跟打牌一樣功茴,對(duì)手出牌就像分析數(shù)據(jù)時(shí)候經(jīng)常遇到的問(wèn)題 & bug,該來(lái)的總會(huì)要來(lái)孽亲;想要贏得牌局勝利坎穿,亦或是出奇制勝,最重要是你對(duì)自己手中的牌(籌碼)有多了解返劲,究竟牌好不好玲昧,需要構(gòu)思怎樣一個(gè)打法,首先得仔細(xì)看清篮绿、了解牌的大小以及牌和牌之間的combo孵延。做數(shù)據(jù)分析就如同一場(chǎng)牌局,如果不了解手中的數(shù)據(jù)亲配,不清楚數(shù)據(jù)的估計(jì)量與分布尘应,是完全做不好數(shù)據(jù)分析的。
「正文」
????????了解牌的大泻鸹ⅰ(數(shù)據(jù)的估計(jì)量)是探索數(shù)據(jù)分析的小餐犬钢,對(duì)牌的組成(數(shù)據(jù)的分布)了解才是探索數(shù)據(jù)分析的重中之重。(想要了解數(shù)據(jù)估計(jì)量的概念和計(jì)算方法的小伙伴可以參考上一章?數(shù)據(jù)分析入門(mén) | 探索性數(shù)據(jù)「上」 - 簡(jiǎn)書(shū))思灰。
????????我們借助數(shù)據(jù)估計(jì)量的「位置」與「變異性」來(lái)探索數(shù)據(jù)是如何分布的玷犹。
一、百分位數(shù) & 箱型圖
????????我們?cè)谏衔闹刑峒叭绾斡冒俜治粩?shù)測(cè)量數(shù)據(jù)分布情況洒疚,但百分位數(shù)在對(duì)于總結(jié)數(shù)據(jù)整體分布而言歹颓,也十分有幫助。
????????在很多經(jīng)營(yíng)報(bào)告里油湖,我們會(huì)看到四分位數(shù) or 十分位數(shù)(即第10百分位數(shù)晴股、第20百分位數(shù)......第90百分位數(shù))。
????????例如肺魁,在某視頻app視頻分析里电湘,常常會(huì)依據(jù)點(diǎn)擊量為指標(biāo)對(duì)不同視頻進(jìn)行劃分,前10%的視頻,前20%的視頻寂呛,以此對(duì)不同檔次的視頻進(jìn)行分類怎诫,并根據(jù)這些分類找出它們成功的原因,如總結(jié)分析一下前10%視頻點(diǎn)擊量高的原因贷痪。
? ? ? ? 在這里幻妓,對(duì)百分位數(shù)進(jìn)行可視化的圖形是并不太常見(jiàn)的「箱型圖」。箱型圖是基于百分位數(shù)可視化的數(shù)據(jù)分布劫拢。
????????對(duì)箱型圖進(jìn)行詳細(xì)分析肉津,我們可以看到箱型圖的組成是“一個(gè)長(zhǎng)方形箱子”和“上下兩個(gè)T型”。箱子頂部和底部(就是長(zhǎng)方形的兩條長(zhǎng))是第75分位數(shù)和第25分位數(shù)舱沧,中間較粗的橫線是中位數(shù)妹沙,圖中的虛線支撐圖形中的T,上T是最大值熟吏,下T是最小值距糖。剩下的一些圓點(diǎn)則表示的是異常值。理解了箱型圖這些定義牵寺,就可以迅速明白整個(gè)數(shù)據(jù)集的分布情況悍引,獲取百分位數(shù)的情況以及最大最小值。
二帽氓、頻數(shù)表 & 直方圖
????????變量的頻數(shù)表將該變量的極差均勻的切割成多個(gè)等距分段趣斤,并給出落在每個(gè)分段中的數(shù)值個(gè)數(shù)。簡(jiǎn)單而言黎休,就是一塊肉唬渗,量肉的最左邊到最右邊一共多長(zhǎng),將肉均勻地切成10份奋渔,順便量一下每一個(gè)塊肉分別有多重镊逝。
????????這里的頻數(shù)表是2010年美國(guó)各州人口普查,各州人口數(shù)從最少的懷俄明州56萬(wàn)人(西部洛基山區(qū))到人口最多的加利福利亞州3700萬(wàn)(西部沿海)嫉鲸,用(3600-56)/10 =360萬(wàn)撑蒜。這樣我們按(56+360)萬(wàn)作為第一組、(56+360*2)萬(wàn)作為第二組......(3700)萬(wàn)作為第十組玄渗。注意這里座菠,我們發(fā)現(xiàn)第八組、第九組之間是沒(méi)有州落在其中的藤树,就是我們常說(shuō)的空組距浴滴。
????????如果我們用頻數(shù)表來(lái)進(jìn)行球員水平的分層,大概情況是這樣:
????????第十組:?jiǎn)痰に甑觥⒄材匪?/i>
????????第九組:空
????????第八組:拉塞爾升略、張伯倫
????????第七組:魔術(shù)師微王、奧尼爾
????????第六組:科比、庫(kù)里
????????而中間的空組距是有意義的品嚣,這是表明中間是有層次的缺失炕倘,即我們通常說(shuō)的,“XXX獨(dú)一檔翰撑,中間空兩檔”罩旋。
????????如果我們讀上面的頻數(shù)表,可能不夠直觀眶诈,因此直方圖就順勢(shì)而生:其中x軸為組距涨醋,y軸為數(shù)據(jù)的計(jì)數(shù)。
????????但應(yīng)該有以下幾點(diǎn)注意:
????????1.空組距也應(yīng)包括在直方圖中逝撬;
????????2.組距是等寬的浴骂;
????????3.組和組之間是沒(méi)有間隔的(這里很明顯有別于條形圖)。
三球拦、探索二元數(shù)據(jù)、分類數(shù)據(jù)與條形圖
????????前面我們探究的都是連續(xù)性數(shù)據(jù)帐我,配合箱型圖坎炼、頻數(shù)表和直方圖已經(jīng)能對(duì)連續(xù)性數(shù)據(jù)分布有一個(gè)很清晰的了解。但如果我們面對(duì)的是二元變量(YES or NO 拦键、是或否 谣光、對(duì)與錯(cuò))應(yīng)該如何呢?
????????總結(jié)二元變量的情況芬为,或總結(jié)只有幾個(gè)類別的分類變量萄金,是比較容易實(shí)現(xiàn)的。我們只需計(jì)算出數(shù)據(jù)中「1」的比例媚朦,或是重要類別出現(xiàn)的比例氧敢。舉個(gè)例子,我們可以計(jì)算某個(gè)班上同學(xué)達(dá)到優(yōu)秀的比例(大于等于90分)询张,而不會(huì)計(jì)算不優(yōu)秀的比例(因?yàn)檫@個(gè)是大多數(shù)孙乖,大多數(shù)的數(shù)據(jù)一般意義不大)。
????????我們一般會(huì)對(duì)二元數(shù)據(jù)的探索進(jìn)行可視化份氧。我們用條形圖對(duì)分類變量進(jìn)行可視化唯袄,x 軸列出類別,y 軸表示頻數(shù)或比例蜗帜。
????????*注意恋拷,我們經(jīng)常會(huì)把條形圖和直方圖弄混淆,但這里是存在一些差異:
????????1.x軸:條形圖x軸表示變量的不同類別厅缺,直方圖x軸以數(shù)值為度量顯示某個(gè)變量的值(頻率蔬顾、百分比等)宴偿;
????????2.間隔:條形圖有間隔、互相獨(dú)立阎抒,直方圖各個(gè)條形緊緊挨著酪我。
四、相關(guān)性與散點(diǎn)圖
????????如果說(shuō)探索數(shù)據(jù)分布是摸清楚牌是對(duì)還是炸且叁,那想要弄清楚JQK之間有沒(méi)有COMBO都哭,是JJQQKK,還是JJJQQQKKK逞带,這就是我們接下來(lái)要談?wù)摰降南嚓P(guān)性欺矫。牌與牌之間究竟是沒(méi)有相關(guān)性(JJQKKK的情況),還是強(qiáng)相關(guān)(JJJQQQKKK)展氓。
????????在數(shù)據(jù)分析案例中穆趴,我們經(jīng)常要檢查預(yù)測(cè)因子之間的相關(guān)性,例如在一項(xiàng)A/Btest中遇汞,在給定一次實(shí)驗(yàn)中探索某個(gè)UI的變動(dòng)對(duì)日活未妹、留存是否有影響,就需要使用相關(guān)性進(jìn)行檢驗(yàn)空入。給定變量X和變量Y繁扎,它們均有測(cè)量數(shù)據(jù)冷尉。如果變量X的高值隨變量Y的高值的變化而變化聚至,并且X的低值隨Y的低值的變化而變化宜雀,那么我們稱X和Y是正相關(guān)的。如果X的高值隨Y的低值的變化而變化埋凯,反之亦然点楼,那么我們稱變量X和Y是負(fù)相關(guān)的。
????????那么如何測(cè)量數(shù)據(jù)與數(shù)據(jù)之間是相關(guān)的呢白对?首先掠廓,數(shù)據(jù)得保持統(tǒng)一維度,即都是連續(xù)型或分類型變量甩恼;其次却盘,用「皮爾遜相關(guān)系數(shù)」來(lái)計(jì)算相關(guān)程度:
????????將變量X1的平均偏差 * 變量X2的平均偏差,再除以標(biāo)準(zhǔn)偏差之積媳拴,計(jì)算公式如下黄橘。
????????*但注意,變量的相關(guān)性可以是非線性的屈溉。在這種情況下塞关,相關(guān)系數(shù)就不再是一種有用的度量。比如子巾,稅率和收入增加之間的關(guān)系帆赢。當(dāng)稅率由零開(kāi)始增加時(shí)小压,收入也在增加。但是稅率一旦達(dá)到一定高的水平并逼近100% 時(shí)椰于,這時(shí)避稅增加了怠益,而稅收則實(shí)際下降了。
????????我們一般會(huì)用「相關(guān)矩陣」來(lái)反映各個(gè)維度之間的相關(guān)性瘾婿,例如下表被稱為相關(guān)矩陣蜻牢,它顯示了自 2012 年 7 月到 2015 年 6 月間的電信類股票每日收益間的相關(guān)性。
????????同時(shí)偏陪,「散點(diǎn)圖」也是一種可視化兩個(gè)變量之間關(guān)系的好方法抢呆。在散點(diǎn)圖中,x 軸表示一個(gè)變量笛谦,y 軸表示另一個(gè)變量抱虐,圖中的每個(gè)點(diǎn)對(duì)應(yīng)于一條記錄。從圖中可以看到饥脑,兩支股票的日收益具有強(qiáng)正相關(guān)性恳邀。在大部分交易日中,兩支股票都保持同步漲跌灶轰。但還有少數(shù)幾個(gè)交易日谣沸,其中一支股票明顯下跌而另一支股票上漲,或是相反框往。
????????接下來(lái)我們介紹更復(fù)雜的相關(guān)性分析與圖表鳄抒。
????????此前我們介紹的相關(guān)性分析都是「雙變量分析」:計(jì)算一個(gè)變量X與變量Y的關(guān)系闯捎,例如年齡與收入之間的相關(guān)性椰弊;
????????但很多情況下我們需要引入更多的維度,即「多變量分析」:計(jì)算兩個(gè)及以上的變量與變量Y的關(guān)系估計(jì)量瓤鼻,例如學(xué)校秉版、專業(yè)與收入之間的相關(guān)性;
????????對(duì)于多變量分析而言茬祷,以及具有成千上萬(wàn)乃至上百萬(wàn)條記錄的數(shù)據(jù)集清焕,散點(diǎn)圖會(huì)過(guò)于密集,不太合適祭犯;
????????因此對(duì)于大規(guī)模的數(shù)據(jù)分析而言秸妥,一般會(huì)用「六邊形圖」進(jìn)行可視化。
????????六邊形圖實(shí)際上是散點(diǎn)圖的變種沃粗,x 軸表示一個(gè)變量粥惧,y 軸表示另一個(gè)變量,但此時(shí)顏色的深淺則表示數(shù)量的多少最盅,而不像散點(diǎn)圖用很多個(gè)點(diǎn)表示突雪。將記錄分組為六邊形的組距起惕,并用不同的顏色繪制各個(gè)六邊形,以顯示每組中的記錄數(shù)咏删。
五惹想、總結(jié)
????????不管是什么數(shù)據(jù)分析項(xiàng)目,最重要的第一步都是查看數(shù)據(jù)與數(shù)據(jù)的分布督函,這正是探索性數(shù)據(jù)分析的關(guān)鍵理念所在嘀粱。通過(guò)總結(jié)并可視化數(shù)據(jù),我們可以對(duì)項(xiàng)目獲得有價(jià)值的洞悉和理解侨核。