數(shù)據(jù)分析利器 | 一文教你完全掌握“了解數(shù)據(jù)”的方法論——探索性數(shù)據(jù)分析「下」

????????點(diǎn)贊+留郵箱词渤,即可獲得探索性數(shù)據(jù)分析所有思維導(dǎo)圖噢!

「前情提要」


????????俗話說(shuō):“工欲善其事喧务,必先利其器⊥髌裕”做數(shù)據(jù)分析就跟打牌一樣功茴,對(duì)手出牌就像分析數(shù)據(jù)時(shí)候經(jīng)常遇到的問(wèn)題 & bug,該來(lái)的總會(huì)要來(lái)孽亲;想要贏得牌局勝利坎穿,亦或是出奇制勝,最重要是你對(duì)自己手中的牌(籌碼)有多了解返劲,究竟牌好不好玲昧,需要構(gòu)思怎樣一個(gè)打法,首先得仔細(xì)看清篮绿、了解牌的大小以及牌和牌之間的combo孵延。做數(shù)據(jù)分析就如同一場(chǎng)牌局,如果不了解手中的數(shù)據(jù)亲配,不清楚數(shù)據(jù)的估計(jì)量與分布尘应,是完全做不好數(shù)據(jù)分析的。


「正文」


????????了解牌的大泻鸹ⅰ(數(shù)據(jù)的估計(jì)量)是探索數(shù)據(jù)分析的小餐犬钢,對(duì)牌的組成(數(shù)據(jù)的分布)了解才是探索數(shù)據(jù)分析的重中之重。(想要了解數(shù)據(jù)估計(jì)量的概念和計(jì)算方法的小伙伴可以參考上一章?數(shù)據(jù)分析入門(mén) | 探索性數(shù)據(jù)「上」 - 簡(jiǎn)書(shū))思灰。

????????我們借助數(shù)據(jù)估計(jì)量的「位置」與「變異性」來(lái)探索數(shù)據(jù)是如何分布的玷犹。

一、百分位數(shù) & 箱型圖

????????我們?cè)谏衔闹刑峒叭绾斡冒俜治粩?shù)測(cè)量數(shù)據(jù)分布情況洒疚,但百分位數(shù)在對(duì)于總結(jié)數(shù)據(jù)整體分布而言歹颓,也十分有幫助。

????????在很多經(jīng)營(yíng)報(bào)告里油湖,我們會(huì)看到四分位數(shù) or 十分位數(shù)(即第10百分位數(shù)晴股、第20百分位數(shù)......第90百分位數(shù))。

????????例如肺魁,在某視頻app視頻分析里电湘,常常會(huì)依據(jù)點(diǎn)擊量為指標(biāo)對(duì)不同視頻進(jìn)行劃分,前10%的視頻,前20%的視頻寂呛,以此對(duì)不同檔次的視頻進(jìn)行分類怎诫,并根據(jù)這些分類找出它們成功的原因,如總結(jié)分析一下前10%視頻點(diǎn)擊量高的原因贷痪。

? ? ? ? 在這里幻妓,對(duì)百分位數(shù)進(jìn)行可視化的圖形是并不太常見(jiàn)的「箱型圖」。箱型圖是基于百分位數(shù)可視化的數(shù)據(jù)分布劫拢。

箱型圖

????????對(duì)箱型圖進(jìn)行詳細(xì)分析肉津,我們可以看到箱型圖的組成是“一個(gè)長(zhǎng)方形箱子”和“上下兩個(gè)T型”。箱子頂部和底部(就是長(zhǎng)方形的兩條長(zhǎng))是第75分位數(shù)和第25分位數(shù)舱沧,中間較粗的橫線是中位數(shù)妹沙,圖中的虛線支撐圖形中的T,上T是最大值熟吏,下T是最小值距糖。剩下的一些圓點(diǎn)則表示的是異常值。理解了箱型圖這些定義牵寺,就可以迅速明白整個(gè)數(shù)據(jù)集的分布情況悍引,獲取百分位數(shù)的情況以及最大最小值。

二帽氓、頻數(shù)表 & 直方圖

????????變量的頻數(shù)表將該變量的極差均勻的切割成多個(gè)等距分段趣斤,并給出落在每個(gè)分段中的數(shù)值個(gè)數(shù)。簡(jiǎn)單而言黎休,就是一塊肉唬渗,量肉的最左邊到最右邊一共多長(zhǎng),將肉均勻地切成10份奋渔,順便量一下每一個(gè)塊肉分別有多重镊逝。

頻數(shù)表

????????這里的頻數(shù)表是2010年美國(guó)各州人口普查,各州人口數(shù)從最少的懷俄明州56萬(wàn)人(西部洛基山區(qū))到人口最多的加利福利亞州3700萬(wàn)(西部沿海)嫉鲸,用(3600-56)/10 =360萬(wàn)撑蒜。這樣我們按(56+360)萬(wàn)作為第一組、(56+360*2)萬(wàn)作為第二組......(3700)萬(wàn)作為第十組玄渗。注意這里座菠,我們發(fā)現(xiàn)第八組、第九組之間是沒(méi)有州落在其中的藤树,就是我們常說(shuō)的空組距浴滴。

????????如果我們用頻數(shù)表來(lái)進(jìn)行球員水平的分層,大概情況是這樣:

????????第十組:?jiǎn)痰に甑觥⒄材匪?/i>

????????第九組:空

????????第八組:拉塞爾升略、張伯倫

????????第七組:魔術(shù)師微王、奧尼爾

????????第六組:科比、庫(kù)里

????????而中間的空組距是有意義的品嚣,這是表明中間是有層次的缺失炕倘,即我們通常說(shuō)的,“XXX獨(dú)一檔翰撑,中間空兩檔”罩旋。

????????如果我們讀上面的頻數(shù)表,可能不夠直觀眶诈,因此直方圖就順勢(shì)而生:其中x軸為組距涨醋,y軸為數(shù)據(jù)的計(jì)數(shù)。

????????但應(yīng)該有以下幾點(diǎn)注意:

????????1.空組距也應(yīng)包括在直方圖中逝撬;

????????2.組距是等寬的浴骂;

????????3.組和組之間是沒(méi)有間隔的(這里很明顯有別于條形圖)。

三球拦、探索二元數(shù)據(jù)、分類數(shù)據(jù)與條形圖

????????前面我們探究的都是連續(xù)性數(shù)據(jù)帐我,配合箱型圖坎炼、頻數(shù)表和直方圖已經(jīng)能對(duì)連續(xù)性數(shù)據(jù)分布有一個(gè)很清晰的了解。但如果我們面對(duì)的是二元變量(YES or NO 拦键、是或否 谣光、對(duì)與錯(cuò))應(yīng)該如何呢?

????????總結(jié)二元變量的情況芬为,或總結(jié)只有幾個(gè)類別的分類變量萄金,是比較容易實(shí)現(xiàn)的。我們只需計(jì)算出數(shù)據(jù)中「1」的比例媚朦,或是重要類別出現(xiàn)的比例氧敢。舉個(gè)例子,我們可以計(jì)算某個(gè)班上同學(xué)達(dá)到優(yōu)秀的比例(大于等于90分)询张,而不會(huì)計(jì)算不優(yōu)秀的比例(因?yàn)檫@個(gè)是大多數(shù)孙乖,大多數(shù)的數(shù)據(jù)一般意義不大)。

條形圖

????????我們一般會(huì)對(duì)二元數(shù)據(jù)的探索進(jìn)行可視化份氧。我們用條形圖對(duì)分類變量進(jìn)行可視化唯袄,x 軸列出類別,y 軸表示頻數(shù)或比例蜗帜。

????????*注意恋拷,我們經(jīng)常會(huì)把條形圖和直方圖弄混淆,但這里是存在一些差異:

????????1.x軸:條形圖x軸表示變量的不同類別厅缺,直方圖x軸以數(shù)值為度量顯示某個(gè)變量的值(頻率蔬顾、百分比等)宴偿;

????????2.間隔:條形圖有間隔、互相獨(dú)立阎抒,直方圖各個(gè)條形緊緊挨著酪我。

四、相關(guān)性與散點(diǎn)圖

????????如果說(shuō)探索數(shù)據(jù)分布是摸清楚牌是對(duì)還是炸且叁,那想要弄清楚JQK之間有沒(méi)有COMBO都哭,是JJQQKK,還是JJJQQQKKK逞带,這就是我們接下來(lái)要談?wù)摰降南嚓P(guān)性欺矫。牌與牌之間究竟是沒(méi)有相關(guān)性(JJQKKK的情況),還是強(qiáng)相關(guān)(JJJQQQKKK)展氓。

????????在數(shù)據(jù)分析案例中穆趴,我們經(jīng)常要檢查預(yù)測(cè)因子之間的相關(guān)性,例如在一項(xiàng)A/Btest中遇汞,在給定一次實(shí)驗(yàn)中探索某個(gè)UI的變動(dòng)對(duì)日活未妹、留存是否有影響,就需要使用相關(guān)性進(jìn)行檢驗(yàn)空入。給定變量X和變量Y繁扎,它們均有測(cè)量數(shù)據(jù)冷尉。如果變量X的高值隨變量Y的高值的變化而變化聚至,并且X的低值隨Y的低值的變化而變化宜雀,那么我們稱X和Y是正相關(guān)的。如果X的高值隨Y的低值的變化而變化埋凯,反之亦然点楼,那么我們稱變量X和Y是負(fù)相關(guān)的。

????????那么如何測(cè)量數(shù)據(jù)與數(shù)據(jù)之間是相關(guān)的呢白对?首先掠廓,數(shù)據(jù)得保持統(tǒng)一維度,即都是連續(xù)型或分類型變量甩恼;其次却盘,用「皮爾遜相關(guān)系數(shù)」來(lái)計(jì)算相關(guān)程度:

????????將變量X1的平均偏差 * 變量X2的平均偏差,再除以標(biāo)準(zhǔn)偏差之積媳拴,計(jì)算公式如下黄橘。

皮爾遜相關(guān)系數(shù)計(jì)算公式

????????*但注意,變量的相關(guān)性可以是非線性的屈溉。在這種情況下塞关,相關(guān)系數(shù)就不再是一種有用的度量。比如子巾,稅率和收入增加之間的關(guān)系帆赢。當(dāng)稅率由零開(kāi)始增加時(shí)小压,收入也在增加。但是稅率一旦達(dá)到一定高的水平并逼近100% 時(shí)椰于,這時(shí)避稅增加了怠益,而稅收則實(shí)際下降了。

????????我們一般會(huì)用「相關(guān)矩陣」來(lái)反映各個(gè)維度之間的相關(guān)性瘾婿,例如下表被稱為相關(guān)矩陣蜻牢,它顯示了自 2012 年 7 月到 2015 年 6 月間的電信類股票每日收益間的相關(guān)性。

相關(guān)矩陣

????????同時(shí)偏陪,「散點(diǎn)圖」也是一種可視化兩個(gè)變量之間關(guān)系的好方法抢呆。在散點(diǎn)圖中,x 軸表示一個(gè)變量笛谦,y 軸表示另一個(gè)變量抱虐,圖中的每個(gè)點(diǎn)對(duì)應(yīng)于一條記錄。從圖中可以看到饥脑,兩支股票的日收益具有強(qiáng)正相關(guān)性恳邀。在大部分交易日中,兩支股票都保持同步漲跌灶轰。但還有少數(shù)幾個(gè)交易日谣沸,其中一支股票明顯下跌而另一支股票上漲,或是相反框往。

散點(diǎn)圖

????????接下來(lái)我們介紹更復(fù)雜的相關(guān)性分析與圖表鳄抒。

????????此前我們介紹的相關(guān)性分析都是「雙變量分析」:計(jì)算一個(gè)變量X與變量Y的關(guān)系闯捎,例如年齡與收入之間的相關(guān)性椰弊;

????????但很多情況下我們需要引入更多的維度,即「多變量分析」:計(jì)算兩個(gè)及以上的變量與變量Y的關(guān)系估計(jì)量瓤鼻,例如學(xué)校秉版、專業(yè)與收入之間的相關(guān)性;

????????對(duì)于多變量分析而言茬祷,以及具有成千上萬(wàn)乃至上百萬(wàn)條記錄的數(shù)據(jù)集清焕,散點(diǎn)圖會(huì)過(guò)于密集,不太合適祭犯;

????????因此對(duì)于大規(guī)模的數(shù)據(jù)分析而言秸妥,一般會(huì)用「六邊形圖」進(jìn)行可視化。

六邊形圖

????????六邊形圖實(shí)際上是散點(diǎn)圖的變種沃粗,x 軸表示一個(gè)變量粥惧,y 軸表示另一個(gè)變量,但此時(shí)顏色的深淺則表示數(shù)量的多少最盅,而不像散點(diǎn)圖用很多個(gè)點(diǎn)表示突雪。將記錄分組為六邊形的組距起惕,并用不同的顏色繪制各個(gè)六邊形,以顯示每組中的記錄數(shù)咏删。

五惹想、總結(jié)

????????不管是什么數(shù)據(jù)分析項(xiàng)目,最重要的第一步都是查看數(shù)據(jù)與數(shù)據(jù)的分布督函,這正是探索性數(shù)據(jù)分析的關(guān)鍵理念所在嘀粱。通過(guò)總結(jié)并可視化數(shù)據(jù),我們可以對(duì)項(xiàng)目獲得有價(jià)值的洞悉和理解侨核。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末草穆,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子搓译,更是在濱河造成了極大的恐慌悲柱,老刑警劉巖,帶你破解...
    沈念sama閱讀 218,941評(píng)論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件些己,死亡現(xiàn)場(chǎng)離奇詭異豌鸡,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī)段标,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,397評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門(mén)涯冠,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人逼庞,你說(shuō)我怎么就攤上這事蛇更。” “怎么了赛糟?”我有些...
    開(kāi)封第一講書(shū)人閱讀 165,345評(píng)論 0 356
  • 文/不壞的土叔 我叫張陵派任,是天一觀的道長(zhǎng)。 經(jīng)常有香客問(wèn)我璧南,道長(zhǎng)掌逛,這世上最難降的妖魔是什么? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 58,851評(píng)論 1 295
  • 正文 為了忘掉前任司倚,我火速辦了婚禮豆混,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘动知。我一直安慰自己皿伺,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,868評(píng)論 6 392
  • 文/花漫 我一把揭開(kāi)白布盒粮。 她就那樣靜靜地躺著鸵鸥,像睡著了一般。 火紅的嫁衣襯著肌膚如雪拆讯。 梳的紋絲不亂的頭發(fā)上脂男,一...
    開(kāi)封第一講書(shū)人閱讀 51,688評(píng)論 1 305
  • 那天养叛,我揣著相機(jī)與錄音,去河邊找鬼宰翅。 笑死弃甥,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的汁讼。 我是一名探鬼主播淆攻,決...
    沈念sama閱讀 40,414評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼嘿架!你這毒婦竟也來(lái)了瓶珊?” 一聲冷哼從身側(cè)響起,我...
    開(kāi)封第一講書(shū)人閱讀 39,319評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤耸彪,失蹤者是張志新(化名)和其女友劉穎伞芹,沒(méi)想到半個(gè)月后,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體蝉娜,經(jīng)...
    沈念sama閱讀 45,775評(píng)論 1 315
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡唱较,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,945評(píng)論 3 336
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了召川。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片南缓。...
    茶點(diǎn)故事閱讀 40,096評(píng)論 1 350
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖荧呐,靈堂內(nèi)的尸體忽然破棺而出汉形,到底是詐尸還是另有隱情,我是刑警寧澤倍阐,帶...
    沈念sama閱讀 35,789評(píng)論 5 346
  • 正文 年R本政府宣布概疆,位于F島的核電站,受9級(jí)特大地震影響收捣,放射性物質(zhì)發(fā)生泄漏届案。R本人自食惡果不足惜庵楷,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,437評(píng)論 3 331
  • 文/蒙蒙 一罢艾、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧尽纽,春花似錦咐蚯、人聲如沸。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 31,993評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至差凹,卻和暖如春期奔,著一層夾襖步出監(jiān)牢的瞬間侧馅,已是汗流浹背。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 33,107評(píng)論 1 271
  • 我被黑心中介騙來(lái)泰國(guó)打工呐萌, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留馁痴,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 48,308評(píng)論 3 372
  • 正文 我出身青樓肺孤,卻偏偏與公主長(zhǎng)得像罗晕,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子赠堵,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,037評(píng)論 2 355