文:屠夫1868
歡迎關(guān)注:基業(yè)長(zhǎng)紅
轉(zhuǎn)載需獲本人授權(quán)饰躲,并注明作者和出處
歷史是判斷未來的唯一方法薛闪。
金錢永不眠唇牧,屠夫問候各位早安风范。
上周屠夫以《可視化的意義》開啟了數(shù)據(jù)可視化系列,解答了3個(gè)問題:
「數(shù)據(jù)」可以用來做什么摹恰?
「分析」能解決哪些問題辫继?
「可視化」的意義是什么怒见?
今天,我們將推進(jìn)到「可視化的使用」姑宽,幫大家更好地理解這個(gè)工具遣耍。
01? 可視化方案該怎么選?
上一節(jié)課里炮车,屠夫總結(jié)過:
可視化可以輔助分析過程的推理
可視化可以輔助分析結(jié)果的表達(dá)
一方面是過程舵变,一方面是結(jié)果,看似涇渭分明的兩部分瘦穆,在實(shí)際的數(shù)據(jù)分析工作中是相輔相成的纪隙。
許多時(shí)候,我們做數(shù)據(jù)分析是帶有探索和挖掘性質(zhì)的扛或,上一階段的分析結(jié)果可能會(huì)成為下一階段分析的方向绵咱。
選出合適的可視化方案,不但有助于表達(dá)當(dāng)前階段的分析結(jié)果 (承前)熙兔,還有助于開啟下一階段的分析思路 (啟后)悲伶。
想在數(shù)據(jù)分析中選出合適的可視化方案,得先了解我們的“選項(xiàng)”都有哪些住涉。
可視化的圖表數(shù)量繁多麸锉,再加上可以使用的元素組合 (比如色彩),可謂千變?nèi)f化秆吵,逐一列舉自然是不可能的。
但是五慈,可視化方案其實(shí)可以歸納為「D·R·C·C·T」5大類纳寂。
只要熟知這5大類,就能做到對(duì)數(shù)據(jù)可視化應(yīng)用自如泻拦。
02? Distribution · 分布
第一大類是D · Distribution毙芜,分布。
如果要選出自己最常用的可視化類型争拐,屠夫的答案一定是「分布」腋粥。
分布之于可視化,就如清蒸之于烹調(diào) ——
方法不復(fù)雜架曹,但最大限度地保留了食材的本來味道隘冲。
它以最原汁原味的方式展現(xiàn)數(shù)據(jù)特征,讓我們對(duì)分析對(duì)象有初步認(rèn)知绑雄。
「分布」類可視化的典型代表包括散點(diǎn)圖展辞、直方圖和箱線圖。
這3種分布類可視化万牺,其實(shí)我們?cè)谥袑W(xué)課程里都學(xué)過罗珍,但大部分人都低估了其作用洽腺。
比如這一張簡(jiǎn)單的箱線圖,其實(shí)把4類數(shù)據(jù)的最小值覆旱、25%分位數(shù)蘸朋、中位數(shù)、75%分位數(shù)扣唱、最大值和樣本量 (箱子的寬度) 全部展現(xiàn)在我們眼前:
考慮樣本量的多寡:D類最多藕坯,B類最少……
考慮value值的離散:B類最集中,C類最分散……
考慮value值的大谢唷:A類最大者小于B類最小者……
「分布」類可視化方案中也有一些不常見的圖表堕担,比如屠夫曾在《給我3枚硬幣》用過的平行坐標(biāo)系:
上面的平行坐標(biāo)系展現(xiàn)的是上世紀(jì)70、80年代的32款汽車在每加侖汽油行駛的里程 (mpg) 曲聂、氣缸數(shù) (cylinders) 霹购、引擎大小 (displacement) 等維度下的分布情況。
可以看出朋腋,當(dāng)時(shí)的汽車氣缸數(shù)分布比較集中 (4齐疙、6、8)旭咽,但是車身重量 (weight) 的分布卻非常分散贞奋。
又比如上半年大家經(jīng)常看的地理熱力圖 —— 結(jié)合地圖和顏色后穷绵,以簡(jiǎn)單清晰的方式把數(shù)據(jù)分布展現(xiàn)出來:
「分布」類可視化轿塔,是解決數(shù)據(jù)分析問題的良好開端。
屠夫并不指望這類可視化能獲得最終答案仲墨,但卻是邁向最終答案的第一步勾缭。
一份數(shù)據(jù)集到手,無論分析的目標(biāo)是什么目养,先看看分布俩由,準(zhǔn)沒錯(cuò)。
03? Relationship · 關(guān)系
第二大類是R · Relationship癌蚁,關(guān)系幻梯。
「關(guān)系」類的可視化方案,側(cè)重展示的是數(shù)據(jù)的相關(guān)性和關(guān)聯(lián)關(guān)系努释。
從廣義上說碘梢,任何一類可視化都可以通過添加“系列”實(shí)現(xiàn)展示數(shù)據(jù)的關(guān)系 (如果有的話)。
比如上面的例子伐蒂,將多類數(shù)據(jù)的箱線圖放在一起痘系,可以展示「分布」方面的「關(guān)系」;
又比如饿自,將多類數(shù)據(jù)的餅圖放在一起汰翠,可以展示「構(gòu)成」方面的「關(guān)系」龄坪;
再比如,將多類數(shù)據(jù)的折線圖放在一起复唤,可以展示「趨勢(shì)」方面的「關(guān)系」健田。
在實(shí)際應(yīng)用中,屠夫還是習(xí)慣將“「關(guān)系」類可視化方案”定義縮小一點(diǎn)佛纫,歸納為“基于坐標(biāo)系”和“基于圖”兩種妓局。
基于坐標(biāo)系的「關(guān)系」類可視化方案,包括散點(diǎn)圖呈宇、氣泡圖好爬、六邊形分箱圖、熱力圖和平行坐標(biāo)系等甥啄。
六邊形分箱圖和平行坐標(biāo)系的使用比較少存炮,熱力圖在上一節(jié)已經(jīng)提過,這里介紹一下氣泡圖蜈漓。
氣泡圖可以理解為散點(diǎn)圖的加強(qiáng)版 —— 將點(diǎn)換成圓穆桂,以圓的面積 (注意,不是半徑) 多展現(xiàn)一個(gè)維度的信息融虽。
下面是一個(gè)氣泡圖的例子享完,作者加上了趨勢(shì)線來表達(dá)氣泡數(shù)據(jù)的相關(guān)性:
基于圖的「關(guān)系」類可視化方案,包括力導(dǎo)向圖和弦圖有额。
力導(dǎo)向圖的名字比較拗口般又,如果屠夫說“關(guān)系鏈”,許多人應(yīng)該會(huì)“哦”地一下恍然大悟巍佑。
力導(dǎo)向圖用節(jié)點(diǎn)代表對(duì)象茴迁,用連線代表對(duì)象之間的關(guān)系。
比如下圖表達(dá)了抽象派藝術(shù)家們的社交關(guān)系句狼,不難看出關(guān)系網(wǎng)中最有影響力的關(guān)鍵節(jié)點(diǎn)是畢加索:
弦圖則顯得更優(yōu)雅一些 —— 將圓的每一段表示一個(gè)對(duì)象 (相當(dāng)于力導(dǎo)向圖中的節(jié)點(diǎn))笋熬,再用貝塞爾曲線表示對(duì)象之間的關(guān)系 (相當(dāng)于力導(dǎo)向圖中的直線)热某。
下面的例子是以弦圖展現(xiàn)海外一些期刊之間的引用關(guān)系腻菇,屠夫選擇觀察《Science》的引用/被引用關(guān)系:
04? Comparison · 比較
第三大類是C · Comparison,比較昔馋。
「比較」類的可視化方案筹吐,重點(diǎn)在于不同數(shù)據(jù)之間的對(duì)比、突出差異點(diǎn)秘遏,和「關(guān)系」類的可視化方案正好是不同的出發(fā)角度丘薛。
這類可視化方案一定繞不開的典型代表,是柱狀圖邦危。
屠夫在考察候選人的可視化功底時(shí)洋侨,必問的一道題是:
請(qǐng)解釋柱狀圖和直方圖的區(qū)別舍扰?
我說的當(dāng)然不是名稱上的區(qū)別 (Bar Chart V.S. Histogram) ——
從應(yīng)用角度,直方圖常用于「分布」希坚,而柱狀圖常用于「比較」
從數(shù)據(jù)角度边苹,直方圖適用于連續(xù)型變量,而柱狀圖更適合離散型變量
從制圖角度裁僧,直方圖的直方無間隔个束,而柱狀圖的柱形有間隔
柱狀圖的應(yīng)用很廣泛,看起來似乎很枯燥聊疲。
其實(shí)只要做簡(jiǎn)單變化茬底,柱狀圖的視覺效果也可以很驚艷,比如下面這張將柱狀圖和極坐標(biāo)系結(jié)合的圖表:
適合「比較」的圖表還有很多获洲,包括上面提到過的熱力圖阱表、氣泡圖等等,這里屠夫還想再舉的一例是“雷達(dá)圖”昌妹。
雷達(dá)圖在許多游戲中出現(xiàn)捶枢,常表示人物的多維度屬性或者能力值。既可以對(duì)比同一人物的不同維度飞崖,也可以對(duì)比不同人物的同一維度烂叔,看起來簡(jiǎn)潔而直觀。
下圖是基于2013年NBA全明星球員繪制的雷達(dá)圖:
05? Composition · 構(gòu)成
第四大類是C · Composition固歪,構(gòu)成蒜鸡。
「構(gòu)成」類的可視化方案,重在展現(xiàn)整體里的構(gòu)成比例牢裳,最簡(jiǎn)單的「構(gòu)成」例子非餅圖莫屬逢防。
或許有同學(xué)會(huì)問,餅圖也展現(xiàn)了不同部分的大小比例蒲讯,是不是也可以和柱狀圖一樣忘朝,作為「比較」類的可視化方案呢?
理論上可以判帮,但屠夫不建議這么做局嘁。
人眼對(duì)于面積和角度的感知遠(yuǎn)低于長(zhǎng)度,而餅圖恰恰是運(yùn)用面積和角度進(jìn)行可視化表達(dá)晦墙,在「比較」方面不夠顯著悦昵。
舉個(gè)例子,下面3種情形屬于“比較對(duì)象的數(shù)值接近”晌畅,我們從上面餅圖里獲得的對(duì)比效果但指,遠(yuǎn)不及下面的柱狀圖
—— 雖然上下兩張圖,是基于相同數(shù)據(jù)繪制的。
實(shí)際分析里我們也會(huì)遇上“帶層級(jí)結(jié)構(gòu)的數(shù)據(jù)”棋凳,這時(shí)我們需要餅圖的加強(qiáng)版 —— 旭日?qǐng)D拦坠。
旭日?qǐng)D又叫“多層餅圖”,以同心圓的多層來表示層級(jí)關(guān)系剩岳,內(nèi)層是外層的“父”贪婉,本質(zhì)上也是一種樹狀結(jié)構(gòu)。
比如下面這張圖展示了不同咖啡風(fēng)味的層級(jí)關(guān)系:
較真的同學(xué)會(huì)發(fā)現(xiàn)卢肃,餅圖運(yùn)用了圓的“圓心角”疲迂,旭日?qǐng)D以此為基礎(chǔ)套上“同心圓”,卻沒有發(fā)揮“半徑”莫湘。
如果把圓的半徑也用于數(shù)據(jù)表達(dá)尤蒿,就會(huì)形成“南丁格爾玫瑰圖”。
顧名思義幅垮,這是由著名的醫(yī)療改革家南丁格爾護(hù)士發(fā)明的一種圖表腰池,用扇形的半徑來表達(dá)數(shù)據(jù)。
下面的例子是Facebook在2016年的用戶畫像忙芒,每一塊扇形表示一種數(shù)據(jù)維度示弓,而人口統(tǒng)計(jì)學(xué)屬性 (性別、收入呵萨、年齡奏属、學(xué)歷) 還使用了層疊:
06? Trend · 趨勢(shì)
第五大類是T · Trend,趨勢(shì)潮峦。
「趨勢(shì)」類的可視化方案囱皿,重在描述數(shù)據(jù)隨某一維度變化而變化的情況。
“某一維度”往往是「時(shí)間」忱嘹,這樣的圖表就是我們經(jīng)常見到的折線圖了:
注意了嘱腥,屠夫只是說“往往是「時(shí)間」”,總會(huì)有例外拘悦。
如果“某一維度”是「流程節(jié)點(diǎn)」,那么可以用纱∶祝基圖來表達(dá):
上圖是經(jīng)濟(jì)學(xué)人對(duì)“難民流向”問題的可視化分苇,其中藍(lán)色表示難民來源國(guó)家,黃色表示遷移目的地吻商,綠色表示成功入境乌叶,紅色表示拒絕入境准浴。
衫趾幔基圖在互聯(lián)網(wǎng)行業(yè)常用于用戶路徑分析葡公,每一個(gè)節(jié)點(diǎn)可以表示一個(gè)功能頁(yè)面,而節(jié)點(diǎn)間的條狀帶表示有多少用戶沿著這個(gè)方向跳轉(zhuǎn)或流動(dòng) —— 這也是一種“趨勢(shì)”旋圆。
把砂基圖順時(shí)針旋轉(zhuǎn)90度,再挑選其中一種路徑進(jìn)行展示步清,就成了另一種圖表 —— 漏斗圖要门。
依然是來自經(jīng)濟(jì)學(xué)人的可視化案例虏肾,這次是有關(guān)職場(chǎng)性別歧視 (薪資差距) 的分析,對(duì)比同類型工作中男女薪資差異欢搜。
漏斗從上至下分別是:
所有工作
同級(jí)別的工作
同級(jí)別且同公司的工作
同級(jí)別封豪、同公司且同部門的工作
07 可視化方案5大類的總結(jié)
無論是在分析過程中輔助推理,還是在分析結(jié)果上輔助表達(dá)炒瘟,選取合適的可視化方案十分重要吹埠。
讓我們重新回顧一下5大類可視化方案及其作用吧~
Distribution · 分布:展現(xiàn)數(shù)據(jù)的分布情況,是洞察的基礎(chǔ)
Relationship · 關(guān)系:表達(dá)數(shù)據(jù)之間的關(guān)系疮装,突出的是關(guān)聯(lián)
Comparison · 比較:對(duì)比數(shù)據(jù)的不同表現(xiàn)缘琅,重點(diǎn)的是差異
Composition · 構(gòu)成:呈現(xiàn)數(shù)據(jù)內(nèi)部的成分,關(guān)注的是比例
Trend · 趨勢(shì):考慮數(shù)據(jù)隨時(shí)間廓推、流程等維度變化的情況
在第二節(jié)課的最后胯杭,屠夫整理了一些常見圖表的可視化功能,大家不妨保存下來隨手查詢哦~