數(shù)據(jù)之美 · 屠夫的數(shù)據(jù)可視化三節(jié)課之二:可視化的使用

文:屠夫1868

歡迎關(guān)注:基業(yè)長(zhǎng)紅

轉(zhuǎn)載需獲本人授權(quán)饰躲,并注明作者和出處


歷史是判斷未來的唯一方法薛闪。


金錢永不眠唇牧,屠夫問候各位早安风范。

上周屠夫以《可視化的意義》開啟了數(shù)據(jù)可視化系列,解答了3個(gè)問題:

「數(shù)據(jù)」可以用來做什么摹恰?

「分析」能解決哪些問題辫继?

「可視化」的意義是什么怒见?

今天,我們將推進(jìn)到「可視化的使用」姑宽,幫大家更好地理解這個(gè)工具遣耍。



01? 可視化方案該怎么選?


上一節(jié)課里炮车,屠夫總結(jié)過:

可視化可以輔助分析過程的推理

可視化可以輔助分析結(jié)果的表達(dá)

一方面是過程舵变,一方面是結(jié)果,看似涇渭分明的兩部分瘦穆,在實(shí)際的數(shù)據(jù)分析工作中是相輔相成的纪隙。

許多時(shí)候,我們做數(shù)據(jù)分析是帶有探索和挖掘性質(zhì)的扛或,上一階段的分析結(jié)果可能會(huì)成為下一階段分析的方向绵咱。

選出合適的可視化方案,不但有助于表達(dá)當(dāng)前階段的分析結(jié)果 (承前)熙兔,還有助于開啟下一階段的分析思路 (啟后)悲伶。


想在數(shù)據(jù)分析中選出合適的可視化方案,得先了解我們的“選項(xiàng)”都有哪些住涉。

可視化的圖表數(shù)量繁多麸锉,再加上可以使用的元素組合 (比如色彩),可謂千變?nèi)f化秆吵,逐一列舉自然是不可能的。

但是五慈,可視化方案其實(shí)可以歸納為「D·R·C·C·T」5大類纳寂。

只要熟知這5大類,就能做到對(duì)數(shù)據(jù)可視化應(yīng)用自如泻拦。



02? Distribution · 分布

第一大類是D · Distribution毙芜,分布。

如果要選出自己最常用的可視化類型争拐,屠夫的答案一定是「分布」腋粥。

分布之于可視化,就如清蒸之于烹調(diào) ——

方法不復(fù)雜架曹,但最大限度地保留了食材的本來味道隘冲。

它以最原汁原味的方式展現(xiàn)數(shù)據(jù)特征,讓我們對(duì)分析對(duì)象有初步認(rèn)知绑雄。


「分布」類可視化的典型代表包括散點(diǎn)圖展辞、直方圖和箱線圖。

這3種分布類可視化万牺,其實(shí)我們?cè)谥袑W(xué)課程里都學(xué)過罗珍,但大部分人都低估了其作用洽腺。

比如這一張簡(jiǎn)單的箱線圖,其實(shí)把4類數(shù)據(jù)的最小值覆旱、25%分位數(shù)蘸朋、中位數(shù)、75%分位數(shù)扣唱、最大值和樣本量 (箱子的寬度) 全部展現(xiàn)在我們眼前:

來源:r-graph-gallery.com


考慮樣本量的多寡:D類最多藕坯,B類最少……

考慮value值的離散:B類最集中,C類最分散……

考慮value值的大谢唷:A類最大者小于B類最小者……


「分布」類可視化方案中也有一些不常見的圖表堕担,比如屠夫曾在《給我3枚硬幣》用過的平行坐標(biāo)系:

來源:columbia.edu


上面的平行坐標(biāo)系展現(xiàn)的是上世紀(jì)70、80年代的32款汽車在每加侖汽油行駛的里程 (mpg) 曲聂、氣缸數(shù) (cylinders) 霹购、引擎大小 (displacement) 等維度下的分布情況。

可以看出朋腋,當(dāng)時(shí)的汽車氣缸數(shù)分布比較集中 (4齐疙、6、8)旭咽,但是車身重量 (weight) 的分布卻非常分散贞奋。


又比如上半年大家經(jīng)常看的地理熱力圖 —— 結(jié)合地圖和顏色后穷绵,以簡(jiǎn)單清晰的方式把數(shù)據(jù)分布展現(xiàn)出來:

來源:北京大學(xué)可視化與可視化分析實(shí)驗(yàn)室


「分布」類可視化轿塔,是解決數(shù)據(jù)分析問題的良好開端。

屠夫并不指望這類可視化能獲得最終答案仲墨,但卻是邁向最終答案的第一步勾缭。

一份數(shù)據(jù)集到手,無論分析的目標(biāo)是什么目养,先看看分布俩由,準(zhǔn)沒錯(cuò)。



03? Relationship · 關(guān)系


第二大類是R · Relationship癌蚁,關(guān)系幻梯。

「關(guān)系」類的可視化方案,側(cè)重展示的是數(shù)據(jù)的相關(guān)性和關(guān)聯(lián)關(guān)系努释。

從廣義上說碘梢,任何一類可視化都可以通過添加“系列”實(shí)現(xiàn)展示數(shù)據(jù)的關(guān)系 (如果有的話)。

比如上面的例子伐蒂,將多類數(shù)據(jù)的箱線圖放在一起痘系,可以展示「分布」方面的「關(guān)系」;

又比如饿自,將多類數(shù)據(jù)的餅圖放在一起汰翠,可以展示「構(gòu)成」方面的「關(guān)系」龄坪;

再比如,將多類數(shù)據(jù)的折線圖放在一起复唤,可以展示「趨勢(shì)」方面的「關(guān)系」健田。


在實(shí)際應(yīng)用中,屠夫還是習(xí)慣將“「關(guān)系」類可視化方案”定義縮小一點(diǎn)佛纫,歸納為“基于坐標(biāo)系”和“基于圖”兩種妓局。

基于坐標(biāo)系的「關(guān)系」類可視化方案,包括散點(diǎn)圖呈宇、氣泡圖好爬、六邊形分箱圖、熱力圖和平行坐標(biāo)系等甥啄。

六邊形分箱圖和平行坐標(biāo)系的使用比較少存炮,熱力圖在上一節(jié)已經(jīng)提過,這里介紹一下氣泡圖蜈漓。


氣泡圖可以理解為散點(diǎn)圖的加強(qiáng)版 —— 將點(diǎn)換成圓穆桂,以圓的面積 (注意,不是半徑) 多展現(xiàn)一個(gè)維度的信息融虽。

下面是一個(gè)氣泡圖的例子享完,作者加上了趨勢(shì)線來表達(dá)氣泡數(shù)據(jù)的相關(guān)性:

來源:instagram.com


基于圖的「關(guān)系」類可視化方案,包括力導(dǎo)向圖和弦圖有额。

力導(dǎo)向圖的名字比較拗口般又,如果屠夫說“關(guān)系鏈”,許多人應(yīng)該會(huì)“哦”地一下恍然大悟巍佑。

力導(dǎo)向圖用節(jié)點(diǎn)代表對(duì)象茴迁,用連線代表對(duì)象之間的關(guān)系。

比如下圖表達(dá)了抽象派藝術(shù)家們的社交關(guān)系句狼,不難看出關(guān)系網(wǎng)中最有影響力的關(guān)鍵節(jié)點(diǎn)是畢加索:

來源:moma.org


弦圖則顯得更優(yōu)雅一些 —— 將圓的每一段表示一個(gè)對(duì)象 (相當(dāng)于力導(dǎo)向圖中的節(jié)點(diǎn))笋熬,再用貝塞爾曲線表示對(duì)象之間的關(guān)系 (相當(dāng)于力導(dǎo)向圖中的直線)热某。

下面的例子是以弦圖展現(xiàn)海外一些期刊之間的引用關(guān)系腻菇,屠夫選擇觀察《Science》的引用/被引用關(guān)系:

來源:well-formed.eigenfactor.org



04? Comparison · 比較


第三大類是C · Comparison,比較昔馋。

「比較」類的可視化方案筹吐,重點(diǎn)在于不同數(shù)據(jù)之間的對(duì)比、突出差異點(diǎn)秘遏,和「關(guān)系」類的可視化方案正好是不同的出發(fā)角度丘薛。

這類可視化方案一定繞不開的典型代表,是柱狀圖邦危。


屠夫在考察候選人的可視化功底時(shí)洋侨,必問的一道題是:

請(qǐng)解釋柱狀圖和直方圖的區(qū)別舍扰?


我說的當(dāng)然不是名稱上的區(qū)別 (Bar Chart V.S. Histogram) ——

從應(yīng)用角度,直方圖常用于「分布」希坚,而柱狀圖常用于「比較」

從數(shù)據(jù)角度边苹,直方圖適用于連續(xù)型變量,而柱狀圖更適合離散型變量

從制圖角度裁僧,直方圖的直方無間隔个束,而柱狀圖的柱形有間隔

來源:圖之典


柱狀圖的應(yīng)用很廣泛,看起來似乎很枯燥聊疲。

其實(shí)只要做簡(jiǎn)單變化茬底,柱狀圖的視覺效果也可以很驚艷,比如下面這張將柱狀圖和極坐標(biāo)系結(jié)合的圖表:

來源:behance.net


適合「比較」的圖表還有很多获洲,包括上面提到過的熱力圖阱表、氣泡圖等等,這里屠夫還想再舉的一例是“雷達(dá)圖”昌妹。

雷達(dá)圖在許多游戲中出現(xiàn)捶枢,常表示人物的多維度屬性或者能力值。既可以對(duì)比同一人物的不同維度飞崖,也可以對(duì)比不同人物的同一維度烂叔,看起來簡(jiǎn)潔而直觀。

下圖是基于2013年NBA全明星球員繪制的雷達(dá)圖:

來源:fastcompany.net



05? Composition · 構(gòu)成


第四大類是C · Composition固歪,構(gòu)成蒜鸡。

「構(gòu)成」類的可視化方案,重在展現(xiàn)整體里的構(gòu)成比例牢裳,最簡(jiǎn)單的「構(gòu)成」例子非餅圖莫屬逢防。

或許有同學(xué)會(huì)問,餅圖也展現(xiàn)了不同部分的大小比例蒲讯,是不是也可以和柱狀圖一樣忘朝,作為「比較」類的可視化方案呢?

理論上可以判帮,但屠夫不建議這么做局嘁。


人眼對(duì)于面積和角度的感知遠(yuǎn)低于長(zhǎng)度,而餅圖恰恰是運(yùn)用面積和角度進(jìn)行可視化表達(dá)晦墙,在「比較」方面不夠顯著悦昵。

舉個(gè)例子,下面3種情形屬于“比較對(duì)象的數(shù)值接近”晌畅,我們從上面餅圖里獲得的對(duì)比效果但指,遠(yuǎn)不及下面的柱狀圖

—— 雖然上下兩張圖,是基于相同數(shù)據(jù)繪制的。

來源:圖之典


實(shí)際分析里我們也會(huì)遇上“帶層級(jí)結(jié)構(gòu)的數(shù)據(jù)”棋凳,這時(shí)我們需要餅圖的加強(qiáng)版 —— 旭日?qǐng)D拦坠。

旭日?qǐng)D又叫“多層餅圖”,以同心圓的多層來表示層級(jí)關(guān)系剩岳,內(nèi)層是外層的“父”贪婉,本質(zhì)上也是一種樹狀結(jié)構(gòu)。

比如下面這張圖展示了不同咖啡風(fēng)味的層級(jí)關(guān)系:

來源:jasondavies.com


較真的同學(xué)會(huì)發(fā)現(xiàn)卢肃,餅圖運(yùn)用了圓的“圓心角”疲迂,旭日?qǐng)D以此為基礎(chǔ)套上“同心圓”,卻沒有發(fā)揮“半徑”莫湘。

如果把圓的半徑也用于數(shù)據(jù)表達(dá)尤蒿,就會(huì)形成“南丁格爾玫瑰圖”。

顧名思義幅垮,這是由著名的醫(yī)療改革家南丁格爾護(hù)士發(fā)明的一種圖表腰池,用扇形的半徑來表達(dá)數(shù)據(jù)。

下面的例子是Facebook在2016年的用戶畫像忙芒,每一塊扇形表示一種數(shù)據(jù)維度示弓,而人口統(tǒng)計(jì)學(xué)屬性 (性別、收入呵萨、年齡奏属、學(xué)歷) 還使用了層疊:

來源:excelhowto.com



06? Trend · 趨勢(shì)


第五大類是T · Trend,趨勢(shì)潮峦。

「趨勢(shì)」類的可視化方案囱皿,重在描述數(shù)據(jù)隨某一維度變化而變化的情況。

“某一維度”往往是「時(shí)間」忱嘹,這樣的圖表就是我們經(jīng)常見到的折線圖了:

來源:澎湃新聞


注意了嘱腥,屠夫只是說“往往是「時(shí)間」”,總會(huì)有例外拘悦。

如果“某一維度”是「流程節(jié)點(diǎn)」,那么可以用纱∶祝基圖來表達(dá):

來源:經(jīng)濟(jì)學(xué)人


上圖是經(jīng)濟(jì)學(xué)人對(duì)“難民流向”問題的可視化分苇,其中藍(lán)色表示難民來源國(guó)家,黃色表示遷移目的地吻商,綠色表示成功入境乌叶,紅色表示拒絕入境准浴。

衫趾幔基圖在互聯(lián)網(wǎng)行業(yè)常用于用戶路徑分析葡公,每一個(gè)節(jié)點(diǎn)可以表示一個(gè)功能頁(yè)面,而節(jié)點(diǎn)間的條狀帶表示有多少用戶沿著這個(gè)方向跳轉(zhuǎn)或流動(dòng) —— 這也是一種“趨勢(shì)”旋圆。


把砂基圖順時(shí)針旋轉(zhuǎn)90度,再挑選其中一種路徑進(jìn)行展示步清,就成了另一種圖表 —— 漏斗圖要门。

依然是來自經(jīng)濟(jì)學(xué)人的可視化案例虏肾,這次是有關(guān)職場(chǎng)性別歧視 (薪資差距) 的分析,對(duì)比同類型工作中男女薪資差異欢搜。

漏斗從上至下分別是:

所有工作

同級(jí)別的工作

同級(jí)別且同公司的工作

同級(jí)別封豪、同公司且同部門的工作

來源:經(jīng)濟(jì)學(xué)人



07 可視化方案5大類的總結(jié)


無論是在分析過程中輔助推理,還是在分析結(jié)果上輔助表達(dá)炒瘟,選取合適的可視化方案十分重要吹埠。

讓我們重新回顧一下5大類可視化方案及其作用吧~

Distribution · 分布:展現(xiàn)數(shù)據(jù)的分布情況,是洞察的基礎(chǔ)

Relationship · 關(guān)系:表達(dá)數(shù)據(jù)之間的關(guān)系疮装,突出的是關(guān)聯(lián)

Comparison · 比較:對(duì)比數(shù)據(jù)的不同表現(xiàn)缘琅,重點(diǎn)的是差異

Composition · 構(gòu)成:呈現(xiàn)數(shù)據(jù)內(nèi)部的成分,關(guān)注的是比例

Trend · 趨勢(shì):考慮數(shù)據(jù)隨時(shí)間廓推、流程等維度變化的情況

在第二節(jié)課的最后胯杭,屠夫整理了一些常見圖表的可視化功能,大家不妨保存下來隨手查詢哦~


最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末受啥,一起剝皮案震驚了整個(gè)濱河市做个,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌滚局,老刑警劉巖居暖,帶你破解...
    沈念sama閱讀 217,277評(píng)論 6 503
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異藤肢,居然都是意外死亡太闺,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,689評(píng)論 3 393
  • 文/潘曉璐 我一進(jìn)店門嘁圈,熙熙樓的掌柜王于貴愁眉苦臉地迎上來省骂,“玉大人,你說我怎么就攤上這事最住〕模” “怎么了?”我有些...
    開封第一講書人閱讀 163,624評(píng)論 0 353
  • 文/不壞的土叔 我叫張陵涨缚,是天一觀的道長(zhǎng)鳄梅。 經(jīng)常有香客問我彬犯,道長(zhǎng)厉膀,這世上最難降的妖魔是什么杭跪? 我笑而不...
    開封第一講書人閱讀 58,356評(píng)論 1 293
  • 正文 為了忘掉前任,我火速辦了婚禮茂翔,結(jié)果婚禮上混蔼,老公的妹妹穿的比我還像新娘。我一直安慰自己珊燎,他們只是感情好惭嚣,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,402評(píng)論 6 392
  • 文/花漫 我一把揭開白布遵湖。 她就那樣靜靜地躺著,像睡著了一般料按。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上卓箫,一...
    開封第一講書人閱讀 51,292評(píng)論 1 301
  • 那天载矿,我揣著相機(jī)與錄音,去河邊找鬼烹卒。 笑死闷盔,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的旅急。 我是一名探鬼主播逢勾,決...
    沈念sama閱讀 40,135評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼藐吮!你這毒婦竟也來了溺拱?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 38,992評(píng)論 0 275
  • 序言:老撾萬榮一對(duì)情侶失蹤谣辞,失蹤者是張志新(化名)和其女友劉穎迫摔,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體泥从,經(jīng)...
    沈念sama閱讀 45,429評(píng)論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡句占,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,636評(píng)論 3 334
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了躯嫉。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片纱烘。...
    茶點(diǎn)故事閱讀 39,785評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖祈餐,靈堂內(nèi)的尸體忽然破棺而出擂啥,到底是詐尸還是另有隱情,我是刑警寧澤帆阳,帶...
    沈念sama閱讀 35,492評(píng)論 5 345
  • 正文 年R本政府宣布啤它,位于F島的核電站,受9級(jí)特大地震影響舱痘,放射性物質(zhì)發(fā)生泄漏变骡。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,092評(píng)論 3 328
  • 文/蒙蒙 一芭逝、第九天 我趴在偏房一處隱蔽的房頂上張望塌碌。 院中可真熱鬧,春花似錦旬盯、人聲如沸台妆。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,723評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)接剩。三九已至切厘,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間懊缺,已是汗流浹背疫稿。 一陣腳步聲響...
    開封第一講書人閱讀 32,858評(píng)論 1 269
  • 我被黑心中介騙來泰國(guó)打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留鹃两,地道東北人遗座。 一個(gè)月前我還...
    沈念sama閱讀 47,891評(píng)論 2 370
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像俊扳,于是被迫代替她去往敵國(guó)和親途蒋。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,713評(píng)論 2 354