什么是數(shù)據(jù)可視化充包?
“一千個讀者就有一千個哈姆雷特∫4唬”這句話也同樣適用于數(shù)據(jù)分析,不同的人對于數(shù)據(jù)也會有著不同的理解冠场。數(shù)據(jù)可視化可以幫助我們以更簡單的方式去分析數(shù)據(jù)和找到數(shù)據(jù)背后隱藏的信息家浇。數(shù)據(jù)可視化涵蓋的知識點非常多碴裙,我嘗試結(jié)合使用哈伯曼的癌癥生存數(shù)據(jù)点额,來看看數(shù)據(jù)可視化是如何幫助我們在一堆雜亂無章的數(shù)據(jù)中找到隱藏的信息的,讓我們開始吧莺琳!
為什么要做數(shù)據(jù)可視化?
數(shù)據(jù)可視化是一種可以通過數(shù)據(jù)創(chuàng)建故事的方式惭等。當數(shù)據(jù)很復(fù)雜并且需要了解微觀細節(jié)至關(guān)重要時珍手,最好的方法是通過視覺效果來分析數(shù)據(jù)辞做。
?
視覺效果可用于兩個目的:
1琳要、探索性數(shù)據(jù)分析:數(shù)據(jù)分析師秤茅、統(tǒng)計學(xué)家和數(shù)據(jù)科學(xué)家使用它來更好地理解數(shù)據(jù)。正如其名框喳,它用于探索數(shù)據(jù)中隱藏的信息和趨勢孔厉。
2帖努、解釋性數(shù)據(jù)分析:一旦數(shù)據(jù)分析師理解了數(shù)據(jù)并找到了他們的結(jié)果撰豺,傳達他們想法的最佳方式就是通過視覺效果拼余。數(shù)據(jù)可視化就像是創(chuàng)作一個故事,以達到吸引觀眾閱讀的目的匙监。
?
哈伯曼生存數(shù)據(jù)的探索性分析
該數(shù)據(jù)集包含 1958 年至 1970 年在芝加哥大學(xué)比林斯醫(yī)院進行的一項研究案例凡橱,該研究主要針對接受過乳腺癌手術(shù)的患者的生存情況亭姥。
?
屬性包括:
手術(shù)時患者年齡(數(shù)字)
患者的手術(shù)年份(年份 – 1900,數(shù)字)
檢測到的陽性腋窩淋巴結(jié)數(shù)量(數(shù)字)
生存狀態(tài)(類別屬性)
1 = 患者存活 5 年或更長時間
2 = 患者在 5 年內(nèi)死亡
?
讓我們首先從使用統(tǒng)計來理解數(shù)據(jù)開始:
?
我們看到有 306 行和 4 列达罗。進一步查看屬性后坝撑,我們了解了數(shù)據(jù)的分布方式。為了進一步了解每個類的示例數(shù)量巡李,讓我們看看不同的圖。
?
直方圖
這里可以看到兩種狀態(tài)下的患者都是在30到 80年在兩個年齡段之間重疊,而40-60歲這個年齡段的比例都是最高的扶认,60-80歲年齡段的人生存和死亡的機會相等,80歲以上的人無法存活的可能性更高辐宾。但是狱从,僅憑年齡無法判斷一個人是否會存活。
?
箱形圖
箱線圖可以告訴我們兩種生存狀態(tài)下季研,患者的淋巴結(jié)數(shù)量的最大值鸽疾、最小值训貌、中位數(shù)、四分位數(shù)分布以及異常值分布情況递沪。
?
散點圖
我們從零散的點看,無論在哪一年综液,有0個淋巴結(jié)的患者都是幸存者。這是否意味著只要是0個淋巴結(jié)的患者都能確保生存谬莹?
?
小提琴圖
小提琴圖用來顯示數(shù)據(jù)分布和概率密度檩奠,中間的黑色粗條表示四分位數(shù)范圍附帽,從其延伸的幼細黑線代表 95% 置信區(qū)間埠戳,而白點則為中位數(shù)蕉扮,從上述圖形中可以看出兩種生存狀態(tài)下的幸存者的淋巴結(jié)數(shù)量分布是不一樣的。
?
根據(jù)上述的案例喳钟,我們從視覺效果中學(xué)到很多東西屁使,為了方便大家更好地學(xué)習(xí)數(shù)據(jù)可視化奔则,我整理了一些必備的數(shù)據(jù)可視化工具來幫助您入門蛮寂。
?
數(shù)據(jù)可視化工具
Tableau:可視化功能非常強大易茬,主要應(yīng)用在商業(yè)圖表上。
Power BI:微軟自家的可視化工具抽莱,功能強悍除嘹,可用于做多維分析、數(shù)據(jù)清洗尉咕、數(shù)據(jù)可視化等工作。
Excel:這個不用多說了璃岳,職場必備的數(shù)據(jù)分析與可視化工具年缎。
Smartbi智分析:這是國產(chǎn)數(shù)據(jù)分析工具里用的非常廣泛的工具,在線上就可以直接使用单芜,無需安裝客戶端蜕该。圖形化界面也非常豐富洲鸠,包含了地圖可視化、詞云圖扒腕、删畹恚基圖等個性化的圖形,可視化功能非常強大皆的。
?
數(shù)據(jù)可視化方法論
配色方案:雖然顏色可以為圖表增添美感,但通常最好使用顏色來突出重要的細節(jié)蹋盆,而不僅僅是為了吸引人,太多的顏色會破壞著色的目的栖雾,而使用單一顏色或一種顏色則會閱讀者楞抡。此外,在設(shè)計視覺效果時還要考慮視障人士拌倍,直觀地使用顏色。例如:對于情感分析噪径,我們可以使用綠色表示積極情緒柱恤,紅色表示消極情緒找爱,黑白灰表示中性情緒。
?
圖形使用:不一樣的圖形可以表達出不同的含義车摄,例如餅狀圖表示占比寺谤,線圖表示趨勢,柱圖可表示對比变屁,使用圖形時要根據(jù)圖形的特性去適當運用。
?
使用注釋:在需要的地方使用標簽進行注釋意狠,可以讓圖表里的信息更加全面粟关,但切記不要造成圖表混亂环戈。
?
使用交互式圖表:如果數(shù)據(jù)量比較大澎灸,變量非常多,可以使用交互式報表進行動態(tài)展示遮晚,例如BI圖表性昭。
?
刪除不重要的信息:從圖表中刪除可能分散觀眾注意力的不必要的信息县遣,不要在單個視覺對象中將多個視圖組合到難以理解的程度。
?
制作一個完整的故事:把數(shù)據(jù)可視化的過程當成是故事的創(chuàng)作過程萧求,讓讀者可以沉浸集中并能領(lǐng)會到作者的意圖其兴。