我剛接觸數(shù)據(jù)可視化是在 4 年前,那時候一位大學老師 S 昂勉,叫我們使用 R 對數(shù)據(jù)進行統(tǒng)計分析(對敲街,哥也學過一陣統(tǒng)計呢),其中有部分知識點是用 R 繪制箱線圖绞旅、散點圖之類的可視化結(jié)果质况。
從此對數(shù)據(jù)可視化產(chǎn)生了濃厚的興趣,現(xiàn)在系統(tǒng)地來學習一下數(shù)據(jù)可視化玻靡。
今天分享一些關(guān)于數(shù)據(jù)可視化的基本流程结榄。前面的文章看這里:
做任何事情都有章可循,數(shù)據(jù)可視化也是一樣囤捻,而且可視化的基本步驟臼朗、流程和體系都是通用的, 不同的數(shù)據(jù)都可以按照下面的模型將數(shù)據(jù)可視化。
這里給出的步驟不是教大家怎么畫出一幅「信、達视哑、雅」的可視化結(jié)果圖绣否,而是傳遞一種思想,也就是可視化方法論挡毅。
可視化基本流程
可視化不是一個算法蒜撮,而是一個流程,有點像流水線跪呈,但這些流水線之間是可以相互作用的段磨、雙向的。
我們可以簡單地將可視化流程分成三個部分:前端耗绿、處理苹支、后端,這和軟件的開發(fā)流程不是一個概念误阻。
文字看起來不太直觀债蜜,直接上圖:
圖中涉及到幾個主要的部分:
- 數(shù)據(jù)采集。數(shù)據(jù)的采集直接決定了數(shù)據(jù)的格式究反、維度寻定、尺寸、分辨率精耐、精確度等重要性質(zhì)狼速,在很大程度上決定了可視化結(jié)果的質(zhì)量。
- 數(shù)據(jù)變換黍氮。這個過程包括去除數(shù)據(jù)噪聲、數(shù)據(jù)清洗浅浮、提取特征沫浆。
- 可視化映射」鲋龋可視化映射是整個可視化流程的核心专执,它將數(shù)據(jù)的數(shù)值、空間位置郁油、不同位置數(shù)據(jù)間的聯(lián)系等本股,映射到不同的視覺通道,關(guān)于視覺通道部分可以看這篇文章——數(shù)據(jù)可視化的基本原理——視覺通道桐腌。
- 用戶感知拄显。數(shù)據(jù)可視化和其他數(shù)據(jù)分析處理辦法的最大不同是用戶。用戶借助數(shù)據(jù)可視化結(jié)果感受數(shù)據(jù)的不同案站,從中提取信息躬审、知識和靈感。
上面的可視化流程雖然簡單,但也要注意兩點:
- 上述過程都是基于數(shù)據(jù)背后的自然現(xiàn)象或者社會現(xiàn)象承边,而不是數(shù)據(jù)本身遭殉。
- 各個模塊的聯(lián)系并不是按照我畫的順序來聯(lián)系的,他們之間的聯(lián)系更多是非線性的博助,任意兩個模塊之間都可能存在聯(lián)系险污。
其他可視化流程
科學可視化流程
<figcaption style="margin-top: calc(0.666667em); padding: 0px 1em; font-size: 0.9em; line-height: 1.5; text-align: center; color: rgb(153, 153, 153);">Haber, R. B. and McNabb, D. A. Visualization idioms A conceptual model for scientific visualization systems, 1990</figcaption>
這個模型跟上面的簡化流程類似,按照數(shù)據(jù)收集富岳、處理蛔糯、映射等步驟來組織可視化,步驟更明確一些城瞎。
信息可視化流程
<figcaption style="margin-top: calc(0.666667em); padding: 0px 1em; font-size: 0.9em; line-height: 1.5; text-align: center; color: rgb(153, 153, 153);">Card S K, Mackinlay J D, Shneiderman B. Readings in information visualization using vision to think[M] Readings in information visualization Morgan Kaufmann Publishers, 1999 647-650.</figcaption>
這個模型由 Card 等人提出渤闷,把流水線式的可視化流程升級為回路,用戶可以操作任何一個階段〔倍疲現(xiàn)在大多數(shù)可視化流程都是仿照這個來的飒箭,大多數(shù)系統(tǒng)在實現(xiàn)上可能會有些差異。
人機交互可視化模型
<figcaption style="margin-top: calc(0.666667em); padding: 0px 1em; font-size: 0.9em; line-height: 1.5; text-align: center; color: rgb(153, 153, 153);">Keim D, Zhang L. Solving problems with visual analyticschallenges and applications[C] European Conference on Machine Learning &amp;amp;amp; Knowledge Discovery in Databases. Elsevier B.V. 20111-4.</figcaption>
可視分析通過人機交互自動處理和可視化分析方法緊密結(jié)合在一起蜒灰。下面這個圖表示最新的可視化分析模型:
從數(shù)據(jù)到知識有兩個途徑:
- 對數(shù)據(jù)進行交互可視化弦蹂,以幫助用戶感知數(shù)據(jù)中蘊含的規(guī)律
- 按照給定的先驗,進行數(shù)據(jù)挖掘强窖,從數(shù)據(jù)中直接提煉出數(shù)據(jù)模型凸椿。
在這兩個途經(jīng),用戶可以對模型可視化翅溺,也可以從可視化結(jié)果中構(gòu)建模型脑漫。
在許多應用的場合,可視化分析操作的對象是多源異構(gòu)數(shù)據(jù)咙崎。這些數(shù)據(jù)中优幸,很多噪聲、非結(jié)構(gòu)化數(shù)據(jù)褪猛、異常數(shù)據(jù)网杆,可視化界面幫助分析人員在自動分析時,直觀地看到參數(shù)的修改或者算法的選擇伊滋,增強了模型評估的效率碳却。
此外,允許用戶自主組合自動分析和交互可視分析的方法是可視分析學流程的基本特征笑旺。在這個過程中昼浦,我們可以通過可視化及時發(fā)現(xiàn)中間步驟的錯誤,或者自相矛盾的錯誤筒主,提高了可信度座柱。
綜上迷帜,數(shù)據(jù)可視化發(fā)展到現(xiàn)在,人機結(jié)合是多個時代的疊加產(chǎn)物色洞。一方面戏锹,機器智能在某些方面可以做到人類數(shù)億年都完不成的工作;另一方面火诸,人類的經(jīng)過幾億年的進化锦针,有些“只可意會,不可言傳”的技能置蜀,即推理分析能力奈搜。
參考文獻:
[1] 陳為 沈則潛 陶煜波. 數(shù)據(jù)可視化[M]. 電子工業(yè)出版社, 2013.浙江大學-陳為、巫英才數(shù)據(jù)可視化課程
[2] Haber, R. B. and McNabb, D. A. Visualization idioms: A conceptual model for scientific visualization systems, 1990.
[3] Card S K, Mackinlay J D, Shneiderman B. Readings in information visualization: using vision to think[M]// Readings in information visualization. Morgan Kaufmann Publishers, 1999:647-650.
歡迎大家關(guān)注微信公眾號:可視化技術(shù)( visteacher )
不僅有前端和可視化馋吗,還有算法、源碼分析秋秤、書籍相送
個人網(wǎng)站:http://blog.kurryluo.com
各個分享平臺的 KurryLuo 都是在下宏粤。
用心學習,認真生活灼卢,努力工作绍哎!