什么是可視化
我們知道淮蜈,計(jì)算的目的是從數(shù)據(jù)中獲得洞察力斋攀。可視化技術(shù)是一種將數(shù)據(jù)轉(zhuǎn)換成幾何圖形表示的技術(shù)礁芦,它能夠直觀地展現(xiàn)數(shù)據(jù)蜻韭,提供自然的人機(jī)交互的能力。
簡而言之柿扣,可視化是一種數(shù)據(jù)的可視表現(xiàn)形式以及交互技術(shù)的總稱。它通過圖形化的方式把數(shù)據(jù)表現(xiàn)出來闺魏,方便用戶進(jìn)行觀察和理解未状,并幫助用戶對數(shù)據(jù)進(jìn)行探索(Exploration)、發(fā)現(xiàn)(Discover)數(shù)據(jù)里隱藏的模式析桥,獲得對大量數(shù)據(jù)的理解和洞察力(Insight)
可視化的強(qiáng)大威力
常話說:一幅圖勝過千言萬語
司草,即某些事物用文字來表達(dá)相當(dāng)煩瑣,很不真觀泡仗,但是用圖形來表現(xiàn)埋虹,則非常容易把握和理解。
以地圖導(dǎo)航為例娩怎,從杭州的武林廣場到西湖音樂噴泉之間的路搔课,文字和地理信息分別如下圖:
在地圖上我們可以一目了然地看到線路的全貌。通過對關(guān)鍵的換乘點(diǎn)進(jìn)行點(diǎn)擊截亦,就可以獲得時(shí)一步的線程信息爬泥。這個(gè)實(shí)例生成地展示了可視化的直觀性。
在大數(shù)據(jù)時(shí)代崩瓤,數(shù)據(jù)來源多樣袍啡,數(shù)據(jù)的規(guī)模巨大,可視化技術(shù)可以幫助我們對數(shù)據(jù)進(jìn)行觀察却桶,理解境输、探索和發(fā)現(xiàn)。
可視化的一般過程
可視化的一般過程以下圖1-3所示:
科學(xué)可視化與信息可視化
目前,可視化領(lǐng)域包括三個(gè)主要分支嗅剖,分別是科學(xué)可視化(Scientific Visualization)
辩越、信息可視化(Information Visualization)
以及可視分析(Visual Analytics)
。
可視化領(lǐng)域的頂級(jí)學(xué)術(shù)會(huì)議是IEEE VIS
窗悯,它包含三個(gè)分會(huì)区匣,正好分別對應(yīng)數(shù)據(jù)可視化的三個(gè)分支。
在數(shù)據(jù)可視化領(lǐng)域蒋院,科學(xué)可視化是其中最成熟的一個(gè)研究分支亏钩,它主要面向自然科學(xué)實(shí)驗(yàn)、探測活動(dòng)(如天文觀測)欺旧、計(jì)算機(jī)模擬所產(chǎn)生的數(shù)據(jù)進(jìn)行建模姑丑、操作和處理〈怯眩科學(xué)可視化是針對特定領(lǐng)域的栅哀,比如:天文觀測、地震研究称龙、醫(yī)學(xué)研究留拾、核物理研究、石油勘探等鲫尊,其數(shù)據(jù)類型較為單一痴柔,數(shù)據(jù)中一般帶有物理和幾何結(jié)構(gòu)數(shù)據(jù),可視化的任務(wù)一般是固定的疫向。
科學(xué)可視化和信息可視化在目標(biāo)任務(wù)咳蔚、應(yīng)用領(lǐng)域、數(shù)據(jù)類型搔驼、主要方法谈火、面向的用戶等方面的主要區(qū)別如下表:
對比項(xiàng) | 科學(xué)可視化 | 信息可視化 |
---|---|---|
目標(biāo)任務(wù) | 研究科學(xué)問題,深入理解自然界中的現(xiàn)象 | 探索舌涨、發(fā)現(xiàn)信息之間的關(guān)系 糯耍,發(fā)現(xiàn)隱藏的模式 |
應(yīng)用領(lǐng)域 | 氣象、高能物理泼菌、天文學(xué)谍肤、生物學(xué)、醫(yī)學(xué)哗伯、地質(zhì)學(xué).... | 傳感器網(wǎng)絡(luò)荒揣、電子商務(wù)、金融焊刹、社交網(wǎng)絡(luò)系任、新聞恳蹲、博客、反恐.... |
數(shù)據(jù)來源和類型 | 1. 來自科學(xué)實(shí)驗(yàn)俩滥、觀測嘉蕾、仿真; 2. 結(jié)構(gòu)化數(shù)據(jù)霜旧,具有物理错忱、幾何特性 | 1. 來自各個(gè)領(lǐng)域; 2. 結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)挂据,一般不具有物理以清、幾何屬性 |
主要方法與要求 | 1. 預(yù)處理、映射崎逃、渲染掷倔、交互; 2. 準(zhǔn)確反映數(shù)據(jù)中的物理幾何關(guān)系 | 數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)个绍、映射勒葱、渲染、交互以及可視分析巴柿;把抽象復(fù)雜的信息及其關(guān)系映射為有效的可視化表示凛虽,尋找合適的可視化形式; |
面向的用戶 | 面向科學(xué)家 | 面向非技術(shù)人員广恢、普通用戶涩维、管理人員 |
數(shù)據(jù)可視化的原則
可視化的目的是把復(fù)雜數(shù)據(jù)有效地展出來,首要的原則是準(zhǔn)確(Precision)
和清晰(Clarity)
袁波。
準(zhǔn)確是指可視化結(jié)果反映的是數(shù)據(jù)的本來面目或者本質(zhì)(Substance);
清晰是指可視化結(jié)果所表達(dá)的含義要明確。
- 我們希望在更小的空間里(Less Space)蜗侈,用最少的圖形(Less Ink)篷牌,在最短的時(shí)間里(Less Time),傳達(dá)給用戶最多的信息(More Ideas)踏幻。對可視化效果進(jìn)行合理簡化枷颊,突出重點(diǎn)。
- 可視化的結(jié)果该面,需要闡明事物之間的相互關(guān)系夭苗,以及事物的變化趨勢,對于類似的事物要方便用戶進(jìn)行比較隔缀。需要結(jié)合時(shí)間题造、空間因素進(jìn)行設(shè)計(jì),包括使用箭頭猾瘸、創(chuàng)造流動(dòng)感等界赔。
- 使用用戶熟悉的事物丢习,對需要比較的數(shù)據(jù)進(jìn)行比較。
- 構(gòu)建實(shí)物場景淮悼,生成展現(xiàn)數(shù)據(jù)咐低。
- 在可視化設(shè)計(jì)過程中,要考慮把交互方式和動(dòng)畫效果加進(jìn)去袜腥。
可視化的實(shí)例
-
散點(diǎn)圖與直方圖
散點(diǎn)圖(Scatter Plot
)是對點(diǎn)數(shù)據(jù)(Point Data见擦,即向量)的集中趨勢、分布形狀羹令、離散趨勢進(jìn)行把握的基本的可視化形式鲤屡。
集中趨勢
是指數(shù)據(jù)向中心點(diǎn)靠攏的趨勢。
分布形態(tài)
包括數(shù)據(jù)的分布是對稱的還是非對稱的特恬,平緩的還是比較陡峭的等执俩。
離散趨勢
指的是數(shù)據(jù)離開中心點(diǎn)的趨勢。
直言圖
癌刽,也稱為頻率直方圖(Frequency Histogram)役首,它是統(tǒng)計(jì)學(xué)中用于表示頻率分布的圖形。在直角坐標(biāo)系中显拜,橫坐標(biāo)表示隨機(jī)變量的取值衡奥,橫軸一般劃分成一系列的小區(qū)間,每個(gè)區(qū)間對應(yīng)一個(gè)分組远荠,作為小矩形的底邊矮固。縱坐標(biāo)表示頻率譬淳,每個(gè)分組的小矩形的高度表示隨機(jī)變量取值落入該區(qū)間的頻率档址。一系列的小矩形構(gòu)成頻率直方圖。
-
線圖
線圖是通過畫直線或者樣條曲線邻梆,把若干數(shù)據(jù)點(diǎn)連接起來守伸。線圖分單線圖(Line Graph)和多線圖(Multiple Line Graph)。
-
柱狀圖與餅圖
柱狀圖和餅圖一般用來顯示一個(gè)數(shù)據(jù)系列里各個(gè)數(shù)值之間的相對大小關(guān)系浦妄。柱狀圖的各個(gè)柱子的高度是比例關(guān)系以及餅圖的各個(gè)扇面的大小的比例關(guān)系尼摹,反映了數(shù)據(jù)系列中各個(gè)數(shù)值之間的大小關(guān)系。
-
解剖圖剂娄、切片蠢涝、等值面
人體和動(dòng)物的解剖圖可以是手繪的,也可以是利用3維建模技術(shù)重建的阅懦。
CT(Computed Tomography)設(shè)備和MRI(Magnetic Resonance Imaging)設(shè)備可以對人體進(jìn)行斷層掃描和二,獲得高分辨率的人體切片圖像。
表現(xiàn)層次關(guān)系:樹故黑、圓錐樹儿咱、Tree Map庭砍、信息立方體
- 樹(Tree)- 樹型結(jié)構(gòu)是可視化中應(yīng)用最廣泛的一種圖結(jié)構(gòu),它一般用來表現(xiàn)某種層級(jí)關(guān)系混埠,如某個(gè)組織的各個(gè)部分怠缸、某個(gè)家庭的族譜等。
-
圓錐樹(Cone Tree)- 圓錐樹用于對層次結(jié)構(gòu)進(jìn)行可視化展現(xiàn)钳宪。在圓錐樹中層次結(jié)構(gòu)通過3維方式進(jìn)行展現(xiàn)揭北,以利用最大化使用屏幕空間,以及展現(xiàn)整個(gè)層次結(jié)構(gòu)吏颖。每個(gè)節(jié)點(diǎn)表示為圓錐的頂點(diǎn)搔体,它的子節(jié)點(diǎn)在該圓錐的底面周圍繪制出來。如下圖:
- Tree Map - 最初是由馬里蘭大學(xué)的Ben Shneiderman教授于20世紀(jì)90年代提出的半醉,最初的目的是找到一種有效了解磁盤空間使用情況的方法疚俱。Ben教授首先想到的是用樹狀結(jié)構(gòu)來表示,但是這樣圖形占用太大的空間缩多。接著他利用面積來表示文件大小呆奕,但是用矩形、三角形還是圓形都有一定的問題衬吆。最后梁钾,他想到了將屏幕交替切分為水平和垂直方向的矩形,用遞歸來實(shí)現(xiàn)層級(jí)關(guān)系逊抡。
-
信息立方體(Info Cube)
信息立方體是一種多維的數(shù)據(jù)結(jié)構(gòu)姆泻,用于從不同維度對數(shù)據(jù)進(jìn)行匯總和觀察。
-
地圖(Map)和地球(Earth)
在地圖上進(jìn)行可視化,可以展示事物的發(fā)展過程所涉及的不同地理位置孝凌。
-
堆疊的河流(Stacked River)
Jeff Clark創(chuàng)建了Twitter Stream Graph可視化效果潜秋。他通過堆疊的河流,顯示Twitter數(shù)據(jù)流里流行的關(guān)鍵字(Top Trending Keywords)隨時(shí)間變化的情況胎许。