一圖勝千言:數(shù)據(jù)可視化不完全總結(jié)(二)

一圖勝千言:數(shù)據(jù)可視化不完全總結(jié)(一)繼續(xù)我們的討論。

4.3.3.3 用于查找相關性
4.3.3.3.1 散點圖

也稱為“點圖”源武、“散布圖”或“X-Y 點圖”副瀑。所謂的散點圖 (Scatterplot) 就是在笛卡爾座標上放置一系列的數(shù)據(jù)點民傻,用來顯示兩個變量的數(shù)值(每個軸上顯示一個變量)胰默,并檢測兩個變量之間的關系或相關性是否存在场斑。我們可以通過研究散點圖上所顯示的模式漓踢,了解數(shù)據(jù)之間的各種相關性,如正比(數(shù)值一起增加)漏隐、反比(其中一個數(shù)值隨著另一數(shù)值的增加而減行搿)、零(無相關)青责、線性挺据、指數(shù)級和 U 形。我們也可以通過查看圖上數(shù)據(jù)點的密度來確定相關性的強度脖隶。遠超出一般聚集區(qū)域的數(shù)據(jù)點稱為“異常值”扁耐。圖表中可加入直線或曲線(盡可能靠近所有數(shù)據(jù)點)來輔助分析,并顯示當所有數(shù)據(jù)點凝聚成單行時的模樣产阱,通常稱為“最佳擬合線”或“趨勢線”婉称,用來進行估計(通過插值)。如您有一對數(shù)值數(shù)據(jù)构蹬,可使用散點圖來查看其中一個變量是否在影響著另一個變量王暗。可是請記住庄敛,相關性并非因果關系俗壹,也有可能存在另一個變量在影響著結(jié)果。

scatter_ex.png
4.3.3.3.2 氣泡圖

氣泡圖是一種包含多個變量的圖表藻烤,結(jié)合了散布圖和比例面積圖绷雏。跟散布圖一樣,氣泡圖使用笛卡爾雙軸座標來繪制數(shù)值點怖亭,其中 X 軸和 Y 軸代表不同變量之众,但與散布圖不同的是,每一點都會獲分配一個標簽或類別(在旁邊或圖例中顯示)依许。每個數(shù)值點再以其圓形面積表示第三個變量棺禾。此外,也可以用顏色來區(qū)分不同類別或表示別的數(shù)據(jù)變量峭跳。至于時間方面膘婶,可以把它設為其中一條軸的變量缺前,或者把數(shù)據(jù)變量隨時間的變化制成動畫來顯示。通過利用定位和比例悬襟,氣泡圖通常用來比較通常用來比較和顯示已標記/已分類圈圓之間的關系衅码。氣泡圖可用于分析模式/相關性〖乖溃可是逝段,過多氣泡會使圖表難以閱讀,因此氣泡圖的數(shù)據(jù)容量有限割捅。我們可以在圖表中加入交互性功能來解決這個問題(點擊或把鼠標懸停在氣泡上以顯示隱藏信息)奶躯,也可選擇重組或篩選分組類別。跟比例面積圖一樣亿驾,圓圈大小需要按照圓的面積來繪制嘹黔,而非其半徑或直徑。也就是說莫瞬,圓圈的大小會呈指數(shù)級變化儡蔓,而且也會導致人類視覺系統(tǒng)出現(xiàn)誤解。

qipao_ex.png
4.3.3.3.3 不等寬柱狀圖

也稱為“馬賽克圖”疼邀。不等寬柱狀圖 (Marimekko Chart) 顯示分類數(shù)據(jù)中一對變量之間的關系喂江,原理類似雙向的 100% 堆疊式條形圖,但其中所有條形在數(shù)值/標尺軸上具有相等長度旁振,并會被劃分成段获询。只有在不等寬柱狀圖中,兩軸才會同時成為具有刻度的變量规求,這決定了每個分段的寬度和高度筐付。我們可以通過這兩個變量來檢測類別與其子類別之間的關系。不等寬柱狀圖的主要缺點在于難以閱讀阻肿,特別是當含有大量分段的時候瓦戚。此外,我們也很難準確地對每個分段進行比較丛塌,因為它們并非沿著共同基線排列在一起较解。因此,不等寬柱狀圖較為適合提供數(shù)據(jù)概覽赴邻。

budengkuan_ex.png
4.3.3.4 層次結(jié)構關系
4.3.3.4.1 圓堆積

也稱為“圓形樹結(jié)構圖”印衔。圓堆積 (Circle Packing) 是樹形結(jié)構圖的變體,使用圓形(而非矩形)一層又一層地代表整個層次結(jié)構:樹木的每個分支由一個圓圈表示姥敛,而其子分支則以圓圈內(nèi)的圓圈來表示奸焙。每個圓形的面積也可用來表示額外任意數(shù)值,如數(shù)量或文件大小。我們也可用顏色將數(shù)據(jù)進行分類与帆,或通過不同色調(diào)表示另一個變量了赌。雖然圓堆積看起來漂亮,但不及樹形結(jié)構圖般節(jié)省空間(因為圓圈內(nèi)會有很多空白處)玄糟,可是它實際上比樹形結(jié)構圖更能有效顯示層次結(jié)構勿她。

yuanduiji_ex.png
4.3.3.4.2 旭日圖

也稱為“多層餅形圖”或“徑向樹圖”。這種圖表通過一系列的圓環(huán)顯示層次結(jié)構阵翎,再按不同類別節(jié)點進行切割逢并。每個圓環(huán)代表層次結(jié)構中的一個級別,中心圓表示根節(jié)點郭卫,層次結(jié)構從這點往外推移砍聊。之后圓環(huán)會按照其與原屬切片的層次關系再被分割,分割角度可以是均等平分箱沦,或者與某個數(shù)值成比例辩恼。我們也可以用不同顏色突出顯示層次分組或特定類別雇庙。

xuritu_ex.png
4.3.3.4.3 樹形圖

也稱為“組織圖”或“鏈路圖”谓形。樹形圖 (Tree Diagram) 是通過樹狀結(jié)構表示層次結(jié)構的一種方式,其結(jié)構通常由沒有上級/父級成員的元素開始(根節(jié)點)疆前,然后加入節(jié)點寒跳,再用線連在一起,稱為分支竹椒,表示成員之間的關系和連接童太。最后是枝葉節(jié)點(或稱為末端節(jié)點),是沒有子節(jié)點的成員胸完。

樹形圖通常用于:

  • 表示家庭關系和血統(tǒng)
  • 分類學(分類的實踐和科學
  • 進化科學(展示物種起源)
  • 計算機科學與數(shù)學
  • 企業(yè)和組織的管理工具
shuxing_ex.png
4.3.3.4.4 樹形結(jié)構圖

樹狀結(jié)構圖 (Treemap) 是一種利用嵌套式矩形顯示層次結(jié)構的方法书释,同時通過面積大小顯示每個類別的數(shù)量。每個類別會獲分配一個矩形區(qū)域赊窥,而其子類別則由嵌套在其中的小矩形代表爆惧。當不同數(shù)量被分配到各個類別時,這些矩形的面積大小會與此數(shù)量成正比顯示:小矩形與小矩形之間(部分對部分)及小矩形與大矩形之間(部分對整體)的面積比例锨能。此外扯再,主類別的面積大小是其所有子類別的總和。如果沒有數(shù)量分配給子類別址遇,那么其面積則是主類別的總面積平均除以子類別的數(shù)目熄阻。矩形被劃分成子矩形的方式取決于所使用的平鋪算法。在眾多平鋪算法中倔约,最常用的是將每個矩形盡可能保持為正方形的「方格算法」秃殉。Ben Shneiderman 最初開發(fā)樹狀結(jié)構圖用來在計算機上顯示大量文件目錄,而不會占用太多屏幕空間,因此樹狀結(jié)構圖是一種緊湊而且節(jié)省空間的層次結(jié)構顯示方式钾军,可讓人快速了解結(jié)構脖卖。我們也可以通過比較大小來比較類別之間的比例。

shuxingjiegou_ex.png

4.3.4 概念

4.3.4.1 腦力激蕩圖

腦力激蕩圖(也稱為“心智圖”)將相關想法巧颈、單詞畦木、圖像和概念聯(lián)合在一起。通常用來產(chǎn)生想法砸泛、查找關聯(lián)十籍、分類想法、組織信息唇礁、顯示結(jié)構和一般學習的有效工具勾栗。腦力激蕩圖經(jīng)常在項目初期使用,并作筆記用途盏筐。它們也可以用于協(xié)同工作和建設團隊士氣围俘。腦力激蕩圖的結(jié)構如下:從中間位置的主類別開始下筆,其他較小的類別從主類別延伸開來成為子類別琢融,這些子類別也可以各自延伸出自己的相關子類別界牡。

繪制腦力激蕩圖的簡單指引:

  1. 從頁面中間開始,寫下項目主題/標題漾抬,再用任何形狀圈起來(通常是圓圈或云狀)宿亡。
  2. 想想與主題相關或任何有用/相關的單詞或類別。
  3. 然后從中心標題(往任何方向)開始畫線代表每個類別纳令,并在每條線的末端寫下類別名稱挽荠。
  4. 現(xiàn)在想想每個類別有什么相關單詞,并如上一步般添加子類別平绩。
  5. 如有需要圈匆,可重復第 4 步加入新的子類別或相關字詞。
naoli_ex.png
4.3.4.2 流程圖

也稱為“流程地圖”捏雌、“流程模型”或“工作流程圖”跃赚。流程圖 (Flow Chart) 用于顯示流程中的順序步驟,這種圖表使用一系列相互連接的符號繪制出整個過程腹忽,使得過程易于理解来累,并有助于與其他人溝通。流程圖可用于解釋復雜和/或抽象的過程窘奏、系統(tǒng)嘹锁、概念或算法的運作模式。繪制流程圖還可以幫助規(guī)劃和發(fā)展流程着裹,或改進現(xiàn)有的流程圖领猾。不同符號代表不同意思,每種都具有各自的特定形狀。每個步驟的標簽會寫在符號形狀內(nèi)摔竿;流程圖以弧形矩形表示流程的開始和結(jié)束面粮;線段或箭頭用于顯示從一個步驟到另一個步驟的方向或流程;簡單的指令或動作用矩形來表示继低,而當需要作出決定時熬苍,則使用鉆石形狀。除此之外袁翁,流程圖中還可以使用許多其他符號柴底。流程圖可以是水平或垂直。

liucheng_ex.png
4.3.4.3 說明圖

說明圖旨在使用筆記粱胜、標簽和圖例來解釋說明所顯示的圖像柄驻,以便:

  • 解釋概念或方法
  • 描述物件或場所
  • 顯示事情的運作、移動或變化
  • 幫助了解所顯示的主題

所使用的圖像可以是插圖焙压、粗略草圖鸿脓、線框或照片;圖像可以是象征性涯曲、圖像化或真實相片野哭。有時會把圖像放大或使用其橫截面,以更深入分析或顯示更多細節(jié)掀抹。

shoming_ex.png

4.3.5 地理空間

4.3.5.1 氣泡地圖

在這種數(shù)據(jù)地圖中虐拓,指定地理區(qū)域上方會顯示圓形圖案心俗,圓形面積與其在數(shù)據(jù)集中的數(shù)值會成正比傲武。氣泡地圖適合用來比較不同地理區(qū)域之間的比例,而不會受區(qū)域面積的影響(如地區(qū)分布圖城榛【纠可是,氣泡地圖的主要缺點在于:過大的氣泡可能會與地圖上其他氣泡或區(qū)域出現(xiàn)重迭狠持。

qipaomap_ex.png
4.3.5.2 地區(qū)分布圖

地區(qū)分布圖通常用來顯示不同地理分區(qū)或區(qū)域(不同顏色或圖案)與數(shù)據(jù)變量之間的關系疟位,并把所顯示位置的數(shù)值變化或模式進行可視化處理。我們在地圖上每個區(qū)域以不同深淺度的顏色表示數(shù)據(jù)變量喘垂,例如從一種顏色漸變成另一種顏色甜刻、單色調(diào)漸進、從透明到不透明正勒、從光到暗得院,甚至動用整個色譜。使用顏色的其中一個缺點是無法準確讀取或比較地圖中的數(shù)值章贞。此外祥绞,較大的地區(qū)會比較小區(qū)域更加顯眼,影響讀者對陰影數(shù)值的感知。繪制地區(qū)分布圖時的常見錯誤:對原始數(shù)據(jù)值(例如人口)進行運算蜕径,而不是使用歸一化值(例:計算每平方公里的人口)两踏。

diqufenbu_ex.png
4.3.5.3 連接地圖

連接地圖 (Connection Map) 即是用直線或曲線連接地圖上不同地點的一種圖表。雖然連接地圖非常適合用來顯示地理連接和關系兜喻,但我們也可使用單一連接鏈路來顯示地圖路線梦染。此外,通過研究連接地圖上的連接分布或集中程度朴皆,我們也可以用它來顯示空間格局弓坞。

lianjieditu_ex.png
4.3.5.4 點示地圖

也稱為“點示分布圖”或“點示密度圖”。點示地圖 (Dot Map) 在地理區(qū)域上放置相等大小的圓點车荔,旨在檢測該地域上的空間布局或數(shù)據(jù)分布渡冻。共有兩種點示地圖:一對一(每點代表單一計數(shù)或一件物件)和一對多(每點表示一個特定單位,例如 1 點 = 10棵樹)忧便。點示地圖非常適合用來查看物件在某地域內(nèi)的分布狀況和模式族吻,而且容易掌握,能提供數(shù)據(jù)概覽珠增,可是在檢索精確數(shù)值方面表現(xiàn)則不太理想超歌。

dianshiditu_ex.png
4.3.5.5 流向地圖

流向地圖 (Flow Map) 在地圖上顯示信息或物體從一個位置到另一個位置的移動及其數(shù)量,通常用來顯示人物蒂教、動物和產(chǎn)品的遷移數(shù)據(jù)巍举。單一流向線所代表的移動規(guī)模或數(shù)量由其粗幼度表示凝垛,有助顯示遷移活動的地理分布懊悯。流向地圖的繪制方法:從原點出發(fā),再往外繪制「流向線」梦皮。箭頭可用于表示方向炭分,或者移動是進入還是外出。不用箭頭則可以用來代表貿(mào)易往來剑肯。建議將流向線合并/捆綁在一起并避免彼此交迭捧毛,有助減少地圖上的視覺混亂。

liuxiangditu_ex.png

4.3.6 分布

4.3.6.1 顯示頻率及數(shù)據(jù)在某時間段內(nèi)的分布或分組狀況
4.3.6.1.1 箱形圖

箱形圖(又稱為“盒須圖”或“箱線圖”)能方便顯示數(shù)字數(shù)據(jù)組的四分位數(shù)让网。從盒子兩端延伸出來的線條稱為「晶須」(whiskers)呀忧,用來表示上、下四分位數(shù)以外的變量溃睹。異常值 (Outliers) 有時會以與晶須處于同一水平的單一數(shù)據(jù)點表示而账。這種箱形圖可以垂直或水平的形式出現(xiàn)。箱形圖通常用于描述性統(tǒng)計丸凭,是以圖形方式快速查看一個或多個數(shù)據(jù)集的好方法福扬。雖然與直方圖或密度圖相比似乎有點原始腕铸,但它們占用較少空間,當要比較很多組或數(shù)據(jù)集之間的分布時便相當有用铛碑。

下面是可以從箱形圖得出的觀察結(jié)果:

  • 關鍵數(shù)值狠裹,例如平均值、中位數(shù)和上下四分位數(shù)等汽烦。
  • 任何異常值(以及它們的數(shù)值)涛菠。
  • 數(shù)據(jù)分布是否對稱。
  • 數(shù)據(jù)分組有多緊密撇吞。
  • 數(shù)據(jù)分布是否出現(xiàn)偏斜(如果是俗冻,往什么方向偏斜)。

最常用的兩種箱形圖:可變寬度和帶凹槽的箱形圖牍颈。

xiangxin_ex.png
4.3.6.1.2 密度圖

又稱為“密度曲線圖”迄薄。密度圖 (Density Plot) 用于顯示數(shù)據(jù)在連續(xù)時間段內(nèi)的分布狀況。這種圖表是直方圖的變種煮岁,使用平滑曲線來繪制數(shù)值水平讥蔽,從而得出更平滑的分布。密度圖的峰值顯示數(shù)值在該時間段內(nèi)最為高度集中的位置画机。密度圖其中一個比直方圖優(yōu)勝的地方冶伞,是由于它們不受所使用分組數(shù)量(典型直方圖中所使用的條形)的影響,所以能更好地界定分布形狀 步氏。舉個例子响禽,僅用 4 個條形的直方圖所產(chǎn)生的分布形狀,總不及使用 20 個條形的直方圖般容易解讀荚醒。然而芋类,密度圖則不會有這種問題。

midu_ex.png
4.3.6.1.3 直方圖

直方圖適合用來顯示在連續(xù)間隔或特定時間段內(nèi)的數(shù)據(jù)分布腌且,當中每個條形表示每個間隔/時間段中的頻率梗肝。直方圖的總面積也相等于數(shù)據(jù)總量。直方圖有助于估計數(shù)值集中位置童谒、上下限值以及確定是否存在差距或異常值挖腰;也可粗略顯示概率分布。

zhifang_ex.png
4.3.6.1.4 小提琴圖

小提琴圖 (Violin Plot) 用于顯示數(shù)據(jù)分布及其概率密度。這種圖表結(jié)合了箱形圖和密度圖的特征上渴,主要用來顯示數(shù)據(jù)的分布形狀。中間的黑色粗條表示四分位數(shù)范圍嘱吗,從其延伸的幼細黑線代表 95% 置信區(qū)間勺像,而白點則為中位數(shù)。箱形圖在數(shù)據(jù)顯示方面受到限制凫乖,簡單的設計往往隱藏了有關數(shù)據(jù)分布的重要細節(jié)确垫。例如使用箱形圖時弓颈,我們不能了解數(shù)據(jù)分布是雙模還是多模。雖然小提琴圖可以顯示更多詳情删掀,但它們也可能包含較多干擾信息翔冀。

xiaotiqin_ex.png
4.3.6.2 按人口年齡和性別顯示分布
4.3.6.2.1 人口金字塔

也稱為“年齡性別金字塔”。人口金字塔 (Population Pyramid) 是彼此背靠背的一對直方圖(每邊代表一個性別)披泪,顯示所有年齡組和男女人口的分布情況纤子。X 軸表示人口數(shù)量,Y 軸列出年齡組別款票。人口金字塔最適合用來檢測人口模式的變化或差異控硼。多個人口金字塔放在一起更可用于比較各國或不同群體之間的人口模式。人口金字塔的形狀可以用來理解人口結(jié)構艾少。舉個例子卡乾,底部較寬、頂部狹窄的金字塔表示該群體具有很高的生育率和死亡率缚够;相反頂部較寬说订、底部狹窄的金字塔代表出現(xiàn)人口老齡化,而且生育率低潮瓶。除此之外陶冷,人口金字塔也可用來推測人口的未來發(fā)展。如果人口出現(xiàn)老齡化毯辅,而且生育率低埂伦,最終會導致沒有足夠后代照顧老人的社會問題。其他理論包括「青年膨脹」思恐,即社會存在大量 16-30 歲的青年(特別是男性)沾谜,容易導致社會動蕩、戰(zhàn)爭和恐怖主義胀莹。因此基跑,人口金字塔對生態(tài)學、社會學和經(jīng)濟學等領域都相當有用描焰。

renkou.png

4.3.7 時間維度

4.3.7.1 某時間段內(nèi)的數(shù)據(jù)趨勢或變化
4.3.7.1.1 甘特圖

甘特圖 (Gantt Chart) 通常用作項目管理的組織工具媳否,顯示活動(或任務)列表和持續(xù)時間,也顯示每項活動何時開始和結(jié)束荆秦。甘特圖適合用來規(guī)劃和估計整個項目的所需時間篱竭,也可顯示相互重迭的活動。我們采用表格來繪制甘特圖:水平行代表活動步绸,垂直列則是時間刻度掺逼。每項活動的持續(xù)時間由沿著時間刻度繪制的條形長度來表示。條形的開始位置代表著活動的開始瓤介;而條形的結(jié)束位置則是活動結(jié)束之時吕喘。我們可使用不同顏色的條形來將活動分類赘那。要顯示活動完成的百分比,我們可以把條形部分填滿氯质、使用不同深淺度或使用不同顏色募舟,來區(qū)分已完成的內(nèi)容和剩下要完成的內(nèi)容。相連的箭頭可用來顯示哪些任務相互依賴病梢,而關鍵路徑(完成項目必需的關鍵活動)也可以通過特別箭頭表示胃珍。我們也可在甘特圖內(nèi)使用符號來表示各個里程碑,而垂直穿越圖表的線段則是當前日期標記蜓陌。

gante_ex.png
4.3.7.1.2 折線圖

折線圖用于在連續(xù)間隔或時間跨度上顯示定量數(shù)值觅彰,最常用來顯示趨勢和關系(與其他折線組合起來)。此外钮热,折線圖也能給出某時間段內(nèi)的“整體概覽”填抬,看看數(shù)據(jù)在這段時間內(nèi)的發(fā)展情況。要繪制折線圖隧期,先在笛卡爾座標上定出數(shù)據(jù)點飒责,然后用直線把這些點連接起來。通常 Y 軸用于定量數(shù)值仆潮,而 X 軸則是分類或順序刻度宏蛉。負值可以顯示在 X 軸下方。

zhexian_ex.png
4.3.7.1.3 螺旋圖

也稱為“時間系列螺旋圖”性置。這種圖表沿阿基米德螺旋線 (Archimedean spiral) 畫上基于時間的數(shù)據(jù)拾并。圖表從螺旋形的中心點開始往外發(fā)展。螺旋圖十分多變鹏浅,可使用條形嗅义、線條或數(shù)據(jù)點,沿著螺旋路徑顯示隐砸。螺旋圖很適合用來顯示大型數(shù)據(jù)集之碗,通常顯示長時間段內(nèi)的數(shù)據(jù)趨勢,因此能有效顯示周期性的模式季希。我們可以將顏色分配給每個時間段以進行區(qū)分褪那,并允許每個時期之間進行一些比較。舉個例子胖眷,如果我們要顯示一年中的數(shù)據(jù)武通,可以在圖表上為每個月分配不同顏色。

luoxuan_ex.png
4.3.7.1.4 量化波形圖

這種圖表是堆疊式面積圖的一種變體珊搀,但其數(shù)值并非沿著固定直線軸來繪制,而是圍繞著不斷變化的中心基線尾菇。通過使用流動的有機形狀境析,量化波形圖 (Stream Graph) 可顯示不同類別的數(shù)據(jù)隨著時間的變化囚枪,這些有機形狀有點像河流,因此量化波形圖看起來相當美觀劳淆。在量化波形圖中链沼,每個波浪的形狀大小都與每個類別中的數(shù)值成比例。與波形圖平行流動的軸用作時間刻度沛鸵。我們也可以用不同顏色區(qū)分每個類別括勺,或者通過改變色彩來顯示每個類別的附加定量值。量化波形圖很適合用來顯示大容量的數(shù)據(jù)集曲掰,以便查找各種不同類別隨著時間推移的趨勢和模式疾捍。舉個例子,波浪形狀中的季節(jié)性峰值和谷值可以代表周期性模式栏妖。波形圖也可以用來顯示大量資產(chǎn)在一段時間內(nèi)的波動率乱豆。量化波形圖的缺點在于它們存在可讀性的問題,當顯示大型數(shù)據(jù)集時吊趾,這類圖就特別顯得混亂宛裕。具有較小數(shù)值的類別經(jīng)常會被「淹沒」,以讓出空間來顯示具有更大數(shù)值的類別论泛,使我們不能看到所有數(shù)據(jù)揩尸。此外,我們也不可能讀取到波形圖中所顯示的精確數(shù)值屁奏,因為它們都是由代碼生成的岩榆。因此,波形圖還是比較適合不想花太多時間深入解讀圖表和探索數(shù)據(jù)的人了袁,它適合用來顯示一般表面的數(shù)據(jù)趨勢朗恳。此外,當他們以互動形式展示時载绿,比靜態(tài)或印刷出來更有效率粥诫。

lianghuaboxing_ex.png
4.3.7.1.5 面積圖

面積圖 (Area Graph) 是折線圖的一種,但線下面的區(qū)域會由顏色或紋理填滿崭庸。要繪制面積圖怀浆,首先在笛卡兒雙軸座標上標記各個數(shù)據(jù)點,再用線把它們連起來怕享,最后把線下方的空間填滿执赡。跟折線圖一樣,面積圖可顯示某時間段內(nèi)量化數(shù)值的變化和發(fā)展函筋,最常用來顯示趨勢沙合,而非表示具體數(shù)值。其中兩種較常用的面積圖:分組式和堆疊式面積圖跌帐。分組式面積圖在相同的零軸開始首懈,而堆疊式面積圖則從先前數(shù)據(jù)系列的最后數(shù)據(jù)點開始绊率。

mianji_ex.png
4.3.7.1.6 堆疊式面積圖

堆疊式面積圖 (Stacked Area Graph) 的原理與簡單面積圖相同,但它能同時顯示多個數(shù)據(jù)系列究履,每一個系列的開始點是先前數(shù)據(jù)系列的結(jié)束點滤否。整個圖表代表所有數(shù)據(jù)的總和。堆疊式面積圖使用區(qū)域面積來表示整數(shù)最仑,因此不適用于負值藐俺。總的來說泥彤,它們適合用來比較同一間隔內(nèi)多個變量的變化欲芹。

duidianmianji_ex.png
3.7.2 顯示某時間段內(nèi)事件的發(fā)生順序
3.7.2.1 日歷

在人類歷史上,我們曾經(jīng)開發(fā)出各種日歷系統(tǒng)作為組織工具全景,幫助我們提前做好計劃耀石。我們也把日歷當作可視化工具,適用于顯示不同時間段爸黄,以及活動事件的組織情況滞伟。時間段通常以不同單位顯示,例如日炕贵、周梆奈、月和年。任何日期就是這個系統(tǒng)中所指定的單一日子称开。今天我們最常用的日歷形式是公歷亩钟,每個月份的月歷由七個垂直列組成(代表每周七天),另有約五至六行以水平方式代表星期鳖轰∏逅郑可是,日歷格式并沒有嚴格規(guī)定蕴侣,所以市面上有各式各樣不同的設計焰轻,只要能以時間順序顯示日期或時間單位便可。

rili_ex.png
3.7.2.2 時間線

時間線 (Timeline) 是以時間順序顯示一系列事件的圖象化方式昆雀。某些時間線甚至按時間長度比例繪制辱志,而其他的則只按順序顯示事件。時間線的主要功能是傳達時間相關信息狞膘,用于分析或呈現(xiàn)歷史故事揩懒。如果是按比例繪制的時間線,我們可以通過查看不同事件之間的時間間隔挽封,了解事件發(fā)生的時間或即將在何時發(fā)生已球,從中查找時間段內(nèi)的事件是否遵循任何模式,或者事件在該時間段內(nèi)如何分布。有時時間線會與圖表相互結(jié)合和悦,顯示定量數(shù)據(jù)隨時間的變化退疫。

shijianxian_ex.png
3.7.2.3 時間表

時間表 (Timetable) 可用作預定事件渠缕、任務和行動的引用和管理工具鸽素。使用表格按時間順序和/或字母順序組織數(shù)據(jù),能有助用戶快速進行引用亦鳞。時間表通常用來顯示列車和其他交通工具的到達和離開時間馍忽。

time_table.png

4.4 圖表元素

了解了大部分的圖表類型,下面我們來深入研究一下燕差,一個圖表包含的元素:標尺遭笋,坐標系,背景信息和視覺編碼徒探。

4.4.1 標尺

標尺一般出現(xiàn)在圖表的坐標軸上瓦呼,有四類:線性,分類测暗,百分比和對數(shù)央串。線性標尺最常見,上面刻度的間距處處相等碗啄。分類標尺主要用在分類數(shù)據(jù)上质和,有序分類要對分類標尺做排序,常見的例子有:年齡段稚字,性別和學歷等饲宿。百分比標尺是線性標尺的特殊情況,刻度值為百分比胆描,比如上面提到的堆疊式條形圖中就出現(xiàn)過這種標尺瘫想。對數(shù)標尺按照對數(shù)化將坐標軸壓縮,適合數(shù)值跨度非常大的場景昌讲,或者需要將分布轉(zhuǎn)為正態(tài)分布的場景国夜。

4.4.2 坐標系

從上面對各種圖表的介紹就知道,圖表中最常見的坐標系就是直角坐標系了剧蚣,其距離的衡量為歐氏距離支竹。而像餅圖,徑向柱圖等鸠按,使用的就是極坐標系礼搁,距離的衡量為弧度。地理坐標系常出現(xiàn)在各種地理信息圖表中目尖,距離的衡量是經(jīng)緯度馒吴。

4.4.3 背景信息

圖表中往往還包含有背景信息,比如圖例,各種主/副標題饮戳,坐標軸標簽以及標記的度量單位豪治。

4.4.4 視覺編碼

上面我們說,數(shù)據(jù)可視化就是將數(shù)據(jù)空間映射到圖形空間扯罐。這種映射的關鍵负拟,就是將數(shù)據(jù)的信息用視覺編碼進行表示,七種最常見的視覺編碼有:

  1. 位置:趨勢規(guī)律和分布規(guī)律歹河,典型例子:散點圖
  2. 長度:人眼對于長度的感受往往是最準確的掩浙,典型例子:條形圖
  3. 弧度:弧度越大,值越大秸歧,典型例子:餅圖
  4. 方向:坐標系中一個向量的方向
  5. 面積/體積:面積/體積大則絕對值大
  6. 形狀:代表不同的類別
  7. 色彩與飽和度:不同的顏色通常用來表示分類數(shù)據(jù)厨姚,飽和度越深代表數(shù)值越大

這些視覺編碼到底哪個更有效?已經(jīng)有學者對其進行過研究键菱,上面這個排序就是按有效性從高到低排列的谬墙,放心使用吧。

4.5 設計技巧

有一種數(shù)據(jù)可視化的設計技巧叫做pre-attentive processing经备,即前意識處理拭抬。簡單的說就是我們要用醒目的顏色突出數(shù)據(jù),然后淡化其他的元素弄喘,并高亮顯示重點的內(nèi)容玖喘。一種增強數(shù)據(jù)比較的方法是提升色階的跨度,即根據(jù)要展示的數(shù)據(jù)合理增大標尺跨度蘑志,添加添加參考線(建議采用虛線)累奈,參考線作為對比基準,可有效增強數(shù)值與基準的比較急但。這樣的一些可視化增強的設計技巧既減少了讀者理解的步驟澎媒,又合理注解引導,提供了背景信息波桩,分析結(jié)論戒努,又補充了必要的統(tǒng)計學概念,比如圖表的解釋镐躲,這方面做的比較好的一個案例是Tableau制作的西班牙首都馬德里可視化面板储玫,面板中為不熟悉的讀者給出了人口金字塔圖表的解釋。

另一種系統(tǒng)地衡量可視化圖表效果的公式叫做數(shù)據(jù)墨水比公式(data-ink ratio)萤皂,定義為用于描述數(shù)據(jù)的墨水量/用于描述所有其他東西的墨水量撒穷。這個比值越高,說明圖表中越多的視覺編碼被用于傳遞真正的信息裆熙,而不是出現(xiàn)冗余端礼,或者用于描述一些其他的東西禽笑。舉個例子,下面這個展示食物熱量的圖表就是一個典型案例蛤奥。隨隨便便就能找出圖表中的各種問題:毫無意義的紋理背景佳镜,加粗顯示的文字和坐標軸,五顏六色的柱狀圖凡桥,各種立體陰影效果蟀伸,重復呈現(xiàn)的信息……很容易讓人產(chǎn)生視覺疲勞。

bad.png

按照少即是多的原則唬血,對于這樣的圖表我們要進行一步一步的優(yōu)化望蜡,清理各種圖表垃圾:去掉了各種紋理背景,去掉了各種坐標軸拷恨,直接將數(shù)值顯示在柱狀圖上,然后對文字進行淡化谢肾,并用顏色突出顯示我們想要讀者一眼就看到的類別(培根)腕侄,去掉了一切立體和陰影的效果,最后得到了下面這個圖表:

good.png

對比來看芦疏,下面這個圖表的數(shù)據(jù)墨水比是不是比上面要高很多冕杠?整個圖表傳達的信息也要清晰很多,讀者幾乎花不了什么時間就能看懂要表達的意思酸茴,真正做到了圖簡意賅分预!另一種常見的公式為失真系數(shù)(lie factor),是用圖表中展示的效果大小/數(shù)據(jù)中展示的效果大小得到的薪捍,一般在0.95到1.05之間最佳笼痹。

五. 敘事結(jié)構

一個好的數(shù)據(jù)可視化,不光要把每一個圖表繪制好酪穿,還要把所有的圖表以一種適當?shù)姆绞酱饋淼矢桑o觀眾講一個故事。也就是說被济,好的數(shù)據(jù)可視化一定是一個優(yōu)秀的Story Teller救赐。這種串聯(lián)圖表的方式叫做“敘事結(jié)構”,有三種常見的數(shù)據(jù)可視化敘事結(jié)構:作者驅(qū)動型只磷,讀者驅(qū)動型和馬提尼酒杯型经磅。

5.1 作者驅(qū)動型

作者驅(qū)動型的敘事結(jié)構有明確的開頭和結(jié)尾,它以一種線性的方式來講故事钮追,讀者沒有多少自由選擇的余地预厌,它的特點是順序嚴謹,信息量大畏陕,具有一定的清晰度和速度配乓。閱讀數(shù)據(jù)可視化的方式和順序已經(jīng)被作者預先設定好了,讀者只能按照這一預先設定來進行。一般來說犹芹,這類數(shù)據(jù)可視化通過一個播放按鈕或者按順序組織的頁碼標簽崎页,讀者點擊播放或者按順序一頁一頁的顯示,就能按照作者預設的線性化的思路完成對整個數(shù)據(jù)可視化的解讀腰埂。比如關于Facebook IPO這個可視化圖表就是典型的作者驅(qū)動型飒焦。通過點擊上面的按鈕,讀者可以像放幻燈片一樣以嚴格的順序閱讀關于Facebook首次公開募股有關信息屿笼,每個階段都能看到數(shù)據(jù)的延伸和轉(zhuǎn)換牺荠。

5.2 讀者驅(qū)動型

反過來,如果數(shù)據(jù)可視化有明確的開頭驴一,但給予讀者很大的自由去探索數(shù)據(jù)休雌,與數(shù)據(jù)自由互動,提出問題肝断,探索故事進展并有機會講述自己的發(fā)現(xiàn)杈曲。那么這種數(shù)據(jù)可視化就是讀者驅(qū)動型的。Marid In DetailLinkedIn Top Skills 2016就屬于這種類型的可視化:沒有任何預先的設定胸懈,讀者通過自己點擊面板上的可視化元素完成解讀担扑,每個人解讀的方式不一樣,得到的結(jié)論也就豐富多彩趣钱,各有千秋涌献。

5.3 馬提尼酒杯型

最后,我們可以把作者驅(qū)動型和讀者驅(qū)動型結(jié)合起來首有,構造更復雜的敘事結(jié)構燕垃,稱為馬提尼酒杯型敘事結(jié)構,這種敘事結(jié)構跟上面兩種一樣绞灼,有一個明確的開頭利术。但首先讀者要沿著作者預設的單一路徑進行閱讀,隨后當這一過程結(jié)束時低矮,讀者會開始他們自己的自由探索印叁,就像下面這個圖展示的一樣:

martiniglass-structure.jpg

馬提尼酒杯型敘事結(jié)構的一個典型可視化例子是槍擊死亡人數(shù),整個數(shù)據(jù)可視化背景是黑色的军掂,切合主題給人一種很壓抑的感覺轮蜕。它首先通過動畫的形式給出了1萬多名受害者,并預測了如果沒有遭遇槍擊蝗锥,他們可能生存的年數(shù)跃洛。它使用計數(shù)器計數(shù)了總的人數(shù),和他們被偷走的年歲终议,這是可視化之初一個明確的敘事(作者驅(qū)動型)汇竭,如下圖所示:

us_gun1.png

然后讀者就可以自由的進行探索了葱蝗,比如將鼠標移到其中一根拋物線上,然后查看某個受害者的信息:

us_gun2.png

或者查看實際年齡和預測年齡的分布细燎,很明顯看到的是一個嚴重兩極分化的分布:

us_gun3.png

六. 什么是好的可視化

邁阿密大學教授Alberto Cairo提出两曼,一個好的數(shù)據(jù)信息的表達應該遵循以下5個原則:真實的有用的玻驻,優(yōu)美的悼凑,有見地的,和有啟發(fā)性的璧瞬。

6.1 真實的(Truthful)

第一條原則户辫,你不能欺騙你自己,你是最容易被騙的人嗤锉。 ——美國物理學家理查德費曼

我們常常容易犯兩個錯誤渔欢。一旦有了一個觀點或假設,就會竭盡全力的去尋找能支持這個觀點的證據(jù)档冬,卻選擇性的忽視否定這個觀點的證據(jù)膘茎,又或者當反對觀點出現(xiàn)的時候,我們總會本能的先開始反駁酷誓,而不是先考慮其合理性。為了觀點而做的可視化是有偏見的态坦,帶著觀點去解讀可視化同樣也是有偏見的盐数。除非我們能找到一些數(shù)據(jù)來佐證我們的觀點,否則就不能說“我覺得有就是有”伞梯,比如如果問你運動員簽了大合同后是否會影響其競技水平玫氢?當然不能說我覺得有不少球員簽了大合同后就廢了,然后再找一些例子來佐證這個觀點谜诫。而應該是首先明確多大金額的算是大合同漾峡,然后把所有簽了這些合同的球員列出來。選擇多個綜合指標去比較這些球員在簽訂合同前后的幾年間的表現(xiàn)喻旷。而且還要排除傷病影響的生逸,是否中間更換過球隊,出場時間差別是否過大等等且预。

6.2 有用的(Functional)

比如問一個問題:這個周末商場促銷的效果如何槽袄?如果只是得出結(jié)論促銷過程中銷售額增長了60%,單看是正確的锋谐,但是是不是有用呢遍尺?其實沒用,而且還有誤導的嫌疑涮拗。要做到有用乾戏,是不是應該包含銷售額增長來自哪部分商品迂苛?是僅僅來自促銷商品?還是也帶動了其他商品的銷售鼓择? 周末促銷是不是應該考慮平時的銷售額也是增長的三幻,實際的增長是不是可能沒有60%那么高?在停止促銷后的幾周里惯退,是不是比促銷前的幾周也做到了持續(xù)增長赌髓?深入分析并回答了這些問題,我們才應該算是正確回答了“促銷是不是達到了效果?”這個問題催跪,這才算是有用的锁蠕。

6.3 優(yōu)美的(Beautiful)

數(shù)據(jù)可視化要簡潔明了,關鍵是要把不包含信息的元素去掉懊蒸,把信息冗余的部分合并掉荣倾,用比較優(yōu)雅的方式表現(xiàn)。數(shù)據(jù)墨水比越高的可視化圖表越優(yōu)美骑丸。

6.4 有見地的(Insightful)

信息圖是為了給人閱讀的舌仍,要表達出觀點,而不只是給人看看就結(jié)束了通危。不光要表達出來铸豁,而且最好是有意義. 而不是讓人一看,哇好酷炫菊碟!卻得不出任何有意義的結(jié)論节芥。當然在重點要表達的地方可以用文字,或者其他特別的方式標注出來逆害,方便聽眾或讀者迅速的提取信息头镊。

6.5 有啟發(fā)性的(Enlightening)

做好了前面的4點,我們的數(shù)據(jù)可視化就是有啟發(fā)性的魄幕。通過數(shù)據(jù)可視化相艇,讀者了解了數(shù)據(jù)背后發(fā)生的原因,以及對未來可能產(chǎn)生的影響纯陨。以上就是Alberto所說的關于信息圖的五個原則:真實的坛芽,有用的,優(yōu)美的队丝,有見地的靡馁,和有啟發(fā)性的。

七. 參考文獻

  1. 數(shù)據(jù)可視化概覽

  2. 數(shù)據(jù)可視化過程不完全指南

  3. 數(shù)據(jù)可視化工具目錄

  4. 關于數(shù)據(jù)可視化

最后編輯于
?著作權歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末机久,一起剝皮案震驚了整個濱河市臭墨,隨后出現(xiàn)的幾起案子盗尸,更是在濱河造成了極大的恐慌瘩将,老刑警劉巖衩椒,帶你破解...
    沈念sama閱讀 206,839評論 6 482
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件楚殿,死亡現(xiàn)場離奇詭異,居然都是意外死亡结缚,警方通過查閱死者的電腦和手機损晤,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,543評論 2 382
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來红竭,“玉大人尤勋,你說我怎么就攤上這事∫鹣埽” “怎么了最冰?”我有些...
    開封第一講書人閱讀 153,116評論 0 344
  • 文/不壞的土叔 我叫張陵,是天一觀的道長稀火。 經(jīng)常有香客問我暖哨,道長,這世上最難降的妖魔是什么凰狞? 我笑而不...
    開封第一講書人閱讀 55,371評論 1 279
  • 正文 為了忘掉前任篇裁,我火速辦了婚禮,結(jié)果婚禮上赡若,老公的妹妹穿的比我還像新娘达布。我一直安慰自己,他們只是感情好逾冬,可當我...
    茶點故事閱讀 64,384評論 5 374
  • 文/花漫 我一把揭開白布往枣。 她就那樣靜靜地躺著,像睡著了一般粉渠。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上圾另,一...
    開封第一講書人閱讀 49,111評論 1 285
  • 那天霸株,我揣著相機與錄音,去河邊找鬼集乔。 笑死去件,一個胖子當著我的面吹牛,可吹牛的內(nèi)容都是我干的扰路。 我是一名探鬼主播尤溜,決...
    沈念sama閱讀 38,416評論 3 400
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼汗唱!你這毒婦竟也來了宫莱?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 37,053評論 0 259
  • 序言:老撾萬榮一對情侶失蹤哩罪,失蹤者是張志新(化名)和其女友劉穎授霸,沒想到半個月后巡验,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 43,558評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡碘耳,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,007評論 2 325
  • 正文 我和宋清朗相戀三年显设,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片辛辨。...
    茶點故事閱讀 38,117評論 1 334
  • 序言:一個原本活蹦亂跳的男人離奇死亡捕捂,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出斗搞,到底是詐尸還是另有隱情指攒,我是刑警寧澤,帶...
    沈念sama閱讀 33,756評論 4 324
  • 正文 年R本政府宣布榜旦,位于F島的核電站幽七,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏溅呢。R本人自食惡果不足惜澡屡,卻給世界環(huán)境...
    茶點故事閱讀 39,324評論 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望咐旧。 院中可真熱鬧驶鹉,春花似錦、人聲如沸铣墨。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,315評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽伊约。三九已至姚淆,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間屡律,已是汗流浹背腌逢。 一陣腳步聲響...
    開封第一講書人閱讀 31,539評論 1 262
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留超埋,地道東北人搏讶。 一個月前我還...
    沈念sama閱讀 45,578評論 2 355
  • 正文 我出身青樓,卻偏偏與公主長得像霍殴,于是被迫代替她去往敵國和親媒惕。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 42,877評論 2 345

推薦閱讀更多精彩內(nèi)容