基礎(chǔ)篇
第一章 數(shù)據(jù)可視化簡(jiǎn)介
1.1 可視化釋義
在計(jì)算機(jī)學(xué)科的分類(lèi)中:利用人眼的感知能力對(duì)數(shù)據(jù)進(jìn)行交互的可視表達(dá)以增強(qiáng)認(rèn)知的技術(shù),稱(chēng)為可視化。
它將不可見(jiàn)或難以直接顯示的 數(shù)據(jù)轉(zhuǎn)化為可感知的圖形殊橙、符號(hào)梳凛、顏色、紋理等制圈,增強(qiáng)數(shù)據(jù)識(shí)別效率候引,傳遞有效信息。
可視化是認(rèn)知的過(guò)程敦跌,即形成某個(gè)問(wèn)題的感知圖像澄干,強(qiáng)化認(rèn)知理解。
可視化的終極目的是對(duì)事物規(guī)律的洞悉柠傍,而非所繪制的可視化結(jié)果本身麸俘。這包含多重含義:發(fā)現(xiàn)、決策惧笛、解釋从媚、分析、探索和學(xué)習(xí)患整。因此拜效,可視化可簡(jiǎn)明地定義為“通過(guò)可視表達(dá)增強(qiáng)人們完成某些任務(wù)的效率”。
從宏觀的角度看各谚,可視化包括三個(gè)功能:
- 信息記錄
- 支持對(duì)信息的推理和分析
- 信息傳播和協(xié)同
1.2 可視化簡(jiǎn)史
可視化發(fā)展史與測(cè)量紧憾、繪畫(huà)、人類(lèi)現(xiàn)代文明的啟蒙和科技的發(fā)展一脈相承昌渤。
- 17 世紀(jì)之前:圖表萌芽
- 1600 - 1699 年:物理測(cè)量
- 1700 - 1799 年:圖形符號(hào)
- 1800 - 1900 年:數(shù)據(jù)圖形
- 1900 - 1949 年:現(xiàn)代啟蒙
- 1950 - 1974 年:多維信息的可視編碼
- 1975 - 1987 年:多維統(tǒng)計(jì)圖形
- 1987 - 2004 年:交互可視化
- 2004 年至今:可視分析學(xué)
1.3 數(shù)據(jù)可視化詳解
1.3.1 數(shù)據(jù)科學(xué)的發(fā)展
數(shù)據(jù)科學(xué)的基本模型:數(shù)據(jù) -> 信息 -> 知識(shí) -> 智慧
1.3.2 數(shù)據(jù)可視化的意義
數(shù)據(jù)可視化的作用在于視物致知赴穗,即從看見(jiàn)物體到獲取知識(shí)。
需要達(dá)到真膀息、善般眉、美的均衡:
- 真:真實(shí)性,正確反映數(shù)據(jù)的本質(zhì)潜支,以及對(duì)所反映的事物和規(guī)律正確的感受和認(rèn)識(shí)甸赃;
- 善:傾向性,可視化所表達(dá)的意象對(duì)于社會(huì)和生活的意義和影響毁腿;
- 美:藝術(shù)完美性辑奈,形式與內(nèi)容和諧統(tǒng)一苛茂,有藝術(shù)個(gè)性,有創(chuàng)新和發(fā)展鸠窗。
1.3.3 數(shù)據(jù)可視化的分類(lèi)
處理對(duì)象是數(shù)據(jù)妓羊。
- 科學(xué)可視化:如何有效呈現(xiàn)數(shù)據(jù)中幾何、拓?fù)浜托螤钐卣鳌?
- 標(biāo)量場(chǎng)可視化
- 向量場(chǎng)可視化
- 張量場(chǎng)可視化
- 信息可視化:如何針對(duì)大尺度高維數(shù)據(jù)減少視覺(jué)混淆對(duì)有用信息的干擾稍计。
- 時(shí)空數(shù)據(jù)可視化
- 層次與網(wǎng)絡(luò)結(jié)構(gòu)數(shù)據(jù)可視化
- 文本和跨媒體數(shù)據(jù)可視化
- 多變量數(shù)據(jù)可視化
- 可視分析學(xué):將人的感知和認(rèn)知能力以可視的方式融入數(shù)據(jù)處理過(guò)程躁绸。
1.3.4 數(shù)據(jù)可視化與其他學(xué)科領(lǐng)域的關(guān)系
- 圖形學(xué)、人機(jī)交互
- 數(shù)據(jù)庫(kù)與數(shù)據(jù)倉(cāng)庫(kù)
- 數(shù)據(jù)分析與數(shù)據(jù)挖掘
- 面向領(lǐng)域的可視化方法與技術(shù)
- 信息視覺(jué)設(shè)計(jì)
1.4 數(shù)據(jù)可視化研究挑戰(zhàn)
三方面約束:
- 計(jì)算能力的可擴(kuò)展性
- 感知和認(rèn)知能力的局限性
- 顯示能力的局限性
兩方面挑戰(zhàn):
- 大數(shù)據(jù)可視化
- 以人為中心的探索式可視分析
第二章 視覺(jué)感知與認(rèn)知
2.1 視覺(jué)感知和認(rèn)知
用戶是所有行為的主體:通過(guò)視覺(jué)感知器官獲取可視信息臣嚣、編碼并形成認(rèn)知净刮,在交互分析過(guò)程中獲取解決問(wèn)題的方法。在這個(gè)過(guò)程中硅则,感知和認(rèn)知能力直接影響著信息的獲取和處理進(jìn)程淹父,進(jìn)而影響對(duì)外在世界環(huán)境所做出的反應(yīng)。
人類(lèi)處理數(shù)據(jù)的能力遠(yuǎn)遠(yuǎn)落后于獲取數(shù)據(jù)的能力怎虫,人類(lèi)視覺(jué)對(duì)于形象視覺(jué)符號(hào)的理解能力更強(qiáng)暑认。
2.1.1 視覺(jué)感知和認(rèn)知的定義
感知指客觀事物通過(guò)感覺(jué)器官在人腦中的直接反映。
認(rèn)知指在認(rèn)識(shí)活動(dòng)的過(guò)程中大审,個(gè)體對(duì)感覺(jué)信號(hào)接收蘸际、檢測(cè)、轉(zhuǎn)換徒扶、簡(jiǎn)約粮彤、合成、編碼姜骡、儲(chǔ)存导坟、提取、重建圈澈、概念形成乍迄、判斷和問(wèn)題解決的信息加工處理過(guò)程。
2.1.2 視覺(jué)感知處理過(guò)程
人類(lèi)感知系統(tǒng)由負(fù)責(zé)語(yǔ)言方面和其他非語(yǔ)言事物的兩個(gè)子系統(tǒng)組成士败。
大腦對(duì)于視覺(jué)信息的記憶效果和記憶速度好于對(duì)語(yǔ)言的記憶效果和記憶速度闯两。
視覺(jué)分為低階視覺(jué)和高階視覺(jué)。
2.1.3 格式塔理論
強(qiáng)調(diào)經(jīng)驗(yàn)和行為的整體性谅将,最基本的法則是簡(jiǎn)單精煉法則漾狼,認(rèn)為人們?cè)谶M(jìn)行觀察時(shí),傾向于將視覺(jué)感知內(nèi)容理解為常規(guī)的饥臂、簡(jiǎn)單的逊躁、相連的、對(duì)稱(chēng)的或有序的結(jié)構(gòu)隅熙。同時(shí)稽煤,人們?cè)讷@取視覺(jué)感知的時(shí)候核芽,會(huì)傾向于將事物理解為一個(gè)整體,而不是組成該事物所有部分的集合酵熙。
- 貼近原則:當(dāng)視覺(jué)元素在空間距離上相距較近時(shí)轧简,人們通常傾向于將它們歸為一組。
- 相似原則:人們?cè)谟^察事物的時(shí)候匾二,會(huì)自然地根據(jù)事物的相似性進(jìn)行感知分組哮独,雖然實(shí)際上事物本身并不存在分組的意圖。
- 閉合原則:只要物體的形狀足以表征物體本身察藐,人們就會(huì)很容易地感知整個(gè)物體而忽視未閉合的特征皮璧。
- 共勢(shì)原則:如果一組物體沿著相似的光滑路徑運(yùn)動(dòng)趨勢(shì)或具有相似的排列模式,人眼會(huì)將它們識(shí)別為同一類(lèi)物體分飞。
- 好圖原則:人眼通常會(huì)自動(dòng)將一組物體按照簡(jiǎn)單悴务、規(guī)則、有序的元素排列方式識(shí)別譬猫。
- 對(duì)稱(chēng)性原則:人的意識(shí)傾向于將物體識(shí)別為沿某點(diǎn)或某軸對(duì)稱(chēng)的形狀惨寿。
- 經(jīng)驗(yàn)原則:在某些情形下視覺(jué)感知與過(guò)去的經(jīng)驗(yàn)有關(guān)。
可以看出删窒,格式塔(完形理論)的基本思想是:視覺(jué)形象首先是作為統(tǒng)一的整體被認(rèn)知的,而后才以部分的形式被認(rèn)知顺囊。
2.2 顏色
顏色與形狀和布局構(gòu)成了最基本的數(shù)據(jù)編碼手段肌索。
2.2.1 顏色刺激理論
- 人眼與可見(jiàn)光:人眼結(jié)構(gòu),暗視覺(jué)(桿細(xì)胞)特碳,明視覺(jué)(錐細(xì)胞)诚亚。
- 顏色與視覺(jué):三色視覺(jué)理論與補(bǔ)色過(guò)程理論。
- 顏色視覺(jué)障礙:在正常光照條件下午乓,人眼無(wú)法辨認(rèn)不同的顏色或者對(duì)于顏色辨認(rèn)存在不同程度的障礙站宗。
2.2.2 色彩空間
色彩空間是描述使用一組值表示顏色的方法的抽象數(shù)學(xué)模型。
- CIE XYZ/CIE L*a*b*
- RGB/CMYK
- HSV/HSL
- 絕對(duì)色彩空間與相對(duì)色彩空間
2.3 視覺(jué)編碼原則
可視化將數(shù)據(jù)以一定的變換和視覺(jué)編碼原則映射為可視化視圖益愈。
2.3.1 相對(duì)判斷和視覺(jué)假象
人類(lèi)感知系統(tǒng)的工作原理決定于對(duì)所觀察事物的相對(duì)判斷梢灭。(參照物)
視覺(jué)假象指人們通過(guò)眼睛所獲得的信息被大腦處理后形成的關(guān)于事物的感知,與事物在客觀世界中的物理現(xiàn)實(shí)并不一致的現(xiàn)象蒸其。
可視化設(shè)計(jì)時(shí)要考慮到人類(lèi)感知系統(tǒng)的這種現(xiàn)象敏释,排除誤導(dǎo)用戶的可視化元素。
2.3.2 標(biāo)記和視覺(jué)通道
可視化編碼由兩部分組成:
- (圖形元素)標(biāo)記:數(shù)據(jù)屬性到可視化元素的映射摸袁,代表數(shù)據(jù)的性質(zhì)分類(lèi)
- 用于控制標(biāo)記的視覺(jué)特征的視覺(jué)通道:數(shù)據(jù)的值到標(biāo)記的視覺(jué)表現(xiàn)屬性的映射钥顽,展現(xiàn)數(shù)據(jù)屬性的定量信息。
標(biāo)記
- 通常是一些幾何圖形元素靠汁,如點(diǎn)蜂大、線闽铐、面、體等奶浦。
- 可以根據(jù)空間自由度進(jìn)行分類(lèi)兄墅,如零自由度(點(diǎn))、一維(線)财喳、二維(面)察迟、三維(體)。
- 標(biāo)記的選擇通扯撸基于人們對(duì)事物理解的直覺(jué)感知
視覺(jué)通道
- 位置扎瓶、大小、形狀泌枪、色調(diào)概荷、飽和度、亮度等碌燕,具有分類(lèi)性質(zhì)(形狀)和定量性質(zhì)(長(zhǎng)度)误证。
- 不同的視覺(jué)通道在表達(dá)信息的作用和能力上特性不同
2.3.3 視覺(jué)通道的概念
將數(shù)據(jù)信息以可視化視圖進(jìn)行呈現(xiàn),其關(guān)鍵步驟是對(duì)數(shù)據(jù)信息進(jìn)行編碼修壕,即將數(shù)據(jù)屬性以標(biāo)記呈現(xiàn)后愈捅,通過(guò)視覺(jué)通道控制標(biāo)記的呈現(xiàn)方式。
視覺(jué)通道的類(lèi)型
- 定性性質(zhì)或分類(lèi)性質(zhì):形狀慈鸠、顏色等蓝谨,適合編碼分類(lèi)的數(shù)據(jù)信息
- 定量性質(zhì)或定序性質(zhì):長(zhǎng)度、亮度等青团,適合編碼有序的或數(shù)值型的數(shù)據(jù)信息
- 分組性質(zhì):位置等譬巫,適合表現(xiàn)數(shù)據(jù)的內(nèi)在關(guān)聯(lián)性
視覺(jué)通道的表現(xiàn)力和有效性
- 表現(xiàn)力:視覺(jué)通道在編碼數(shù)據(jù)信息時(shí),需要表達(dá)且僅表達(dá)數(shù)據(jù)的完整屬性督笆。
- 視覺(jué)通道的有效性要求高表現(xiàn)力的視覺(jué)通道用于重要的數(shù)據(jù)屬性編碼芦昔。
- 視覺(jué)通道的表現(xiàn)力排序:
- 定性或分類(lèi):位置、色調(diào)娃肿、形狀咕缎、圖案
- 定量或定序:坐標(biāo)軸位置、長(zhǎng)度料扰、角度锨阿、面積、亮度/飽和度记罚、圖案亮度
- 分組:包含墅诡、連接、相似、接近
表現(xiàn)力判斷標(biāo)準(zhǔn)
- 精確性
- 人類(lèi)感知系統(tǒng)對(duì)于可視化的判斷結(jié)果和原始數(shù)據(jù)的吻合程度
- 史蒂文斯冪次法則末早,長(zhǎng)度是線性的(精確性高烟馅,柱狀圖)
- 可辨認(rèn)性
- 調(diào)整取值使得人們能夠區(qū)分該視覺(jué)通道的多種取值狀態(tài)的能力
- 弱的如直線寬度,只能編碼三四種
- 可分離性
- 抗其他視覺(jué)通道干擾的能力
- 視覺(jué)突出
- 在很短的時(shí)間內(nèi)然磷,人們可以僅僅依賴感知的前向注意力直接發(fā)現(xiàn)某一不同對(duì)象
2.3.4 視覺(jué)通道的特性
不同的視覺(jué)通道郑趁,被用戶的感知與認(rèn)知系統(tǒng)處理并獲取的信息不同
平面位置
- 既可編碼分類(lèi),又可編碼定序或定量
- 水平位置和垂直位置是兩個(gè)可以分離的視覺(jué)通道姿搜,垂直位置優(yōu)先級(jí)更高(重力效應(yīng))
- 用坐標(biāo)軸來(lái)組織顯示空間
顏色
- 最復(fù)雜寡润,可以編碼大量信息
- 亮度:有序數(shù)據(jù)耸弄、可辨性小审胸、精確性低
- 飽和度:有序數(shù)據(jù)、可辨性小励七、精確性低
- 色調(diào):分類(lèi)數(shù)據(jù)致份、分組數(shù)據(jù)变抽、
- 配色方案:信息表達(dá)和美觀性
尺寸
- 定量/定序通道,有序數(shù)據(jù)
- 人們對(duì)于一維尺寸的判斷是線性的氮块,維度越高越不精確
斜度和角度
- 斜度
- 二維坐標(biāo)軸平面中绍载,方向和 0 度坐標(biāo)軸的夾角
- 具有所屬象限及角度值等性質(zhì)
- 角度
形狀
- 通過(guò)前向注意力就能識(shí)別的低階視覺(jué)特征
- 定性通道,分類(lèi)數(shù)據(jù)
紋理
- 多種視覺(jué)變量的組合
- 三維中可以作為幾何物體的屬性滔蝉,二維中可以表示不同的數(shù)據(jù)范圍或分布
動(dòng)畫(huà)
- 動(dòng)畫(huà)形式的視覺(jué)通道包括:運(yùn)動(dòng)的方向(定性)击儡、運(yùn)動(dòng)的速度(定量)、閃爍的頻率(定量)等
- 與其他視覺(jué)通道天然的分離性蝠引,容易讓用戶忽略非動(dòng)畫(huà)視覺(jué)通道
第三章 數(shù)據(jù)
3.1 數(shù)據(jù)釋義
- 數(shù)據(jù)是符號(hào)的集合阳谍,是表達(dá)客觀事物的未經(jīng)加工的原始素材
- 數(shù)據(jù)模型是用來(lái)描述數(shù)據(jù)表達(dá)的底層描述模型,包含數(shù)據(jù)的定義和類(lèi)型立肘,以及不同類(lèi)型數(shù)據(jù)的操作功能
- 數(shù)據(jù)可以看成是數(shù)據(jù)對(duì)象和其屬性的集合,其中屬性可被看成是變量名扛、值域谅年、特征或特性
3.1.1 數(shù)據(jù)基礎(chǔ)
數(shù)據(jù)分類(lèi)
- 從關(guān)系模型的角度,數(shù)據(jù)可被分為實(shí)體和關(guān)系肮韧。
- 實(shí)體是被可視化的對(duì)象
- 關(guān)系定義了實(shí)體與其他實(shí)體之間的結(jié)構(gòu)和模式
- 實(shí)體關(guān)系模型能描述數(shù)據(jù)之間的結(jié)構(gòu)融蹂,但不考慮基于實(shí)體、關(guān)系和屬性的操作
- 數(shù)據(jù)屬性可分為離散屬性和連續(xù)屬性
數(shù)據(jù)集
- 數(shù)據(jù)集是數(shù)據(jù)的實(shí)例弄企。表達(dá)形式有:
- 數(shù)據(jù)記錄集:由一組包含固定屬性值的數(shù)據(jù)元素組成超燃。數(shù)據(jù)對(duì)象可視為高維空間的點(diǎn)集,數(shù)據(jù)集可表達(dá)為一個(gè) m * n 的矩陣拘领。(OLAP 技術(shù))
- 圖數(shù)據(jù)集:非機(jī)構(gòu)化的數(shù)據(jù)結(jié)構(gòu)意乓,由一組節(jié)點(diǎn)和一組連接兩個(gè)節(jié)點(diǎn)之間的加權(quán)邊組成。(航線圖约素、分子式等)
- 有序數(shù)據(jù)集:具有某種順序的數(shù)據(jù)集届良。(空間數(shù)據(jù)笆凌、時(shí)間數(shù)據(jù))
- 數(shù)據(jù)集的另一種分離是根據(jù)數(shù)據(jù)模型的結(jié)構(gòu):
- 結(jié)構(gòu)化數(shù)據(jù):可以用二維表結(jié)構(gòu)邏輯表表達(dá)的(數(shù)據(jù)庫(kù))
- 非結(jié)構(gòu)化數(shù)據(jù):難以用數(shù)據(jù)庫(kù)二維邏輯表表達(dá)的(圖數(shù)據(jù)、圖像士葫、文本)
- 半結(jié)構(gòu)化數(shù)據(jù):介于上面兩者之間(XML)
數(shù)據(jù)相似度與密度
- 衡量多個(gè)數(shù)據(jù)對(duì)象之間的相似程度乞而。
- 度量值:相似度系數(shù)
- 測(cè)度:距離
3.1.2 數(shù)據(jù)科學(xué)及過(guò)程
- 以數(shù)據(jù)為研究對(duì)象的電子科學(xué)、信息科學(xué)慢显、語(yǔ)義網(wǎng)絡(luò)爪模、數(shù)據(jù)組織與管理、數(shù)據(jù)分析荚藻、數(shù)據(jù)挖掘和數(shù)據(jù)可視化等手段屋灌,可以有效地提取隱藏在數(shù)據(jù)中有價(jià)值的信息,并且將數(shù)據(jù)利用率提高到傳統(tǒng)方法所不能及的高度鞋喇,是提煉科學(xué)原理声滥、驗(yàn)證科學(xué)假設(shè)、服務(wù)科學(xué)探索的新思路侦香。研究這種綜合性方法的學(xué)科被稱(chēng)為數(shù)據(jù)科學(xué)落塑。
- 數(shù)據(jù)可視化作為人機(jī)交互手段,貫穿于整個(gè)數(shù)據(jù)科學(xué)過(guò)程罐韩。
3.2 數(shù)據(jù)獲取和預(yù)處理
3.2.1 數(shù)據(jù)獲取
- 數(shù)據(jù)獲取協(xié)議憾赁,以文件為基礎(chǔ),提供數(shù)據(jù)格式散吵、位置和數(shù)據(jù)組織的透明度
3.2.2 數(shù)據(jù)預(yù)處理
- 合并:多個(gè)屬性或?qū)ο?-> 一個(gè)
- 采樣
- 降維:高維空間 -> 低維空間
- 特征子集選擇:從數(shù)據(jù)集中選擇部分屬性值
- 特征生成:在原始數(shù)據(jù)集上構(gòu)建新的能反應(yīng)數(shù)據(jù)重要信息的屬性
- 離散化與二值化:離散化龙考,將數(shù)據(jù)集根據(jù)其分布劃分為若干個(gè)子類(lèi),形成數(shù)據(jù)集的離散表達(dá)矾睦;二值化晦款,將數(shù)據(jù)值映射為二值區(qū)間
- 屬性變換:將某個(gè)屬性的所有可能值一一映射到另一個(gè)空間(如指數(shù)變化,取絕對(duì)值)枚冗。標(biāo)準(zhǔn)化缓溅,將數(shù)據(jù)區(qū)間變化到某個(gè)統(tǒng)一的區(qū)間范圍;歸一化赁温,將數(shù)據(jù)區(qū)間映射到 [0, 1]
3.3 數(shù)據(jù)組織與管理
數(shù)據(jù)管理包括對(duì)數(shù)據(jù)進(jìn)行有效的收集坛怪、存儲(chǔ)、處理和應(yīng)用的過(guò)程股囊。
數(shù)據(jù)組織的層次體系:位袜匿、字符、數(shù)據(jù)元稚疹、記錄居灯、文件、數(shù)據(jù)庫(kù)
- 記錄是邏輯上相關(guān)的數(shù)據(jù)元的組合
- 文件是邏輯上相關(guān)的記錄的集合
- 數(shù)據(jù)庫(kù)是一種計(jì)算機(jī)系統(tǒng)資源共享的數(shù)據(jù)集合
與數(shù)據(jù)可視化有關(guān)的常用數(shù)據(jù)組織和管理形式:
- 文件存儲(chǔ):靈活、冗余穆壕、不一致待牵、難以約束、安全性低
- 結(jié)構(gòu)化文件格式:采用標(biāo)記語(yǔ)言格式將數(shù)據(jù)進(jìn)行結(jié)構(gòu)化組織
- 數(shù)據(jù)庫(kù):數(shù)據(jù)組織的高級(jí)形式喇勋,存儲(chǔ)在計(jì)算機(jī)設(shè)備內(nèi)缨该、有組織的、共享的川背、統(tǒng)一管理的數(shù)據(jù)集合
3.3.1 數(shù)據(jù)清洗和精簡(jiǎn)
解決以下這些數(shù)據(jù)質(zhì)量問(wèn)題的方法稱(chēng)為數(shù)據(jù)清洗:
- 噪聲與離群值:噪聲指對(duì)真實(shí)數(shù)據(jù)的修改贰拿;離群值指與大多數(shù)數(shù)據(jù)偏離值較大的數(shù)據(jù)
- 數(shù)據(jù)缺失
- 數(shù)據(jù)重
數(shù)據(jù)精簡(jiǎn)
- 在數(shù)據(jù)存儲(chǔ)、分析層面降低數(shù)據(jù)復(fù)雜度(高維熄云、多尺度特征)
- 在可視化層面替身視覺(jué)有效性膨更、特征保留度
3.3.2 數(shù)據(jù)整合和集成
數(shù)據(jù)整合指將不同數(shù)據(jù)源的數(shù)據(jù)進(jìn)行采集、清洗缴允、精簡(jiǎn)和轉(zhuǎn)化后統(tǒng)一融合在一個(gè)數(shù)據(jù)集中荚守,并提供統(tǒng)一數(shù)據(jù)視圖的數(shù)據(jù)集成方式
- 物化式:物理集中
- 虛擬式:虛擬層,提供統(tǒng)一的數(shù)據(jù)訪問(wèn)接口
數(shù)據(jù)集成指數(shù)據(jù)庫(kù)應(yīng)用中結(jié)合不同資源的數(shù)據(jù)并提供數(shù)據(jù)集合的統(tǒng)一訪問(wèn)
3.3.3 數(shù)據(jù)庫(kù)
- 數(shù)據(jù)庫(kù)是數(shù)據(jù)的集合练般,同時(shí)包含對(duì)數(shù)據(jù)的相關(guān)組織的操作矗漾。
- 數(shù)據(jù)庫(kù)結(jié)構(gòu)的基礎(chǔ)是數(shù)據(jù)模型,它是數(shù)據(jù)描述薄料、數(shù)據(jù)聯(lián)系敞贡、數(shù)據(jù)域以及一致性的約束的集合。數(shù)據(jù)模型有
- E-R 模型摄职,是一種基于對(duì)象的邏輯模型誊役,根據(jù)現(xiàn)實(shí)中的實(shí)體及實(shí)體見(jiàn)的關(guān)系對(duì)數(shù)據(jù)進(jìn)行抽象構(gòu)建
- 關(guān)系模型,基于記錄的邏輯模型谷市,由關(guān)系數(shù)據(jù)結(jié)構(gòu)蛔垢、關(guān)系操作集合、關(guān)系完整性約束三部分組成
- 關(guān)系型數(shù)據(jù)庫(kù)在數(shù)據(jù)可視化應(yīng)用方面的缺陷:
- 數(shù)據(jù)量較大時(shí)難以滿足高性能
- 存儲(chǔ)導(dǎo)向而不是語(yǔ)義導(dǎo)向
- 事件通知通過(guò)觸發(fā)器機(jī)制實(shí)現(xiàn)迫悠,難以滿足實(shí)時(shí)性
- 非結(jié)構(gòu)化數(shù)據(jù)是主流
- NoSQL
3.3.4 數(shù)據(jù)倉(cāng)庫(kù)
- 數(shù)據(jù)倉(cāng)庫(kù)指面向主題的鹏漆、集成的、與時(shí)間相關(guān)的及皂、主要用于存儲(chǔ)的數(shù)據(jù)集合甫男,支持管理部門(mén)的決策過(guò)程且改,其目的是構(gòu)建面向分析的集成化數(shù)據(jù)環(huán)境验烧,為分析人員提供決策支持。
- 基本架構(gòu)是數(shù)據(jù)流入/流出的過(guò)程又跛,分為三層:源數(shù)據(jù)碍拆、數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)應(yīng)用
- 流水線成為 ETL
- 抽取 Extract:從一個(gè)或多個(gè)數(shù)據(jù)源抽取原始數(shù)據(jù)
- 轉(zhuǎn)化 Transform:數(shù)據(jù)變換,包括清理感混、重構(gòu)端幼、標(biāo)準(zhǔn)化等
- 裝載 Load:將轉(zhuǎn)化過(guò)的數(shù)據(jù)存儲(chǔ)
- 數(shù)據(jù)倉(cāng)庫(kù)的特點(diǎn):
- 圍繞某個(gè)應(yīng)用目標(biāo)、應(yīng)用領(lǐng)域或使用者感興趣的內(nèi)容
- 可以不斷更新和增長(zhǎng)
- 查詢優(yōu)化
- 能處理非結(jié)構(gòu)化或結(jié)構(gòu)化數(shù)據(jù)
3.4 數(shù)據(jù)分析與挖掘
- 數(shù)據(jù)分析指組織有目的地采集數(shù)據(jù)弧满、詳細(xì)研究和概括總結(jié)數(shù)據(jù)婆跑,從中提取有用信息并形成結(jié)論的過(guò)程。
3.4.1 探索式數(shù)據(jù)分析
- 關(guān)注數(shù)據(jù)本身庭呜,包括結(jié)構(gòu)滑进、離群值、異常值和數(shù)據(jù)導(dǎo)出的模型
- 流程:?jiǎn)栴}募谎,數(shù)據(jù)扶关,分析,模型数冬,結(jié)論
3.4.2 聯(lián)機(jī)分析處理
- 聯(lián)機(jī)分析處理(OLAP)是一種交互式探索大規(guī)模多維數(shù)據(jù)集的方法节槐。
- 核心是表達(dá)多維數(shù)據(jù)模型(多維數(shù)組)
3.4.3 數(shù)據(jù)挖掘
- 數(shù)據(jù)挖掘指設(shè)計(jì)特定算法,從大量數(shù)據(jù)集中取探索發(fā)現(xiàn)知識(shí)或者模式的理論和方法
- 數(shù)據(jù)挖掘與信息可視化的流程對(duì)比
- 數(shù)據(jù)挖掘:數(shù)據(jù) -> 計(jì)算模型 -> 假設(shè)
- 信息可視化:數(shù)據(jù) -> 視覺(jué)模型 -> 假設(shè)
- 數(shù)據(jù)挖掘的主要方法:
- 分類(lèi)(預(yù)測(cè)性方法)
- 聚類(lèi)(描述性方法)
- 概念描述(描述性方法)
- 關(guān)聯(lián)規(guī)則挖掘(描述性方法)
- 序列模式挖掘(描述性方法)
- 回歸(預(yù)測(cè)性方法)
- 偏差檢測(cè)(預(yù)測(cè)性方法)
- 可視化數(shù)據(jù)挖掘
- 知識(shí)發(fā)現(xiàn)的五個(gè)基本步驟
- 選擇
- 預(yù)處理
- 變換
- 數(shù)據(jù)挖掘
- 解釋與評(píng)估
3.5 數(shù)據(jù)工作流
- 數(shù)據(jù)工作流指為數(shù)據(jù)處理和分析流程定義的自動(dòng)過(guò)程拐纱,本質(zhì)是計(jì)算業(yè)務(wù)過(guò)程的部分或整體在計(jì)算機(jī)應(yīng)用環(huán)境下的自動(dòng)化
3.6 數(shù)據(jù)科學(xué)的挑戰(zhàn)
- 如何高效地?cái)?shù)據(jù)存儲(chǔ)和訪問(wèn)铜异,構(gòu)建結(jié)構(gòu)化數(shù)據(jù)與非結(jié)構(gòu)化數(shù)據(jù)的關(guān)聯(lián),存儲(chǔ)異構(gòu)戳玫、多元數(shù)據(jù)
- 如何從大數(shù)據(jù)中獲取跟家有效的信息和知識(shí)
- 高維數(shù)據(jù)可視化熙掺,復(fù)雜、異構(gòu)數(shù)據(jù)可視化咕宿,海量數(shù)據(jù)實(shí)時(shí)交互設(shè)計(jì)币绩,大數(shù)據(jù)可視分析流程等
第四章 數(shù)據(jù)可視化基礎(chǔ)
4.1 數(shù)據(jù)可視化基本框架
數(shù)據(jù)可視化的基本流程和可視化設(shè)計(jì)的多層次模型。
4.1.1 數(shù)據(jù)可視化流程
- 科學(xué)可視化早期流水線:原始數(shù)據(jù) - 數(shù)據(jù)分析 - 預(yù)處理數(shù)據(jù) - 過(guò)濾 - 關(guān)注數(shù)據(jù) - 映射 - 幾何數(shù)據(jù) - 繪制 - 圖像數(shù)據(jù)
- 信息可視化模型:將流水線改進(jìn)成賄賂且用戶的交互可以出現(xiàn)在流程任何階段
- 可是分析學(xué)流程:通過(guò)人機(jī)交互將自動(dòng)和可視分析方法結(jié)合府阀,從輸入的數(shù)據(jù)到知識(shí)有兩條途徑(交互的可視化方法和自動(dòng)的數(shù)據(jù)挖掘方法)
- 在任意一種可視化或可是分析流水線中缆镣,人是核心要素
- 數(shù)據(jù)可視化流程中的核心要素:
- 數(shù)據(jù)表示與變換
- 數(shù)據(jù)的可視化呈現(xiàn):選擇最合適的視覺(jué)編碼形式
- 用戶交互
4.1.2 數(shù)據(jù)可視化設(shè)計(jì)
數(shù)據(jù)可視化設(shè)計(jì)的四個(gè)級(jí)聯(lián)的層次:
- 概括現(xiàn)實(shí)生活中用戶遇到的問(wèn)題
- 抽象相應(yīng)數(shù)據(jù)類(lèi)型的操作
- 設(shè)計(jì)編碼和交互方法
- 實(shí)現(xiàn)算法和交互
4.2 可視化中的數(shù)據(jù)
為了提高可視表達(dá)的準(zhǔn)確性,需要研究數(shù)據(jù)的分類(lèi)及其對(duì)應(yīng)的可視化編碼方法
4.2.1 數(shù)據(jù)認(rèn)知
對(duì)數(shù)據(jù)的認(rèn)知從數(shù)據(jù)模型到概念模型
- 數(shù)據(jù)模型:浮點(diǎn)數(shù)试浙、分類(lèi)
- 概念模型:溫度董瞻、性別
4.2.2 數(shù)據(jù)類(lèi)型
- 根據(jù)測(cè)量標(biāo)度:基本操作/用途,集合操作田巴,允許的統(tǒng)計(jì)計(jì)算
- 類(lèi)別型數(shù)據(jù):判斷是否相等钠糊,允許互換元素間位置,類(lèi)別壹哺、模式抄伍、列聯(lián)相關(guān)
- 有序型數(shù)據(jù):判斷大小,計(jì)算單調(diào)關(guān)系管宵,終止截珍、百分位數(shù)
- 區(qū)間型數(shù)據(jù):判斷差別攀甚,允許元素間線性加減操作,平均值岗喉、標(biāo)準(zhǔn)方差秋度、等級(jí)相關(guān)、積差相關(guān)
- 比值型數(shù)據(jù):判斷比例钱床,能判斷元素見(jiàn)的相似度荚斯,變異系數(shù)
- 在可視化中精簡(jiǎn)為三種:
- 類(lèi)別型數(shù)據(jù)
- 有序型數(shù)據(jù)
- 數(shù)值型數(shù)據(jù)(包括區(qū)間型和比值型)
4.3 可視化的基本圖表
按照所呈現(xiàn)的信息和視覺(jué)復(fù)雜程度分為三類(lèi):原始數(shù)據(jù)繪圖、簡(jiǎn)單統(tǒng)計(jì)值標(biāo)繪查牌、多視圖協(xié)調(diào)關(guān)聯(lián)
4.3.1 原始數(shù)據(jù)繪圖
可視化原始數(shù)據(jù)的屬性值鲸拥,直接呈現(xiàn)數(shù)據(jù)特征
數(shù)據(jù)軌跡
- 單變量數(shù)據(jù):x 軸自變量,y 軸因變量
- 直觀地呈現(xiàn)數(shù)據(jù)分布僧免、離群值刑赶、均值的偏移等
柱狀圖
- 長(zhǎng)方形的形狀和顏色編碼數(shù)據(jù)的屬性
直方圖
- 對(duì)數(shù)據(jù)集的某個(gè)數(shù)據(jù)屬性的頻率統(tǒng)計(jì),各個(gè)部分之和等于單位整體
- 直觀地呈現(xiàn)數(shù)據(jù)的分布懂衩、離群值撞叨、數(shù)據(jù)分布的模態(tài)
餅圖
- 環(huán)狀方式呈現(xiàn)各分量在整體中的比例
等值線圖
- 用相等數(shù)值的數(shù)據(jù)點(diǎn)連線表示數(shù)據(jù)的連續(xù)分布和變化規(guī)律
走勢(shì)圖
- 通常以折線圖為基礎(chǔ),使用高密度集的折線圖表達(dá)方式展示數(shù)據(jù)隨某一變量的變化趨勢(shì)
散點(diǎn)圖和散點(diǎn)圖矩陣
- 散點(diǎn)圖是表示二維數(shù)據(jù)的標(biāo)準(zhǔn)方法浊洞,數(shù)據(jù)以點(diǎn)的形式出現(xiàn)在笛卡爾坐標(biāo)系中
- 散點(diǎn)圖矩陣是散點(diǎn)圖的高維擴(kuò)展
維恩圖
- 使用平面上的封閉圖形來(lái)表述數(shù)據(jù)的集合關(guān)系
熱力圖
- 使用顏色表達(dá)位置相關(guān)的二維數(shù)值數(shù)據(jù)大小
4.3.2 簡(jiǎn)單統(tǒng)計(jì)值標(biāo)繪
- 盒須圖
- 最大值
- 75%
- 均值
- 25%
- 最小值
- 二維盒須圖
4.3.3 多視圖協(xié)調(diào)關(guān)聯(lián)
- 將不同種類(lèi)的繪圖組合起來(lái)牵敷,每個(gè)繪圖單元可以展現(xiàn)數(shù)據(jù)某個(gè)方面的屬性
- 圖 - 基本的統(tǒng)計(jì)圖表可視化方法和適用規(guī)則
4.4 可視化設(shè)計(jì)原則
設(shè)計(jì)制作可視化圖表三個(gè)主要步驟:
- 確定數(shù)據(jù)到圖形元素(標(biāo)記)和視覺(jué)通道的映射
- 視圖的選擇與用戶交互控制的設(shè)計(jì)
- 數(shù)據(jù)的篩選,即確定在有限的可視化視圖空間中選擇適當(dāng)容量的信息進(jìn)行編碼
4.4.1 數(shù)據(jù)到可視化的直觀映射
- 考慮數(shù)據(jù)的語(yǔ)義和可視化用戶的個(gè)性特征(用戶期望)
- 利用已有的先驗(yàn)知識(shí)法希,降低對(duì)信息的感知和認(rèn)知成本
- 基于不同視覺(jué)編碼通道的組合
- 使用正確的視覺(jué)通道去編碼數(shù)據(jù)信息
4.4.2 視圖選擇與交互設(shè)計(jì)
- 首先考慮被廣泛認(rèn)可并熟悉的視圖設(shè)計(jì)
- 提供交互手段
- 滾動(dòng)與縮放
- 顏色映射的控制
- 數(shù)據(jù)映射方式的控制
- 數(shù)據(jù)縮放和裁剪工具
- LOD 控制(細(xì)節(jié)層次)
4.4.3 信息密度——數(shù)據(jù)的篩選
- 展示合適的信息(非過(guò)多枷餐、過(guò)少)
- 提供數(shù)據(jù)篩選的操作,讓用戶選擇展示的部分
4.4.4 美學(xué)因素
- 標(biāo)注苫亦、網(wǎng)格毛肋、顏色選取等
- 三種提高美學(xué)性方法:
- 聚焦:吸引注意力到重要元素
- 平衡:有效利用空間、平衡分布
- 簡(jiǎn)單:避免過(guò)多元素造成混亂
4.4.5 動(dòng)畫(huà)與過(guò)渡
- 信息可視化結(jié)果的兩種形式:
- 可視化視圖
- 可視化系統(tǒng)(可交互數(shù)據(jù)環(huán)境)
- 動(dòng)畫(huà)與過(guò)渡效果的功能:
- 用時(shí)間換取空間屋剑,在優(yōu)先的屏幕空間中展示更多的數(shù)據(jù)
- 輔助不同可視化視圖之間的轉(zhuǎn)換與跟蹤润匙,或者輔助不同可視化視覺(jué)通道的變換
- 增加用戶在可視化系統(tǒng)中交互的反饋效果
- 引起觀察者注意
4.4.6 可視化隱喻
- 隱喻:隱喻本體、隱喻喻體唉匾、可視化變量
- 時(shí)間隱喻孕讳、空間隱喻
4.4.7 顏色與透明度
- α 通道
- 顏色混合的計(jì)算公式
4.5 可視化理論發(fā)展
- 作為一門(mén)學(xué)科,還處于發(fā)展階段
4.5.1 圖形符號(hào)學(xué)
- 信息的可視化編碼原則巍膘,定義了二維圖形及其對(duì)信息的表達(dá)過(guò)程:
- 圖形(可視化)由傳輸不同信息的圖形符號(hào)組成
- 圖形符號(hào)(點(diǎn)厂财、線、面)用視覺(jué)變量(位置變量峡懈、視網(wǎng)膜變量)描述
- 位置變量:圖形在二維平面上的位置璃饱;視網(wǎng)膜變量:包括尺寸、數(shù)值逮诲、紋理帜平、顏色、方向和形狀
- 視網(wǎng)膜變量可以表達(dá)不同層次的組織梅鹦,且變量之間存在關(guān)聯(lián)性裆甩、選擇性、有序型齐唆、定量性
4.5.2 關(guān)系數(shù)據(jù)的圖形表示
- 用圖形語(yǔ)言描述和定義可視化的表達(dá)
- 一個(gè)圖形句子有一系列的元組組成
- 圖形語(yǔ)言和組合算子
4.5.3 圖形語(yǔ)法
- 一種底層統(tǒng)計(jì)圖形生成語(yǔ)言嗤栓,用于構(gòu)造不同類(lèi)型的統(tǒng)計(jì)圖形
- 圖形的構(gòu)造過(guò)程:規(guī)范定義、組裝箍邮、顯示
- 兩個(gè)重要的可視化概念:
- 數(shù)據(jù)和它們的視覺(jué)表達(dá)應(yīng)該被區(qū)分
- 可應(yīng)用不同的算子構(gòu)造數(shù)據(jù)變量的可視化
4.5.4 基于數(shù)據(jù)類(lèi)型的研究
- 數(shù)據(jù)分為 7 類(lèi):
- 一維
- 二維
- 三維
- 時(shí)間
- 多維
- 樹(shù)
- 網(wǎng)絡(luò)
4.5.5 基于數(shù)據(jù)狀態(tài)模型的研究
- 可視化劉粗鞥分解為四個(gè)數(shù)據(jù)轉(zhuǎn)換階段和三種數(shù)據(jù)轉(zhuǎn)換操作
- 數(shù)據(jù)階段:
- 數(shù)值:原始數(shù)據(jù)
- 分析抽象表達(dá):關(guān)于數(shù)據(jù)(信息)的數(shù)據(jù)茉帅,及元數(shù)據(jù)
- 可視化抽象表達(dá):使用可視化技術(shù),在屏幕上顯示的可視信息
- 視圖:可視化映射的最終產(chǎn)品
- 轉(zhuǎn)換操作:
- 數(shù)據(jù)轉(zhuǎn)換:從值中生成一些分析抽象表達(dá)
- 可視化轉(zhuǎn)換:從分析抽象表達(dá)中獲取可視化抽象形式锭弊,即可視化內(nèi)容
- 視覺(jué)映射轉(zhuǎn)換:將信息轉(zhuǎn)化為可視化形式堪澎,顯示為圖形視圖
- 數(shù)據(jù)階段:
4.5.6 多維關(guān)系數(shù)據(jù)庫(kù)可視化分析系統(tǒng)
- Polaris 系統(tǒng),可支持大規(guī)模多維關(guān)系型數(shù)據(jù)庫(kù)的查詢味滞、分析和可視化樱蛤,完成關(guān)系型數(shù)據(jù)庫(kù)中的主要挑戰(zhàn):發(fā)現(xiàn)結(jié)構(gòu)和模式,發(fā)現(xiàn)因果關(guān)系