本系列「數(shù)據(jù)可視化基礎(chǔ)」文章共三篇害晦,介紹可視化中最基礎(chǔ)、最重要的一些概念暑中、理論壹瘟。這篇為第二篇,主要介紹數(shù)據(jù)模型鳄逾,另兩篇則主講可視化流程和視覺編碼稻轨,建議從可視化流程看起。
原文地址:http://geekplux.com/2017/01/02/basics-of-data-visualization-data-model.html
數(shù)據(jù)說白了就是一組可定性或可量化的值雕凹。隨著計算機存儲能力的大幅提高殴俱,人們對于數(shù)據(jù)的關(guān)注與日俱增,「大數(shù)據(jù)」一詞近幾年來也被人們頻頻提及枚抵。而數(shù)據(jù)可視化的主要任務(wù)是將數(shù)據(jù)轉(zhuǎn)換為易于感知的圖形粱挡。因此,為了更準確更形象的表達數(shù)據(jù)俄精,我們需要了解一些數(shù)據(jù)相關(guān)的概念。
數(shù)據(jù)模型與概念模型
為什么數(shù)據(jù)能代表我們的世界榕堰?要回答這個問題竖慧,我們得先了解數(shù)據(jù)和概念兩個模型。
數(shù)據(jù)模型是一組數(shù)字或符號的組合逆屡,它包含數(shù)據(jù)的定義圾旨、類型等,可以進行各類數(shù)學操作等魏蔗。概念模型描述的是事物的語義或狀態(tài)行為等。
現(xiàn)實 => 概念 => 數(shù)據(jù)
現(xiàn)實世界可以用概念模型來描述廓鞠,而概念模型又可以用數(shù)據(jù)模型來描述床佳。經(jīng)過兩層抽象砌们,數(shù)據(jù)便可以描述我們的現(xiàn)實生活中的方方面面。
數(shù)據(jù)類型
一個東西具體歸為哪一類昔头,取決于我們用什么標準劃分影兽,數(shù)據(jù)亦然。
從數(shù)據(jù)在計算機中的存儲可分為浮點數(shù)未蝌、整數(shù)、字符等纸型;從關(guān)系模型的角度分,數(shù)據(jù)又可以分為實體和關(guān)系兩類琼腔;從數(shù)據(jù)的結(jié)構(gòu)來分,可以分為一維踱葛、二維、三維、多維、時間序列、空間序列抄腔、樹型、圖型等等[3];還有很多的分類方法筏勒,我們暫時先不討論管行,把關(guān)注點聚焦到和數(shù)據(jù)可視化有關(guān)的分類方法上雨效。
按照測量標度來分据悔,數(shù)據(jù)一般被分為四類:類別型、有序型耕拷、區(qū)間型讼昆、比值型。
- 類別型數(shù)據(jù)用于區(qū)分事物骚烧。例如浸赫,人可以分為男女,水果能分為蘋果香蕉等赃绊。
- 有序型用來表示對象間的順序關(guān)系既峡。例如,我們的身高可以從矮到高碧查,學生的成績可以從低到高排列等运敢。
- 區(qū)間型用于對象間的定量比較校仑。例如,身高 160cm 與身高 170cm 相差 10cm传惠,而 170cm 與 180cm 也相差 10cm迄沫,它們倆的差值是相等的。由此可見卦方,區(qū)間型數(shù)據(jù)基于任意的起始點羊瘩,所以它只能衡量對象間的相對差別。
- 比值型用于比較數(shù)值間的比例關(guān)系盼砍。例如尘吗,體重 80kg 是體重 40kg 的兩倍。
不同的數(shù)據(jù)類型適用于不同的操作[1]:
數(shù)據(jù)類型 | 操作 | 集合操作 | 統(tǒng)計操作 |
---|---|---|---|
類別型 | =浇坐、≠ | 互換元素位置 | 類別睬捶、模式、列聯(lián)相關(guān) |
有序型 | =吗跋、≠侧戴、>、< | 計算元素單調(diào)遞增(減) | 中值跌宛、百分位數(shù) |
區(qū)間型 | =酗宋、≠、>疆拘、<蜕猫、+、- | 元素間線性加(減) | 平均值哎迄、標準方差回右、等級相關(guān)、積差相關(guān) |
比值型 | =漱挚、≠翔烁、>、<旨涝、+蹬屹、-、×白华、÷ | 元素間相似度 | 變異系數(shù) |
不過慨默,在數(shù)據(jù)可視化中,我們通常不特別區(qū)分區(qū)間型和比值型弧腥,將其統(tǒng)稱為數(shù)值型厦取。進而可將數(shù)據(jù)類型進一步精簡為三種:類別型、有序型管搪、數(shù)值型虾攻。具體為什么要分為這三類铡买,我相信你看完下一篇視覺編碼之后會完全明白。
例子
說了那么多台谢,都比較抽象寻狂,不如直接來看個例子。下面是一個簡單的數(shù)據(jù)表朋沮,每一行通常稱作一條記錄蛇券,每一列稱作一個字段,共有幾個字段樊拓,則通常就說這份數(shù)據(jù)有幾個維度纠亚。
id | 類型 | 款式 | 尺碼 | 銷量 | 年增長 |
---|---|---|---|---|---|
1 | 男款 | 上衣 | L | 50 | 10% |
2 | 女款 | 上衣 | S | 35 | 5% |
3 | 女款 | 褲子 | M | 40 | 20% |
4 | 男款 | 上衣 | XL | 30 | 15% |
對照我們上文的概念,不難判斷出上表中:
- 類型筋夏、款式為類別型數(shù)據(jù)蒂胞;
- id、尺碼為有序型數(shù)據(jù)条篷;
- 銷量和年增長為數(shù)值型數(shù)據(jù)骗随。
總結(jié)
至此,其實本文的任務(wù)就已經(jīng)完成了赴叹。通篇傳遞的最重要的知識就是數(shù)據(jù)可視化中的三大數(shù)據(jù)類型鸿染,消化了這點,下一篇視覺編碼就能更好的理解乞巧。歡迎各位在我博客文末留言討論(如果看不到評論框可能是因為你沒有科學上網(wǎng))涨椒。
參考文獻
- [1]陳為 沈則潛 陶煜波. 數(shù)據(jù)可視化[M]. 電子工業(yè)出版社, 2013.
- [2]浙江大學-陳為、巫英才數(shù)據(jù)可視化課程
- [3]Shneiderman B. The eyes have it: a task by data type taxonomy for information visualizations[C]// Visual Languages, 1996. Proceedings. IEEE Symposium on. IEEE Xplore, 1996:336-343.
- [4]CSE512 Data Visualization (Spring 2016)
本作品采用知識共享 署名-非商業(yè)性使用-禁止演繹 4.0 國際 許可協(xié)議進行許可绽媒。