[TOC]
探索數據
- 內容:匯總統計翩迈、可視化和聯機分析處理(OLAP)
- 作用:數據初步探究膘流,利于選擇合適的數據預處理和數據分析技術动漾。
匯總統計
匯總統計丁屎,summary statistics,用單個數或數的小集合捕獲很大的值集的各種特征旱眯。
頻率(frequence)和眾數(mode):值x的頻率定義為所有對象中該屬性取值為x的對象比率晨川。眾數定義為具有最高頻率的值。頻率和眾數能反應一個屬性的值的取值情況删豺,但常常對連續(xù)變量來說無效共虑,因為連續(xù)變量的單個值可能出現次數不過1.
百分位數:在[min,max]區(qū)間上劃分百分比點,選出每個點上的數呀页,即為p百分位數妈拌。如值區(qū)間為[0,100]的值x,$$min(x)=0=x_{0%},max(x)=100=x_{100%}$$.百分位數的條件是數據有序蓬蝶。
位置度量——均值和中位數:連續(xù)數據常統計均值(mean)和中位數(median)尘分,他們是值集位置的度量。均值就是平均數丸氛,中位數就是有序序列最中間的某一個值(元素數量為奇數)或中間兩個值的平均值(元素數量為偶數)培愁。受離群點、異常值影響缓窜,為此提出截斷均值(trimmed mean)定续,將有序列的P個百分位去除之后再計算均值谍咆,顯然這P個百分位會對半分到高端和低端,即去掉最高的百分之0.5P私股,再去掉最低的百分之0.5P摹察,剩下的數做平均。此處截斷針對的值的個數倡鲸,如100個實體港粱,截斷百分之10,則排序后旦签,刪除最高5個數查坪,最低5個數。
-
散布度量——極差和方差:極差(range)通俗理解為取值范圍宁炫,$$range(x)=max(x)-min(x)$$,顯然極差是極受異常點影響的偿曙。而方差(variance)、標準差(standard deviation)通過均值計算而來羔巢,均值也是受離群點影響的望忆,故它倆也是對離群點敏感的。$$variance(x)=s_x2=\frac{1}{m-1}\sum\limits_{i=1}m(x_i-\bar{x})^2$$,而標準差s取方差開方即可竿秆。
針對上述離群點影響問題启摄,提出了絕對平均偏差(absolute average deviation,AAD)幽钢、中位數絕對偏差(median absolute deviation歉备,MAD)、四分位數極差(interquartile range匪燕,IQR)蕾羊。
$$AAD(x)=\frac{1}{m}\sum\limits_{i=1}^m{|x_i-\bar{x}|}$$
$$MAD(x)=median({|x_1-\bar{x}|,...,|x_m-\bar{x}|})$$
$$interquartile range(x)=x_{75%}-x_{20%}$$,75%-25%的極差帽驯,消除了離群點影響
-
多元匯總統計:之前都是針對單個屬性龟再,若數據對象包含多個屬性(多維、多元數據)尼变,數據對象的均值可用每個屬性的均值表示利凑。多元數據中,各個屬性間通常不是獨立的嫌术,考慮每個屬性的散布可能作用不大哀澈,可以嘗試分析兩兩屬性間聯合的散布情況,即協方差矩陣(covariance matrix蛉威,S)日丹,矩陣S的第ij個元素表示第i個和第j個屬性的協方差。協方差矩陣給出所有的屬性對之間的散布度量蚯嫌。
$$s_{ij}=covariance(x_i,x_j)=\frac{1}{m-1}\sum\limits_{k=1}^{m}(x_{ki}-\bar{x_i})(x_{kj}-\bar{x_j}),x_{ki}和x_{kj}$$分別表示第k個對象的第i個和第j個屬性的值哲虾。
協方差矩陣描述了數據集所有數據在各屬性對上的聯合散布情況,體現的是屬性取值的情況择示,雖然矩陣元素為0表示該屬性對不具有線性關系束凑,但并不能給出關聯程度,需要相關矩陣(correlation matrix)給出各屬性間的相關性栅盲。
$r_{ij}=correlation(x_i,x_j)=\frac{covariance(x_i,x_j)}{s_is_j}$,$s_i$和$s_j$分別表示$x_i$和$x_j$的方差汪诉,R的對角線元素顯然為1(x與x自身的相關性),其他元素在-1到1之間谈秫。
可視化
可視化的目標是形成可視化信息的人工解釋和信息的意境模型扒寄。
一般概念
- 表示:數據到圖形元素的映射。這是可視化的第一步拟烫,將數據信息映射成可視形式该编。
- 對象的三種表示方式:
- 考慮單個分類屬性:根據該屬性值將對象聚成類。
- 具有多個屬性:將對象顯示為表的一行或列硕淑,或顯示為一條線课竣。
- 對象也常常被解釋為n維空間中的點。
- 對于屬性:其表示取決于屬性的類型置媳。每個分類屬性可以映射到不同的位置于樟、顏色、形狀拇囊、尺寸等等迂曲。
- 難點:可視化的主要難點是確定一種技術,能表達數據的內在聯系寥袭,如對象之間奢米、屬性之間的聯系。
- 對象的三種表示方式:
- 項的安排:可視化中纠永,項的安排對圖像的表達起到很大作用鬓长,如規(guī)則矩陣打亂行列之后可能很難看出其規(guī)律性。
- 選擇:數據集很大時尝江,圖像的顯示過密可能會掩蓋數據的信息涉波。因此需要適當的選取數據信息。
- 通常多屬性可以選取屬性子集做表達(通常是兩個屬性)炭序,維度不高的時候可以做屬性對(雙屬性)矩陣觀察啤覆。選取一對屬性的時候采用維歸約技術,如PCA惭聂。
- 數據點多的時候窗声,可以通過樣本抽查方式減少可視化的數據量。
可視化技術
可視化技術通常對于分析的數據是專用性的辜纲。
少量屬性的可視化
這里主要討論單個屬性觀測值的分布和兩個屬性值之間的關系笨觅。
- 莖葉圖拦耐,stem and leaf plot:觀測一維整形或連續(xù)數據的分布。類似與橫向的直方圖见剩。
- 直方圖杀糯,histogram:對于連續(xù)屬性值,通常采用分箱苍苞。也叫條形圖(bar plot)固翰,每個條形的面積正比于落在該區(qū)間的對象的個數。也可演變成相對頻率直方圖(relative frequency histogram)羹呵,用相對頻率代替值的計數骂际。
- 二維直方圖,two-dimensional histogram:三維圖形冈欢,三個正交的軸分別表示兩個屬性值和對應的數據對象的計數歉铝。
- 盒裝圖,box plot:用以顯示一維數值屬性分布的方法涛癌,實質是表達屬性所有取值區(qū)間上的10\25\50\75\90百分位數的取值犯戏,以及離群點。通過盒子中間[25,50,90]這三段兩個部分能看出數據的主體分布區(qū)間拳话。
- 餅圖先匪,pie chart:用于屬性取值較少的分類屬性,用圓的相對面積表達不同值的相對頻率弃衍,相比而言呀非,直方圖更常用。
- 百分位數圖(percentile plot)& 經驗累積分布圖(empirical cumlative function镜盯,CDF):百分位圖的兩軸分別為百分位值和該百分值時的屬性取值岸裙,再直線連接這一系列點形成折線圖,能看出各百分位的屬性取值速缆。經驗累積分布圖表達各屬性值的累積分布概率降允,橫軸為值的取值范圍,縱軸表達累計概率([0,1]之間)艺糜。
- 散布圖剧董,scatter plot:使用數據對象的兩個屬性值作為坐標軸,每個數據作為平面上的一個點破停,可以大致看出兩個屬性之間的聯系翅楼,或在給出類標號的情況下可以考察兩個屬性將類分開的程度。同時安排所有屬性對的散布圖得到一種散布圖矩陣(scatter plot matrix)真慢,可對比觀測出所有屬性對的聯系毅臊。當然散布圖還可以拓展為三維散布圖,根據三種屬性的取值情況在空間中繪制數據對象的點黑界。
時間空間數據可視化
- 等高線圖管嬉,contour plot:兩個屬性在指定平面上皂林,第三個屬性具有連續(xù)性,如溫度宠蚂、海拔等式撼,可采用等高線圖童社。
- 曲面圖求厕,surface plot:通常描述數學函數或變化相對較為光滑的物理曲面。
- 矢量場圖扰楼,vector field plot:略
- 低維切片:對于時間空間數據集呀癣,可用一組圖對某一維度“切片”,如對時間切片弦赖,每一幅圖只展現空間和其他數據信息项栏,而時間維度變化可通過一系列圖的對比變化得出。
高維數據可視化
- 矩陣:在用矩陣表達多維數據的時候蹬竖,若給出類標號沼沈,則重新排列數據矩陣的次序是有效的。
- 平行坐標系币厕,parallel coordinates:每個屬性是一個坐標軸列另,但所有的屬性不正交,而是平行的(類似于直方圖的做法旦装,但粒度和側重不同)页衙,對象用線表示。對象每個屬性的值映射到與該屬性關聯的坐標軸上的點阴绢,連接這些點店乐,就是該對象的表達。屬性坐標軸的次序對于結論直觀性影響很大呻袭。
- 星型坐標和Chernoff臉:略
可視化原則
ACCENT原則眨八,對于可視化方法的選取原則。
- 理解左电,apprehension
- 清晰廉侧,clarity
- 一致,consistency
- 有效券腔,efficientcy
- 必要伏穆,necessity
- 真實,truthfulness
OLAP和多維數據分析
OLAP纷纫,聯機分析處理枕扫,將數據集看做多維數組,每一行表示一個(或一類)對象辱魁,每一列是一個屬性烟瞧。當然可以進行合適的數據聚集等處理诗鸭。