第三章數據探索

[TOC]

探索數據

內容：匯總統計翩迈、可視化和聯機分析處理（OLAP）
作用：數據初步探究膘流，利于選擇合適的數據預處理和數據分析技術动漾。

匯總統計

匯總統計丁屎，summary statistics，用單個數或數的小集合捕獲很大的值集的各種特征旱眯。

頻率（frequence）和眾數（mode）：值x的頻率定義為所有對象中該屬性取值為x的對象比率晨川。眾數定義為具有最高頻率的值。頻率和眾數能反應一個屬性的值的取值情況删豺，但常常對連續(xù)變量來說無效共虑，因為連續(xù)變量的單個值可能出現次數不過1.
百分位數：在[min,max]區(qū)間上劃分百分比點，選出每個點上的數呀页，即為p百分位數妈拌。如值區(qū)間為[0,100]的值x，$$min(x)=0=x_{0%},max(x)=100=x_{100%}$$.百分位數的條件是數據有序蓬蝶。
位置度量——均值和中位數：連續(xù)數據常統計均值（mean）和中位數（median）尘分，他們是值集位置的度量。均值就是平均數丸氛，中位數就是有序序列最中間的某一個值（元素數量為奇數）或中間兩個值的平均值（元素數量為偶數）培愁。受離群點、異常值影響缓窜，為此提出截斷均值（trimmed mean）定续，將有序列的P個百分位去除之后再計算均值谍咆，顯然這P個百分位會對半分到高端和低端，即去掉最高的百分之0.5P私股，再去掉最低的百分之0.5P摹察，剩下的數做平均。此處截斷針對的值的個數倡鲸，如100個實體港粱，截斷百分之10，則排序后旦签，刪除最高5個數查坪，最低5個數。
散布度量——極差和方差：極差（range）通俗理解為取值范圍宁炫，$$range(x)=max(x)-min(x)$$,顯然極差是極受異常點影響的偿曙。而方差（variance）、標準差（standard deviation）通過均值計算而來羔巢，均值也是受離群點影響的望忆，故它倆也是對離群點敏感的。$$variance(x)=s_x^{2=\frac{1}{m-1}\sum\limits_{i=1}}m(x_i-\bar{x})^2$$,而標準差s取方差開方即可竿秆。

針對上述離群點影響問題启摄，提出了絕對平均偏差（absolute average deviation，AAD）幽钢、中位數絕對偏差（median absolute deviation歉备，MAD）、四分位數極差（interquartile range匪燕，IQR）蕾羊。

$$AAD(x)=\frac{1}{m}\sum\limits_{i=1}^m{|x_i-\bar{x}|}$$

$$MAD(x)=median({|x_1-\bar{x}|,...,|x_m-\bar{x}|})$$

$$interquartile range(x)=x_{75%}-x_{20%}$$，75%-25%的極差帽驯，消除了離群點影響
多元匯總統計：之前都是針對單個屬性龟再，若數據對象包含多個屬性（多維、多元數據）尼变，數據對象的均值可用每個屬性的均值表示利凑。多元數據中，各個屬性間通常不是獨立的嫌术，考慮每個屬性的散布可能作用不大哀澈，可以嘗試分析兩兩屬性間聯合的散布情況，即協方差矩陣（covariance matrix蛉威，S）日丹，矩陣S的第ij個元素表示第i個和第j個屬性的協方差。協方差矩陣給出所有的屬性對之間的散布度量蚯嫌。

$$s_{ij}=covariance(x_i,x_j)=\frac{1}{m-1}\sum\limits_{k=1}^{m}(x_{ki}-\bar{x_i})(x_{kj}-\bar{x_j}),x_{ki}和x_{kj}$$分別表示第k個對象的第i個和第j個屬性的值哲虾。

協方差矩陣描述了數據集所有數據在各屬性對上的聯合散布情況，體現的是屬性取值的情況择示，雖然矩陣元素為0表示該屬性對不具有線性關系束凑，但并不能給出關聯程度，需要相關矩陣（correlation matrix）給出各屬性間的相關性栅盲。

$r_{ij}=correlation(x_i,x_j)=\frac{covariance(x_i,x_j)}{s_is_j}$,$s_i$和$s_j$分別表示$x_i$和$x_j$的方差汪诉，R的對角線元素顯然為1（x與x自身的相關性），其他元素在-1到1之間谈秫。

可視化

可視化的目標是形成可視化信息的人工解釋和信息的意境模型扒寄。

一般概念

表示：數據到圖形元素的映射。這是可視化的第一步拟烫，將數據信息映射成可視形式该编。
- 對象的三種表示方式：
  - 考慮單個分類屬性：根據該屬性值將對象聚成類。
  - 具有多個屬性：將對象顯示為表的一行或列硕淑，或顯示為一條線课竣。
  - 對象也常常被解釋為n維空間中的點。
- 對于屬性：其表示取決于屬性的類型置媳。每個分類屬性可以映射到不同的位置于樟、顏色、形狀拇囊、尺寸等等迂曲。
- 難點：可視化的主要難點是確定一種技術，能表達數據的內在聯系寥袭，如對象之間奢米、屬性之間的聯系。
項的安排：可視化中纠永，項的安排對圖像的表達起到很大作用鬓长，如規(guī)則矩陣打亂行列之后可能很難看出其規(guī)律性。
選擇：數據集很大時尝江，圖像的顯示過密可能會掩蓋數據的信息涉波。因此需要適當的選取數據信息。
- 通常多屬性可以選取屬性子集做表達（通常是兩個屬性）炭序，維度不高的時候可以做屬性對（雙屬性）矩陣觀察啤覆。選取一對屬性的時候采用維歸約技術，如PCA惭聂。
- 數據點多的時候窗声，可以通過樣本抽查方式減少可視化的數據量。

可視化技術

可視化技術通常對于分析的數據是專用性的辜纲。

少量屬性的可視化

這里主要討論單個屬性觀測值的分布和兩個屬性值之間的關系笨觅。

莖葉圖拦耐，stem and leaf plot：觀測一維整形或連續(xù)數據的分布。類似與橫向的直方圖见剩。
直方圖杀糯，histogram：對于連續(xù)屬性值，通常采用分箱苍苞。也叫條形圖（bar plot）固翰，每個條形的面積正比于落在該區(qū)間的對象的個數。也可演變成相對頻率直方圖（relative frequency histogram）羹呵，用相對頻率代替值的計數骂际。
二維直方圖，two-dimensional histogram：三維圖形冈欢，三個正交的軸分別表示兩個屬性值和對應的數據對象的計數歉铝。
盒裝圖，box plot：用以顯示一維數值屬性分布的方法涛癌，實質是表達屬性所有取值區(qū)間上的10\25\50\75\90百分位數的取值犯戏，以及離群點。通過盒子中間[25,50,90]這三段兩個部分能看出數據的主體分布區(qū)間拳话。
餅圖先匪，pie chart：用于屬性取值較少的分類屬性，用圓的相對面積表達不同值的相對頻率弃衍，相比而言呀非，直方圖更常用。
百分位數圖（percentile plot）& 經驗累積分布圖（empirical cumlative function镜盯，CDF）：百分位圖的兩軸分別為百分位值和該百分值時的屬性取值岸裙，再直線連接這一系列點形成折線圖，能看出各百分位的屬性取值速缆。經驗累積分布圖表達各屬性值的累積分布概率降允，橫軸為值的取值范圍，縱軸表達累計概率（[0,1]之間）艺糜。
散布圖剧董，scatter plot：使用數據對象的兩個屬性值作為坐標軸，每個數據作為平面上的一個點破停，可以大致看出兩個屬性之間的聯系翅楼，或在給出類標號的情況下可以考察兩個屬性將類分開的程度。同時安排所有屬性對的散布圖得到一種散布圖矩陣（scatter plot matrix）真慢，可對比觀測出所有屬性對的聯系毅臊。當然散布圖還可以拓展為三維散布圖，根據三種屬性的取值情況在空間中繪制數據對象的點黑界。

時間空間數據可視化

等高線圖管嬉，contour plot：兩個屬性在指定平面上皂林，第三個屬性具有連續(xù)性，如溫度宠蚂、海拔等式撼，可采用等高線圖童社。
曲面圖求厕，surface plot：通常描述數學函數或變化相對較為光滑的物理曲面。
矢量場圖扰楼，vector field plot：略
低維切片：對于時間空間數據集呀癣，可用一組圖對某一維度“切片”，如對時間切片弦赖，每一幅圖只展現空間和其他數據信息项栏，而時間維度變化可通過一系列圖的對比變化得出。

高維數據可視化

矩陣：在用矩陣表達多維數據的時候蹬竖，若給出類標號沼沈，則重新排列數據矩陣的次序是有效的。
平行坐標系币厕，parallel coordinates：每個屬性是一個坐標軸列另，但所有的屬性不正交，而是平行的（類似于直方圖的做法旦装，但粒度和側重不同）页衙，對象用線表示。對象每個屬性的值映射到與該屬性關聯的坐標軸上的點阴绢，連接這些點店乐，就是該對象的表達。屬性坐標軸的次序對于結論直觀性影響很大呻袭。
星型坐標和Chernoff臉：略

可視化原則

ACCENT原則眨八，對于可視化方法的選取原則。

理解左电，apprehension
清晰廉侧，clarity
一致，consistency
有效券腔，efficientcy
必要伏穆，necessity
真實，truthfulness

OLAP和多維數據分析

OLAP纷纫，聯機分析處理枕扫，將數據集看做多維數組，每一行表示一個（或一類）對象辱魁，每一列是一個屬性烟瞧。當然可以進行合適的數據聚集等處理诗鸭。

?著作權歸作者所有,轉載或內容合作請聯系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市参滴，隨后出現的幾起案子强岸，更是在濱河造成了極大的恐慌，老刑警劉巖砾赔，帶你破解...
沈念sama閱讀 206,013評論 6贊 481
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件蝌箍，死亡現場離奇詭異，居然都是意外死亡暴心，警方通過查閱死者的電腦和手機妓盲，發(fā)現死者居然都...
沈念sama閱讀 88,205評論 2贊 382
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來专普，“玉大人悯衬，你說我怎么就攤上這事√醇校” “怎么了筋粗？”我有些...
開封第一講書人閱讀 152,370評論 0贊 342
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長炸渡。經常有香客問我娜亿，道長，這世上最難降的妖魔是什么偶摔？我笑而不...
開封第一講書人閱讀 55,168評論 1贊 278
?港島之戀（遺憾婚禮）
正文為了忘掉前任暇唾，我火速辦了婚禮，結果婚禮上辰斋，老公的妹妹穿的比我還像新娘策州。我一直安慰自己，他們只是感情好宫仗，可當我...
茶點故事閱讀 64,153評論 5贊 371
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布够挂。她就那樣靜靜地躺著，像睡著了一般藕夫。火紅的嫁衣襯著肌膚如雪孽糖。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 48,954評論 1贊 283
城市分裂傳說
那天毅贮，我揣著相機與錄音办悟，去河邊找鬼。笑死滩褥，一個胖子當著我的面吹牛病蛉，可吹牛的內容都是我干的。我是一名探鬼主播，決...
沈念sama閱讀 38,271評論 3贊 399
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼铺然，長吁一口氣：“原來是場噩夢啊……” “哼俗孝！你這毒婦竟也來了？” 一聲冷哼從身側響起魄健，我...
開封第一講書人閱讀 36,916評論 0贊 259
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤赋铝，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后沽瘦，有當地人在樹林里發(fā)現了一具尸體革骨，經...
沈念sama閱讀 43,382評論 1贊 300
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內容為張勛視角年9月15日...
茶點故事閱讀 35,877評論 2贊 323
?白月光啟示錄
正文我和宋清朗相戀三年其垄，在試婚紗的時候發(fā)現自己被綠了苛蒲。大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片卤橄。...
茶點故事閱讀 37,989評論 1贊 333
活死人
序言：一個原本活蹦亂跳的男人離奇死亡绿满，死狀恐怖，靈堂內的尸體忽然破棺而出窟扑，到底是詐尸還是另有隱情喇颁，我是刑警寧澤，帶...
沈念sama閱讀 33,624評論 4贊 322
?日本核電站爆炸內幕
正文年R本政府宣布嚎货，位于F島的核電站橘霎，受9級特大地震影響，放射性物質發(fā)生泄漏殖属。R本人自食惡果不足惜姐叁，卻給世界環(huán)境...
茶點故事閱讀 39,209評論 3贊 307
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望洗显。院中可真熱鬧外潜，春花似錦、人聲如沸挠唆。這莊子的主人今日做“春日...
開封第一講書人閱讀 30,199評論 0贊 19
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽玄组。三九已至滔驾，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間俄讹，已是汗流浹背哆致。一陣腳步聲響...
開封第一講書人閱讀 31,418評論 1贊 260
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留患膛，地道東北人摊阀。一個月前我還...
沈念sama閱讀 45,401評論 2贊 352
代替公主和親
正文我出身青樓，卻偏偏與公主長得像，于是被迫代替她去往敵國和親驹溃。傳聞我的和親對象是個殘疾皇子城丧，可洞房花燭夜當晚...
茶點故事閱讀 42,700評論 2贊 345

第三章 數據探索