第三章 數據探索

[TOC]


探索數據

  • 內容:匯總統計翩迈、可視化和聯機分析處理(OLAP)
  • 作用:數據初步探究膘流,利于選擇合適的數據預處理和數據分析技術动漾。

匯總統計

匯總統計丁屎,summary statistics,用單個數或數的小集合捕獲很大的值集的各種特征旱眯。

  • 頻率(frequence)眾數(mode):值x的頻率定義為所有對象中該屬性取值為x的對象比率晨川。眾數定義為具有最高頻率的值。頻率和眾數能反應一個屬性的值的取值情況删豺,但常常對連續(xù)變量來說無效共虑,因為連續(xù)變量的單個值可能出現次數不過1.

  • 百分位數:在[min,max]區(qū)間上劃分百分比點,選出每個點上的數呀页,即為p百分位數妈拌。如值區(qū)間為[0,100]的值x,$$min(x)=0=x_{0%},max(x)=100=x_{100%}$$.百分位數的條件是數據有序蓬蝶。

  • 位置度量——均值和中位數:連續(xù)數據常統計均值(mean)和中位數(median)尘分,他們是值集位置的度量。均值就是平均數丸氛,中位數就是有序序列最中間的某一個值(元素數量為奇數)或中間兩個值的平均值(元素數量為偶數)培愁。受離群點、異常值影響缓窜,為此提出截斷均值(trimmed mean)定续,將有序列的P個百分位去除之后再計算均值谍咆,顯然這P個百分位會對半分到高端和低端,即去掉最高的百分之0.5P私股,再去掉最低的百分之0.5P摹察,剩下的數做平均。此處截斷針對的值的個數倡鲸,如100個實體港粱,截斷百分之10,則排序后旦签,刪除最高5個數查坪,最低5個數

  • 散布度量——極差和方差:極差(range)通俗理解為取值范圍宁炫,$$range(x)=max(x)-min(x)$$,顯然極差是極受異常點影響的偿曙。而方差(variance)、標準差(standard deviation)通過均值計算而來羔巢,均值也是受離群點影響的望忆,故它倆也是對離群點敏感的。$$variance(x)=s_x2=\frac{1}{m-1}\sum\limits_{i=1}m(x_i-\bar{x})^2$$,而標準差s取方差開方即可竿秆。

    針對上述離群點影響問題启摄,提出了絕對平均偏差(absolute average deviation,AAD)幽钢、中位數絕對偏差(median absolute deviation歉备,MAD)、四分位數極差(interquartile range匪燕,IQR)蕾羊。

    $$AAD(x)=\frac{1}{m}\sum\limits_{i=1}^m{|x_i-\bar{x}|}$$

    $$MAD(x)=median({|x_1-\bar{x}|,...,|x_m-\bar{x}|})$$

    $$interquartile range(x)=x_{75%}-x_{20%}$$,75%-25%的極差帽驯,消除了離群點影響

  • 多元匯總統計:之前都是針對單個屬性龟再,若數據對象包含多個屬性(多維、多元數據)尼变,數據對象的均值可用每個屬性的均值表示利凑。多元數據中,各個屬性間通常不是獨立的嫌术,考慮每個屬性的散布可能作用不大哀澈,可以嘗試分析兩兩屬性間聯合的散布情況,即協方差矩陣(covariance matrix蛉威,S)日丹,矩陣S的第ij個元素表示第i個和第j個屬性的協方差。協方差矩陣給出所有的屬性對之間的散布度量蚯嫌。

    $$s_{ij}=covariance(x_i,x_j)=\frac{1}{m-1}\sum\limits_{k=1}^{m}(x_{ki}-\bar{x_i})(x_{kj}-\bar{x_j}),x_{ki}和x_{kj}$$分別表示第k個對象的第i個和第j個屬性的值哲虾。

    協方差矩陣描述了數據集所有數據在各屬性對上的聯合散布情況,體現的是屬性取值的情況择示,雖然矩陣元素為0表示該屬性對不具有線性關系束凑,但并不能給出關聯程度,需要相關矩陣(correlation matrix)給出各屬性間的相關性栅盲。

    $r_{ij}=correlation(x_i,x_j)=\frac{covariance(x_i,x_j)}{s_is_j}$,$s_i$和$s_j$分別表示$x_i$和$x_j$的方差汪诉,R的對角線元素顯然為1(x與x自身的相關性),其他元素在-1到1之間谈秫。


可視化

可視化的目標是形成可視化信息的人工解釋和信息的意境模型扒寄。

一般概念

  • 表示:數據到圖形元素的映射。這是可視化的第一步拟烫,將數據信息映射成可視形式该编。
    • 對象的三種表示方式:
      • 考慮單個分類屬性:根據該屬性值將對象聚成類。
      • 具有多個屬性:將對象顯示為表的一行或列硕淑,或顯示為一條線课竣。
      • 對象也常常被解釋為n維空間中的點。
    • 對于屬性:其表示取決于屬性的類型置媳。每個分類屬性可以映射到不同的位置于樟、顏色、形狀拇囊、尺寸等等迂曲。
    • 難點:可視化的主要難點是確定一種技術,能表達數據的內在聯系寥袭,如對象之間奢米、屬性之間的聯系。
  • 項的安排:可視化中纠永,項的安排對圖像的表達起到很大作用鬓长,如規(guī)則矩陣打亂行列之后可能很難看出其規(guī)律性。
  • 選擇:數據集很大時尝江,圖像的顯示過密可能會掩蓋數據的信息涉波。因此需要適當的選取數據信息。
    • 通常多屬性可以選取屬性子集做表達(通常是兩個屬性)炭序,維度不高的時候可以做屬性對(雙屬性)矩陣觀察啤覆。選取一對屬性的時候采用維歸約技術,如PCA惭聂。
    • 數據點多的時候窗声,可以通過樣本抽查方式減少可視化的數據量。

可視化技術

可視化技術通常對于分析的數據是專用性的辜纲。

少量屬性的可視化

這里主要討論單個屬性觀測值的分布和兩個屬性值之間的關系笨觅。

  • 莖葉圖拦耐,stem and leaf plot:觀測一維整形或連續(xù)數據的分布。類似與橫向的直方圖见剩。
  • 直方圖杀糯,histogram:對于連續(xù)屬性值,通常采用分箱苍苞。也叫條形圖(bar plot)固翰,每個條形的面積正比于落在該區(qū)間的對象的個數。也可演變成相對頻率直方圖(relative frequency histogram)羹呵,用相對頻率代替值的計數骂际。
  • 二維直方圖,two-dimensional histogram:三維圖形冈欢,三個正交的軸分別表示兩個屬性值和對應的數據對象的計數歉铝。
  • 盒裝圖,box plot:用以顯示一維數值屬性分布的方法涛癌,實質是表達屬性所有取值區(qū)間上的10\25\50\75\90百分位數的取值犯戏,以及離群點。通過盒子中間[25,50,90]這三段兩個部分能看出數據的主體分布區(qū)間拳话。
  • 餅圖先匪,pie chart:用于屬性取值較少的分類屬性,用圓的相對面積表達不同值的相對頻率弃衍,相比而言呀非,直方圖更常用。
  • 百分位數圖(percentile plot)& 經驗累積分布圖(empirical cumlative function镜盯,CDF):百分位圖的兩軸分別為百分位值和該百分值時的屬性取值岸裙,再直線連接這一系列點形成折線圖,能看出各百分位的屬性取值速缆。經驗累積分布圖表達各屬性值的累積分布概率降允,橫軸為值的取值范圍,縱軸表達累計概率([0,1]之間)艺糜。
  • 散布圖剧董,scatter plot:使用數據對象的兩個屬性值作為坐標軸,每個數據作為平面上的一個點破停,可以大致看出兩個屬性之間的聯系翅楼,或在給出類標號的情況下可以考察兩個屬性將類分開的程度。同時安排所有屬性對的散布圖得到一種散布圖矩陣(scatter plot matrix)真慢,可對比觀測出所有屬性對的聯系毅臊。當然散布圖還可以拓展為三維散布圖,根據三種屬性的取值情況在空間中繪制數據對象的點黑界。

時間空間數據可視化

  • 等高線圖管嬉,contour plot:兩個屬性在指定平面上皂林,第三個屬性具有連續(xù)性,如溫度宠蚂、海拔等式撼,可采用等高線圖童社。
  • 曲面圖求厕,surface plot:通常描述數學函數或變化相對較為光滑的物理曲面。
  • 矢量場圖扰楼,vector field plot:略
  • 低維切片:對于時間空間數據集呀癣,可用一組圖對某一維度“切片”,如對時間切片弦赖,每一幅圖只展現空間和其他數據信息项栏,而時間維度變化可通過一系列圖的對比變化得出。

高維數據可視化

  • 矩陣:在用矩陣表達多維數據的時候蹬竖,若給出類標號沼沈,則重新排列數據矩陣的次序是有效的。
  • 平行坐標系币厕,parallel coordinates:每個屬性是一個坐標軸列另,但所有的屬性不正交,而是平行的(類似于直方圖的做法旦装,但粒度和側重不同)页衙,對象用線表示。對象每個屬性的值映射到與該屬性關聯的坐標軸上的點阴绢,連接這些點店乐,就是該對象的表達。屬性坐標軸的次序對于結論直觀性影響很大呻袭。
  • 星型坐標和Chernoff臉:略

可視化原則

ACCENT原則眨八,對于可視化方法的選取原則。

  • 理解左电,apprehension
  • 清晰廉侧,clarity
  • 一致,consistency
  • 有效券腔,efficientcy
  • 必要伏穆,necessity
  • 真實,truthfulness

OLAP和多維數據分析

OLAP纷纫,聯機分析處理枕扫,將數據集看做多維數組,每一行表示一個(或一類)對象辱魁,每一列是一個屬性烟瞧。當然可以進行合適的數據聚集等處理诗鸭。

?著作權歸作者所有,轉載或內容合作請聯系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市参滴,隨后出現的幾起案子强岸,更是在濱河造成了極大的恐慌,老刑警劉巖砾赔,帶你破解...
    沈念sama閱讀 206,013評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件蝌箍,死亡現場離奇詭異,居然都是意外死亡暴心,警方通過查閱死者的電腦和手機妓盲,發(fā)現死者居然都...
    沈念sama閱讀 88,205評論 2 382
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來专普,“玉大人悯衬,你說我怎么就攤上這事√醇校” “怎么了筋粗?”我有些...
    開封第一講書人閱讀 152,370評論 0 342
  • 文/不壞的土叔 我叫張陵,是天一觀的道長炸渡。 經常有香客問我娜亿,道長,這世上最難降的妖魔是什么偶摔? 我笑而不...
    開封第一講書人閱讀 55,168評論 1 278
  • 正文 為了忘掉前任暇唾,我火速辦了婚禮,結果婚禮上辰斋,老公的妹妹穿的比我還像新娘策州。我一直安慰自己,他們只是感情好宫仗,可當我...
    茶點故事閱讀 64,153評論 5 371
  • 文/花漫 我一把揭開白布够挂。 她就那樣靜靜地躺著,像睡著了一般藕夫。 火紅的嫁衣襯著肌膚如雪孽糖。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 48,954評論 1 283
  • 那天毅贮,我揣著相機與錄音办悟,去河邊找鬼。 笑死滩褥,一個胖子當著我的面吹牛病蛉,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 38,271評論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼铺然,長吁一口氣:“原來是場噩夢啊……” “哼俗孝!你這毒婦竟也來了?” 一聲冷哼從身側響起魄健,我...
    開封第一講書人閱讀 36,916評論 0 259
  • 序言:老撾萬榮一對情侶失蹤赋铝,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后沽瘦,有當地人在樹林里發(fā)現了一具尸體革骨,經...
    沈念sama閱讀 43,382評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 35,877評論 2 323
  • 正文 我和宋清朗相戀三年其垄,在試婚紗的時候發(fā)現自己被綠了苛蒲。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片卤橄。...
    茶點故事閱讀 37,989評論 1 333
  • 序言:一個原本活蹦亂跳的男人離奇死亡绿满,死狀恐怖,靈堂內的尸體忽然破棺而出窟扑,到底是詐尸還是另有隱情喇颁,我是刑警寧澤,帶...
    沈念sama閱讀 33,624評論 4 322
  • 正文 年R本政府宣布嚎货,位于F島的核電站橘霎,受9級特大地震影響,放射性物質發(fā)生泄漏殖属。R本人自食惡果不足惜姐叁,卻給世界環(huán)境...
    茶點故事閱讀 39,209評論 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望洗显。 院中可真熱鬧外潜,春花似錦、人聲如沸挠唆。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,199評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽玄组。三九已至滔驾,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間俄讹,已是汗流浹背哆致。 一陣腳步聲響...
    開封第一講書人閱讀 31,418評論 1 260
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留患膛,地道東北人摊阀。 一個月前我還...
    沈念sama閱讀 45,401評論 2 352
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親驹溃。 傳聞我的和親對象是個殘疾皇子城丧,可洞房花燭夜當晚...
    茶點故事閱讀 42,700評論 2 345

推薦閱讀更多精彩內容

  • 首頁 資訊 文章 資源 小組 相親 登錄 注冊 首頁 最新文章 IT 職場 前端 后端 移動端 數據庫 運維 其他...
    Helen_Cat閱讀 3,843評論 1 10
  • Spring Cloud為開發(fā)人員提供了快速構建分布式系統中一些常見模式的工具(例如配置管理,服務發(fā)現豌鹤,斷路器亡哄,智...
    卡卡羅2017閱讀 134,599評論 18 139
  • 國家電網公司企業(yè)標準(Q/GDW)- 面向對象的用電信息數據交換協議 - 報批稿:20170802 前言: 排版 ...
    庭說閱讀 10,868評論 6 13
  • 你不主動,我不主動,然后我們的關系就慢慢消失了,人與人之間沒有誰離不開誰,只有誰不珍惜誰,一個轉身,兩個世界。 一...
    一只貓2閱讀 123評論 0 1
  • 如果一天有32個小時布疙, 工作也只是八個小時蚊惯, 那夢里的時光就會長很多。 每天晚上灵临, 我們都可以一起悠閑的吃個飯截型, ...
    苦一笑閱讀 287評論 2 3