第二章 數(shù)據(jù)

數(shù)據(jù)

圍繞4個方面展開數(shù)據(jù)的討論:

  • 數(shù)據(jù)類型:屬性的類型瓣蛀,數(shù)據(jù)集的類型浑度。
  • 數(shù)據(jù)質(zhì)量:必須解決的質(zhì)量問題包括存在的噪聲和離群點峻村,數(shù)據(jù)遺漏鉴象、數(shù)據(jù)不一致或重復(fù)奸忽、數(shù)據(jù)有偏差等情況。
  • 數(shù)據(jù)預(yù)處理:一方面提高數(shù)據(jù)的質(zhì)量挤渔,另一方面讓數(shù)據(jù)更好的適應(yīng)特定的數(shù)據(jù)挖掘技術(shù)或工具。
  • 根據(jù)數(shù)據(jù)聯(lián)系分析數(shù)據(jù):如找出數(shù)據(jù)對象之間的聯(lián)系风题,然后使用這些聯(lián)系而不是數(shù)據(jù)對象本身進行其余的分析蚂蕴。

數(shù)據(jù)類型

數(shù)據(jù)對象,數(shù)據(jù)集是數(shù)據(jù)對象的集合俯邓,數(shù)據(jù)對象也叫記錄骡楼、點、向量稽鞭、模式鸟整、事件、案例朦蕴、樣本篮条、觀測或?qū)嶓w。

屬性也叫變量吩抓,特征涉茧,字段,特性疹娶,維(attribute伴栓,variable,feature雨饺,field钳垮, dimension,characteristics)额港。

屬性類型

  • 確定應(yīng)對于屬性基本性質(zhì)的數(shù)值的性質(zhì)饺窿,如相異性、序移斩、加法肚医、乘法绢馍,根據(jù)這些性質(zhì),定義四種類型:標稱肠套,nominal痕貌;序數(shù),ordinal糠排;區(qū)間舵稠,interval;比率入宦,ratio哺徊。
  • 用值的個數(shù)描述屬性:離散,discrete乾闰;連續(xù)落追,continuous
  • 非對稱屬性:基于屬性的不同取值的重要性來考慮涯肩。對稱屬性轿钠,取不同值意義相同。非對稱屬性病苗,asymmetric attribute疗垛,出現(xiàn)非零屬性值才是重要的,如醫(yī)院關(guān)注positive值硫朦,而大部分檢查結(jié)果出現(xiàn)negative表示正常贷腕,通常醫(yī)生并不關(guān)注,僅對出現(xiàn)的positive才關(guān)注(出現(xiàn)癥狀)咬展。

數(shù)據(jù)集類型

數(shù)據(jù)集的一般特性:維度泽裳,dimensionality,數(shù)據(jù)對象具有的屬性數(shù)目破婆;稀疏性涮总,sparsity,通常具有非對稱屬性的數(shù)據(jù)集大多數(shù)數(shù)據(jù)對象的該屬性都是0祷舀,非零項占比不到1%瀑梗。分辨率,不同分辨率下得到的數(shù)據(jù)性質(zhì)也不同蔑鹦,所謂分辨率就是數(shù)據(jù)的尺度基準夺克,描述在時間上箕宙、空間上嚎朽、采集量上對對象觀測的程度。

數(shù)據(jù)集通常分為三類:記錄數(shù)據(jù)柬帕、基于圖形的數(shù)據(jù)和有序數(shù)據(jù)

  • 記錄數(shù)據(jù)哟忍,每個記錄包含固定的數(shù)據(jù)字段集狡门。數(shù)據(jù)矩陣,data matrix锅很,或模式矩陣其馏,pattern matrix,稀疏數(shù)據(jù)矩陣爆安。
  • 基于圖形的數(shù)據(jù):1)帶有對象之間聯(lián)系的屬性叛复,比如數(shù)據(jù)對象之間存在一種樹結(jié)構(gòu)。2)具有圖形對象的數(shù)據(jù)扔仓,如化合物結(jié)構(gòu)褐奥。
  • 有序數(shù)據(jù):時序數(shù)據(jù),sequential data翘簇,或稱時間數(shù)據(jù)撬码,temporal data,記錄數(shù)據(jù)的擴充版保,每個記錄之間存在一個時間關(guān)聯(lián)呜笑。序列數(shù)據(jù),sequence data彻犁,一個數(shù)據(jù)集合是各個實體的序列叫胁,如文檔是詞或字母的序列。時間序列數(shù)據(jù)汞幢,time series data曹抬,特殊的序列數(shù)據(jù),該序列數(shù)據(jù)的每一個數(shù)據(jù)實體又是一個時序數(shù)據(jù)急鳄。如一年十二個月的溫度記錄谤民,宏觀上是一個12條記錄的序列數(shù)據(jù),但是每一條記錄又是這個月的連續(xù)時間上的時序數(shù)據(jù)疾宏。空間數(shù)據(jù)张足,特點是空間自相關(guān)性,spatial autocorrelation坎藐,物理上靠近的對象具有相似性为牍。

數(shù)據(jù)質(zhì)量

數(shù)據(jù)質(zhì)量問題的檢測和糾正,叫做數(shù)據(jù)清理岩馍,data cleaning碉咆。

測量和數(shù)據(jù)收集中的問題:

  • 術(shù)語:測量誤差,measurement error蛀恩,記錄值與實際值不同疫铜。數(shù)據(jù)收集錯誤,data collection error双谆,遺漏數(shù)據(jù)或?qū)傩钥枪荆虿划?dāng)?shù)陌渌麛?shù)據(jù)對象等錯誤席揽。
  • 精度、偏倚和準確率:精度谓厘,precision幌羞,重復(fù)測量值之間的接近程度。偏倚竟稳,bias属桦,測量值與被測量之間的系統(tǒng)變差。準確率他爸,accuracy地啰,被測量的測量值與實際值之間的接近度。
  • 噪聲和偽像:噪聲是測量誤差的隨機部分讲逛。噪聲通常用于包含時間或空間分量的數(shù)據(jù)亏吝。改善噪聲的方法:魯棒算法,robust algorithm盏混。
  • 離群點蔚鸥,outlier:或稱異常,anomalous许赃,相對于該屬性的典型值來說不尋常的屬性值止喷。
  • 遺漏值:分為數(shù)據(jù)對象遺漏和屬性值的遺漏』炝模考慮遺漏點的處理弹谁,比如插值,擬合句喜,統(tǒng)計相似情況预愤,或直接忽略遺漏點等。
  • 不一致的值:包括數(shù)據(jù)與實際情況相離咳胃,數(shù)據(jù)不同屬性矛盾植康,如月薪與年薪不一致。
  • 重復(fù)數(shù)據(jù):去重復(fù)展懈,deduplication销睁。

應(yīng)用中的問題,及時數(shù)據(jù)采集測量是完美存崖,在使用中也會存在一下問題:

  • 時效性
  • 相關(guān)性冻记,如預(yù)測交通情況,若數(shù)據(jù)忽略駕駛員性別和年齡来惧,那么模型的精度就很差冗栗。因為性別和年齡與交通意外的相關(guān)性很強,這是不能忽略的數(shù)據(jù)內(nèi)容。
  • 抽樣偏倚問題贞瞒,sampling bias偶房,抽樣集合中不同類型的對象與它們在總體中的出現(xiàn)情況不成比例趁曼。如高端小區(qū)抽查工資水平作為整體勞動人民的平均薪資顯然是不合適的军浆。高端小區(qū)中“富人”和“窮人”的占比顯然和全國平均情況是不同的。

數(shù)據(jù)預(yù)處理

包括聚集挡闰,抽樣乒融,維歸約,特征子集選擇摄悯,特征創(chuàng)建赞季,離散化和二元化,變量變換奢驯。

  • 聚集申钩,aggregation,將兩個或多個對象合并成單個對象瘪阁。定量屬性通常用求和或平均數(shù)來聚集撒遣,定性屬性可以忽略或匯總成為一個值為集合的屬性。
  • 抽樣管跺,選擇數(shù)據(jù)對象子集進行分析的方法义黎。需要樣本具有代表性,即樣本與原數(shù)據(jù)集具有相同性質(zhì)豁跑。方法:無放回抽樣廉涕、有放回抽樣、分層抽樣艇拍,漸進抽樣(propressive sampling)狐蜕。抽樣需要考慮樣本容量問題
  • 維歸約:作用是可以刪除不相關(guān)的特征并降低噪聲卸夕,避免維災(zāi)難馏鹤,同時可以使模型更容易理解,且更容易數(shù)據(jù)可視化娇哆。方法:通過創(chuàng)建新屬性湃累,將舊屬性合并在一起以降低數(shù)據(jù)集的維度。通過選擇舊屬性的子集得到新屬性碍讨。即特征子集選擇或特征選擇治力。常用的維歸約技術(shù)是線性代數(shù)技術(shù),將高維空間投影到低維空間勃黍,PCA宵统,主成分分析,principal components analysis,用以找出新的屬性(主成分)马澈,新屬性是原屬性的線性組合瓢省。另一種常用方法是SVD,奇異值分解痊班,singular value decomposition勤婚。
  • 特征子集選擇:使用特征的一個子集〉臃ィ可能存在信息丟失馒胆,但是當(dāng)數(shù)據(jù)集存在冗余或不相關(guān)的特性時,特征子集選擇就很適合凝果。常用三種方法:嵌入式方法祝迂,embedded approach,常用語決策樹算法器净。過濾方法型雳,filter approach,如使特征子集中的屬性對之間的相關(guān)度盡可能低山害。包裝方法纠俭,wrapper approach,又稱為黑盒粗恢「躺梗總體而言需要合適的方法搜索最優(yōu)的特征子集,同時需要驗證這種最優(yōu)性眷射。
  • 特征創(chuàng)建:由原來的屬性創(chuàng)建新的屬性集匙赞。方法:特征提取,feature extraction妖碉;映射數(shù)據(jù)到新空間涌庭,如傅里葉變換,F(xiàn)ourier transform欧宜,小波變換坐榆,wavelet transform;特征構(gòu)造冗茸,原特征信息是必要的席镀,但形式不適合挖掘算法,需要通過原特征對應(yīng)構(gòu)造符合挖掘算法的新特征夏漱。
  • 離散化(discretization)和二元化(binarization):這種屬性處理方法的根本原則是“對于用來分析數(shù)據(jù)的挖掘算法會產(chǎn)生最好的結(jié)果”
    • 二元化豪诲。
    • 連續(xù)屬性離散化:通常在分類或關(guān)聯(lián)分析中用到。分為兩個子任務(wù)(覺得需要的分類值挂绰,確定連續(xù)屬性到分類值的映射關(guān)系)屎篱。
  • 變量變換:variable transformation,用于變量的所有值的變換。1)簡單函數(shù)變換交播,用一個簡單的數(shù)據(jù)函數(shù)分別作用于每一個值重虑。2)規(guī)范化(standardization)或標準化(normalization)。

相似性和相異性度量

很多情況下秦士,一旦出現(xiàn)相似性或相異性缺厉,就不再需要原始數(shù)據(jù)。這種方法可以看作將數(shù)據(jù)變換到相似性或相異性空間伍宦,然后進行分析芽死。

鄰近度乏梁,proximity次洼,表示相近性或相異性。兩個對象之間的鄰近度時兩個對象對應(yīng)屬性之間的鄰近度函數(shù)遇骑÷艋伲考慮具有多個屬性的對象鄰近度的度量。

基本定義

  • 相似度落萎,similarity亥啦,兩個對象相似程度的數(shù)值度量,通常為非負值练链,且常在[0翔脱,1]間取值。

  • 相異度媒鼓,dissimilarity届吁,兩個對象差異程度的數(shù)值度量,也叫做距離绿鸣。

  • 變換:1)某一個區(qū)間內(nèi)的鄰近度值變換到一種標準化的區(qū)間(如[0,1])內(nèi)疚沐,以適應(yīng)特定算法或簡化運算。2)將相似度與相異度相互轉(zhuǎn)換潮模,以滿足不同的數(shù)據(jù)分析需求亮蛔。

    如相似度從[min_s,max_s]到[0,1]的變換可以用如下表達式:

    $s' = (s-min_s)/(max_s-min_s)$,相異度同理。

    通常擎厢,任何單調(diào)遞減函數(shù)都可以用來將相異度轉(zhuǎn)換到相似度(或相反)

簡單屬性間的鄰近度

具有若干屬性的對象之間的鄰近度用單個屬性的鄰近度的組合來定義究流。故首先考慮單個屬性間的鄰近度(兩個實體對于某單個屬性來說他們的鄰近距離,是相似還是相異)动遭。

數(shù)據(jù)對象之間的相異度

  • 歐幾里得距離芬探,Euclidean distance,描述兩個具有n維屬性的實體間的相異度(距離):

    $d(x,y) = \sqrt{\sum\limits_{k=1}n(x_k-y_k)2}$

  • 距離(如歐幾里得距離)存在一些性質(zhì):

    1. 非負性沽损。1)$d(x,y)\geq0$,2)僅當(dāng)x=y時有灯节,$d(x,y)=0$
    2. 對稱性。$d(x,y)=d(y,x)$
    3. 三角不等式炎疆。$d(x,z)\leqd(x,y)+d(y,z)$

    滿足三點的叫度量,當(dāng)然也存在不滿足這三點的相異度形入。

數(shù)據(jù)對象之間的相似度

通常相似度,三角不等式不成立亿遂,但對稱性和非負性通常成立浓若。

鄰近性度量實例

  • 二元數(shù)據(jù)的相似性度量:兩個對象,僅包含n維二元屬性蛇数。它們之間的相似度(相似系數(shù),similarity coefficient)可通過以下兩種方法求得:

    1. 簡單匹配系數(shù)碌上,SMC,Simple Matching Coefficient

      $SMC = \frac{值匹配的屬性個數(shù)}{屬性個數(shù)}=\frac{f_{11}+f_{00}}{f_{10}+f_{01}+f_{11}+f_{00}} $

      上式中浦徊,$f_{xy}$表示所有屬性中a對象取x馏予,且b對象取y的個數(shù)。

    2. Jaccard系數(shù)盔性,用來處理僅包含非對稱的二元屬性對象。因為SMC在處理非對稱屬性時蛹尝,由于1出現(xiàn)的此處非常少暂筝,故判定為兩個對象都是相似的。

      $J = \frac{匹配的個數(shù)}{不涉及0-0匹配的屬性個數(shù)}=\frac{f_{11}}{f_{10}+f_{01}+f_{11}} $

  • 余弦相似度:Jacccard在非二元屬性下的擴展焕襟。即對象的屬性不僅是非對稱的,而且是非二元的(多元鸵赖、連續(xù)等),則用余弦相似度(consine similarity)來度量相似性:

    $$\cos(x,y)=\frac{\vec{x}\cdot\vec{y}}{||x||\cdot||y||}$$

    可化簡為x的單位向量與y的單位向量的點積饵骨,故余弦相似度不考慮數(shù)據(jù)對象的量值

  • 廣義Jaccard系數(shù):又稱Tanimoto系數(shù)茫打,EJ表示妖混。

    $$EJ(x,y)=\frac{\vec{x}\cdot\vec{y}}{||x||2+||y||2-\vec{x}\cdot\vec{y}}$$

  • 相關(guān)性:兩個具有二元變量或連續(xù)變量的數(shù)據(jù)對象之間的相關(guān)性就是對象屬性之間的線性聯(lián)系的度量轮洋,為$\pm1$表示正負相關(guān),為0表示對象向量正交祥楣,不存在線性相關(guān)(任然可能為非線性相關(guān))汉柒。

鄰近度計算

考慮以下三個問題:

  • 屬性具有不同尺度(scale)或相關(guān)性如何處理。
  • 對象包含不同類型的屬性如何處理碾褂。
  • 屬性具有不同的權(quán)重(屬性對鄰近度的貢獻值不同)。
  1. 距離度量的標準化和相關(guān)性:采用Mahalanobis距離
  2. 組合異種屬性的相似度:屬性的類型不同時斋扰,總相似度可以定義為所有屬性的相似度的平均值(限對稱屬性)啃洋。當(dāng)數(shù)據(jù)屬性是非對稱屬性時,可直接忽略該屬性對的值都為0的情況宏娄。
  3. 使用權(quán)值:為不同屬性分配不同權(quán)值,通沉竿穑可以固定權(quán)值綜合為1卖宠。
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市筷畦,隨后出現(xiàn)的幾起案子刺洒,更是在濱河造成了極大的恐慌,老刑警劉巖逆航,帶你破解...
    沈念sama閱讀 206,013評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件因俐,死亡現(xiàn)場離奇詭異周偎,居然都是意外死亡撑帖,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,205評論 2 382
  • 文/潘曉璐 我一進店門袍嬉,熙熙樓的掌柜王于貴愁眉苦臉地迎上來灶平,“玉大人,你說我怎么就攤上這事逢享。” “怎么了弓柱?”我有些...
    開封第一講書人閱讀 152,370評論 0 342
  • 文/不壞的土叔 我叫張陵侧但,是天一觀的道長。 經(jīng)常有香客問我屁药,道長柏锄,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 55,168評論 1 278
  • 正文 為了忘掉前任缭嫡,我火速辦了婚禮抬闷,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘饶氏。我一直安慰自己,他們只是感情好古程,可當(dāng)我...
    茶點故事閱讀 64,153評論 5 371
  • 文/花漫 我一把揭開白布喊崖。 她就那樣靜靜地躺著雇逞,像睡著了一般茁裙。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上掉蔬,一...
    開封第一講書人閱讀 48,954評論 1 283
  • 那天矾瘾,我揣著相機與錄音,去河邊找鬼壕翩。 笑死,一個胖子當(dāng)著我的面吹牛北救,可吹牛的內(nèi)容都是我干的芜抒。 我是一名探鬼主播,決...
    沈念sama閱讀 38,271評論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼膛壹,長吁一口氣:“原來是場噩夢啊……” “哼唉堪!你這毒婦竟也來了肩民?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 36,916評論 0 259
  • 序言:老撾萬榮一對情侶失蹤灶搜,失蹤者是張志新(化名)和其女友劉穎工窍,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體患雏,經(jīng)...
    沈念sama閱讀 43,382評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡淹仑,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 35,877評論 2 323
  • 正文 我和宋清朗相戀三年肺孵,在試婚紗的時候發(fā)現(xiàn)自己被綠了颜阐。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 37,989評論 1 333
  • 序言:一個原本活蹦亂跳的男人離奇死亡瑰艘,死狀恐怖肤舞,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情萨赁,我是刑警寧澤,帶...
    沈念sama閱讀 33,624評論 4 322
  • 正文 年R本政府宣布敲董,位于F島的核電站慰安,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏萄窜。R本人自食惡果不足惜撒桨,卻給世界環(huán)境...
    茶點故事閱讀 39,209評論 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望凤类。 院中可真熱鬧,春花似錦佃延、人聲如沸夷磕。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,199評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽撕攒。三九已至烘浦,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間闷叉,已是汗流浹背脊阴。 一陣腳步聲響...
    開封第一講書人閱讀 31,418評論 1 260
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留品擎,地道東北人备徐。 一個月前我還...
    沈念sama閱讀 45,401評論 2 352
  • 正文 我出身青樓,卻偏偏與公主長得像蜜猾,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子衍菱,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 42,700評論 2 345

推薦閱讀更多精彩內(nèi)容