數(shù)據(jù)
圍繞4個方面展開數(shù)據(jù)的討論:
- 數(shù)據(jù)類型:屬性的類型瓣蛀,數(shù)據(jù)集的類型浑度。
- 數(shù)據(jù)質(zhì)量:必須解決的質(zhì)量問題包括存在的噪聲和離群點峻村,數(shù)據(jù)遺漏鉴象、數(shù)據(jù)不一致或重復(fù)奸忽、數(shù)據(jù)有偏差等情況。
- 數(shù)據(jù)預(yù)處理:一方面提高數(shù)據(jù)的質(zhì)量挤渔,另一方面讓數(shù)據(jù)更好的適應(yīng)特定的數(shù)據(jù)挖掘技術(shù)或工具。
- 根據(jù)數(shù)據(jù)聯(lián)系分析數(shù)據(jù):如找出數(shù)據(jù)對象之間的聯(lián)系风题,然后使用這些聯(lián)系而不是數(shù)據(jù)對象本身進行其余的分析蚂蕴。
數(shù)據(jù)類型
數(shù)據(jù)對象,數(shù)據(jù)集是數(shù)據(jù)對象的集合俯邓,數(shù)據(jù)對象也叫記錄骡楼、點、向量稽鞭、模式鸟整、事件、案例朦蕴、樣本篮条、觀測或?qū)嶓w。
屬性也叫變量吩抓,特征涉茧,字段,特性疹娶,維(attribute伴栓,variable,feature雨饺,field钳垮, dimension,characteristics)额港。
屬性類型
- 確定應(yīng)對于屬性基本性質(zhì)的數(shù)值的性質(zhì)饺窿,如相異性、序移斩、加法肚医、乘法绢馍,根據(jù)這些性質(zhì),定義四種類型:標稱肠套,nominal痕貌;序數(shù),ordinal糠排;區(qū)間舵稠,interval;比率入宦,ratio哺徊。
- 用值的個數(shù)描述屬性:離散,discrete乾闰;連續(xù)落追,continuous。
- 非對稱屬性:基于屬性的不同取值的重要性來考慮涯肩。對稱屬性轿钠,取不同值意義相同。非對稱屬性病苗,asymmetric attribute疗垛,出現(xiàn)非零屬性值才是重要的,如醫(yī)院關(guān)注positive值硫朦,而大部分檢查結(jié)果出現(xiàn)negative表示正常贷腕,通常醫(yī)生并不關(guān)注,僅對出現(xiàn)的positive才關(guān)注(出現(xiàn)癥狀)咬展。
數(shù)據(jù)集類型
數(shù)據(jù)集的一般特性:維度泽裳,dimensionality,數(shù)據(jù)對象具有的屬性數(shù)目破婆;稀疏性涮总,sparsity,通常具有非對稱屬性的數(shù)據(jù)集大多數(shù)數(shù)據(jù)對象的該屬性都是0祷舀,非零項占比不到1%瀑梗。分辨率,不同分辨率下得到的數(shù)據(jù)性質(zhì)也不同蔑鹦,所謂分辨率就是數(shù)據(jù)的尺度基準夺克,描述在時間上箕宙、空間上嚎朽、采集量上對對象觀測的程度。
數(shù)據(jù)集通常分為三類:記錄數(shù)據(jù)柬帕、基于圖形的數(shù)據(jù)和有序數(shù)據(jù)
- 記錄數(shù)據(jù)哟忍,每個記錄包含固定的數(shù)據(jù)字段集狡门。數(shù)據(jù)矩陣,data matrix锅很,或模式矩陣其馏,pattern matrix,稀疏數(shù)據(jù)矩陣爆安。
- 基于圖形的數(shù)據(jù):1)帶有對象之間聯(lián)系的屬性叛复,比如數(shù)據(jù)對象之間存在一種樹結(jié)構(gòu)。2)具有圖形對象的數(shù)據(jù)扔仓,如化合物結(jié)構(gòu)褐奥。
- 有序數(shù)據(jù):時序數(shù)據(jù),sequential data翘簇,或稱時間數(shù)據(jù)撬码,temporal data,記錄數(shù)據(jù)的擴充版保,每個記錄之間存在一個時間關(guān)聯(lián)呜笑。序列數(shù)據(jù),sequence data彻犁,一個數(shù)據(jù)集合是各個實體的序列叫胁,如文檔是詞或字母的序列。時間序列數(shù)據(jù)汞幢,time series data曹抬,特殊的序列數(shù)據(jù),該序列數(shù)據(jù)的每一個數(shù)據(jù)實體又是一個時序數(shù)據(jù)急鳄。如一年十二個月的溫度記錄谤民,宏觀上是一個12條記錄的序列數(shù)據(jù),但是每一條記錄又是這個月的連續(xù)時間上的時序數(shù)據(jù)疾宏。空間數(shù)據(jù)张足,特點是空間自相關(guān)性,spatial autocorrelation坎藐,物理上靠近的對象具有相似性为牍。
數(shù)據(jù)質(zhì)量
數(shù)據(jù)質(zhì)量問題的檢測和糾正,叫做數(shù)據(jù)清理岩馍,data cleaning碉咆。
測量和數(shù)據(jù)收集中的問題:
- 術(shù)語:測量誤差,measurement error蛀恩,記錄值與實際值不同疫铜。數(shù)據(jù)收集錯誤,data collection error双谆,遺漏數(shù)據(jù)或?qū)傩钥枪荆虿划?dāng)?shù)陌渌麛?shù)據(jù)對象等錯誤席揽。
- 精度、偏倚和準確率:精度谓厘,precision幌羞,重復(fù)測量值之間的接近程度。偏倚竟稳,bias属桦,測量值與被測量之間的系統(tǒng)變差。準確率他爸,accuracy地啰,被測量的測量值與實際值之間的接近度。
- 噪聲和偽像:噪聲是測量誤差的隨機部分讲逛。噪聲通常用于包含時間或空間分量的數(shù)據(jù)亏吝。改善噪聲的方法:魯棒算法,robust algorithm盏混。
- 離群點蔚鸥,outlier:或稱異常,anomalous许赃,相對于該屬性的典型值來說不尋常的屬性值止喷。
- 遺漏值:分為數(shù)據(jù)對象遺漏和屬性值的遺漏』炝模考慮遺漏點的處理弹谁,比如插值,擬合句喜,統(tǒng)計相似情況预愤,或直接忽略遺漏點等。
- 不一致的值:包括數(shù)據(jù)與實際情況相離咳胃,數(shù)據(jù)不同屬性矛盾植康,如月薪與年薪不一致。
- 重復(fù)數(shù)據(jù):去重復(fù)展懈,deduplication销睁。
應(yīng)用中的問題,及時數(shù)據(jù)采集測量是完美存崖,在使用中也會存在一下問題:
- 時效性
- 相關(guān)性冻记,如預(yù)測交通情況,若數(shù)據(jù)忽略駕駛員性別和年齡来惧,那么模型的精度就很差冗栗。因為性別和年齡與交通意外的相關(guān)性很強,這是不能忽略的數(shù)據(jù)內(nèi)容。
- 抽樣偏倚問題贞瞒,sampling bias偶房,抽樣集合中不同類型的對象與它們在總體中的出現(xiàn)情況不成比例趁曼。如高端小區(qū)抽查工資水平作為整體勞動人民的平均薪資顯然是不合適的军浆。高端小區(qū)中“富人”和“窮人”的占比顯然和全國平均情況是不同的。
數(shù)據(jù)預(yù)處理
包括聚集挡闰,抽樣乒融,維歸約,特征子集選擇摄悯,特征創(chuàng)建赞季,離散化和二元化,變量變換奢驯。
- 聚集申钩,aggregation,將兩個或多個對象合并成單個對象瘪阁。定量屬性通常用求和或平均數(shù)來聚集撒遣,定性屬性可以忽略或匯總成為一個值為集合的屬性。
- 抽樣管跺,選擇數(shù)據(jù)對象子集進行分析的方法义黎。需要樣本具有代表性,即樣本與原數(shù)據(jù)集具有相同性質(zhì)豁跑。方法:無放回抽樣廉涕、有放回抽樣、分層抽樣艇拍,漸進抽樣(propressive sampling)狐蜕。抽樣需要考慮樣本容量問題。
- 維歸約:作用是可以刪除不相關(guān)的特征并降低噪聲卸夕,避免維災(zāi)難馏鹤,同時可以使模型更容易理解,且更容易數(shù)據(jù)可視化娇哆。方法:通過創(chuàng)建新屬性湃累,將舊屬性合并在一起以降低數(shù)據(jù)集的維度。通過選擇舊屬性的子集得到新屬性碍讨。即特征子集選擇或特征選擇治力。常用的維歸約技術(shù)是線性代數(shù)技術(shù),將高維空間投影到低維空間勃黍,PCA宵统,主成分分析,principal components analysis,用以找出新的屬性(主成分)马澈,新屬性是原屬性的線性組合瓢省。另一種常用方法是SVD,奇異值分解痊班,singular value decomposition勤婚。
- 特征子集選擇:使用特征的一個子集〉臃ィ可能存在信息丟失馒胆,但是當(dāng)數(shù)據(jù)集存在冗余或不相關(guān)的特性時,特征子集選擇就很適合凝果。常用三種方法:嵌入式方法祝迂,embedded approach,常用語決策樹算法器净。過濾方法型雳,filter approach,如使特征子集中的屬性對之間的相關(guān)度盡可能低山害。包裝方法纠俭,wrapper approach,又稱為黑盒粗恢「躺梗總體而言需要合適的方法搜索最優(yōu)的特征子集,同時需要驗證這種最優(yōu)性眷射。
- 特征創(chuàng)建:由原來的屬性創(chuàng)建新的屬性集匙赞。方法:特征提取,feature extraction妖碉;映射數(shù)據(jù)到新空間涌庭,如傅里葉變換,F(xiàn)ourier transform欧宜,小波變換坐榆,wavelet transform;特征構(gòu)造冗茸,原特征信息是必要的席镀,但形式不適合挖掘算法,需要通過原特征對應(yīng)構(gòu)造符合挖掘算法的新特征夏漱。
-
離散化(discretization)和二元化(binarization):這種屬性處理方法的根本原則是“對于用來分析數(shù)據(jù)的挖掘算法會產(chǎn)生最好的結(jié)果”
- 二元化豪诲。
- 連續(xù)屬性離散化:通常在分類或關(guān)聯(lián)分析中用到。分為兩個子任務(wù)(覺得需要的分類值挂绰,確定連續(xù)屬性到分類值的映射關(guān)系)屎篱。
- 變量變換:variable transformation,用于變量的所有值的變換。1)簡單函數(shù)變換交播,用一個簡單的數(shù)據(jù)函數(shù)分別作用于每一個值重虑。2)規(guī)范化(standardization)或標準化(normalization)。
相似性和相異性度量
很多情況下秦士,一旦出現(xiàn)相似性或相異性缺厉,就不再需要原始數(shù)據(jù)。這種方法可以看作將數(shù)據(jù)變換到相似性或相異性空間伍宦,然后進行分析芽死。
鄰近度乏梁,proximity次洼,表示相近性或相異性。兩個對象之間的鄰近度時兩個對象對應(yīng)屬性之間的鄰近度函數(shù)遇骑÷艋伲考慮具有多個屬性的對象鄰近度的度量。
基本定義
相似度落萎,similarity亥啦,兩個對象相似程度的數(shù)值度量,通常為非負值练链,且常在[0翔脱,1]間取值。
相異度媒鼓,dissimilarity届吁,兩個對象差異程度的數(shù)值度量,也叫做距離绿鸣。
-
變換:1)某一個區(qū)間內(nèi)的鄰近度值變換到一種標準化的區(qū)間(如[0,1])內(nèi)疚沐,以適應(yīng)特定算法或簡化運算。2)將相似度與相異度相互轉(zhuǎn)換潮模,以滿足不同的數(shù)據(jù)分析需求亮蛔。
如相似度從[min_s,max_s]到[0,1]的變換可以用如下表達式:
$s' = (s-min_s)/(max_s-min_s)$,相異度同理。
通常擎厢,任何單調(diào)遞減函數(shù)都可以用來將相異度轉(zhuǎn)換到相似度(或相反)
簡單屬性間的鄰近度
具有若干屬性的對象之間的鄰近度用單個屬性的鄰近度的組合來定義究流。故首先考慮單個屬性間的鄰近度(兩個實體對于某單個屬性來說他們的鄰近距離,是相似還是相異)动遭。
數(shù)據(jù)對象之間的相異度
-
歐幾里得距離芬探,Euclidean distance,描述兩個具有n維屬性的實體間的相異度(距離):
$d(x,y) = \sqrt{\sum\limits_{k=1}n(x_k-y_k)2}$
-
距離(如歐幾里得距離)存在一些性質(zhì):
- 非負性沽损。1)$d(x,y)\geq0$,2)僅當(dāng)x=y時有灯节,$d(x,y)=0$
- 對稱性。$d(x,y)=d(y,x)$
- 三角不等式炎疆。$d(x,z)\leqd(x,y)+d(y,z)$
滿足三點的叫度量,當(dāng)然也存在不滿足這三點的相異度形入。
數(shù)據(jù)對象之間的相似度
通常相似度,三角不等式不成立亿遂,但對稱性和非負性通常成立浓若。
鄰近性度量實例
-
二元數(shù)據(jù)的相似性度量:兩個對象,僅包含n維二元屬性蛇数。它們之間的相似度(相似系數(shù),similarity coefficient)可通過以下兩種方法求得:
-
簡單匹配系數(shù)碌上,SMC,Simple Matching Coefficient:
$SMC = \frac{值匹配的屬性個數(shù)}{屬性個數(shù)}=\frac{f_{11}+f_{00}}{f_{10}+f_{01}+f_{11}+f_{00}} $
上式中浦徊,$f_{xy}$表示所有屬性中a對象取x馏予,且b對象取y的個數(shù)。
-
Jaccard系數(shù)盔性,用來處理僅包含非對稱的二元屬性對象。因為SMC在處理非對稱屬性時蛹尝,由于1出現(xiàn)的此處非常少暂筝,故判定為兩個對象都是相似的。
$J = \frac{匹配的個數(shù)}{不涉及0-0匹配的屬性個數(shù)}=\frac{f_{11}}{f_{10}+f_{01}+f_{11}} $
-
-
余弦相似度:Jacccard在非二元屬性下的擴展焕襟。即對象的屬性不僅是非對稱的,而且是非二元的(多元鸵赖、連續(xù)等),則用余弦相似度(consine similarity)來度量相似性:
$$\cos(x,y)=\frac{\vec{x}\cdot\vec{y}}{||x||\cdot||y||}$$
可化簡為x的單位向量與y的單位向量的點積饵骨,故余弦相似度不考慮數(shù)據(jù)對象的量值
-
廣義Jaccard系數(shù):又稱Tanimoto系數(shù)茫打,EJ表示妖混。
$$EJ(x,y)=\frac{\vec{x}\cdot\vec{y}}{||x||2+||y||2-\vec{x}\cdot\vec{y}}$$
相關(guān)性:兩個具有二元變量或連續(xù)變量的數(shù)據(jù)對象之間的相關(guān)性就是對象屬性之間的線性聯(lián)系的度量轮洋,為$\pm1$表示正負相關(guān),為0表示對象向量正交祥楣,不存在線性相關(guān)(任然可能為非線性相關(guān))汉柒。
鄰近度計算
考慮以下三個問題:
- 屬性具有不同尺度(scale)或相關(guān)性如何處理。
- 對象包含不同類型的屬性如何處理碾褂。
- 屬性具有不同的權(quán)重(屬性對鄰近度的貢獻值不同)。
- 距離度量的標準化和相關(guān)性:采用Mahalanobis距離
- 組合異種屬性的相似度:屬性的類型不同時斋扰,總相似度可以定義為所有屬性的相似度的平均值(限對稱屬性)啃洋。當(dāng)數(shù)據(jù)屬性是非對稱屬性時,可直接忽略該屬性對的值都為0的情況宏娄。
- 使用權(quán)值:為不同屬性分配不同權(quán)值,通沉竿穑可以固定權(quán)值綜合為1卖宠。