什么是離群點(diǎn)
??離群點(diǎn)是一個(gè)數(shù)據(jù)對(duì)象施逾,它顯著不同于其他數(shù)據(jù)對(duì)象托猩,好像它是被不同的機(jī)制產(chǎn)生的一樣。有時(shí)也稱非離群點(diǎn)為“正常數(shù)據(jù)”旗闽,離群點(diǎn)為“異常數(shù)據(jù)”。
??離群點(diǎn)不同于噪聲數(shù)據(jù)蜜另。噪聲是被觀測(cè)變量的隨機(jī)誤差或方差适室。一般而言,噪聲在數(shù)據(jù)分析(包括離群點(diǎn)分析)中不是令人感興趣的蚕钦。如在信用卡欺詐檢測(cè)亭病,顧客的購(gòu)買行為可以用一個(gè)隨機(jī)變量建模。一位顧客可能會(huì)產(chǎn)生某些看上去像“隨機(jī)誤差”或“方差”的噪聲交易嘶居,如買一份較豐盛的午餐罪帖,或比通常多要了一杯咖啡。這種交易不應(yīng)該視為離群點(diǎn)邮屁,否則信用卡公司將因驗(yàn)證太多的交易而付出沉重代價(jià)整袁。因此,與許多其他數(shù)據(jù)分析和數(shù)據(jù)挖掘任務(wù)一樣佑吝,應(yīng)該在離群點(diǎn)檢測(cè)前就刪除噪聲坐昙。
??離群點(diǎn)檢測(cè)是有趣的,因?yàn)閼岩僧a(chǎn)生它們的機(jī)制不同于產(chǎn)生其他數(shù)據(jù)的機(jī)制芋忿。因此疾棵,在離群點(diǎn)檢測(cè)時(shí)痹仙,重要的是搞清楚為什么檢測(cè)到的離群點(diǎn)被某種其他機(jī)制產(chǎn)生开仰。通常,在其余數(shù)據(jù)上做各種假設(shè)恩溅,并且證明檢測(cè)到的離群點(diǎn)顯著違反了這些假設(shè)谓娃。
離群點(diǎn)的類型
離群點(diǎn)可以分成三類:全局離群點(diǎn)傻粘、情境(或條件)離群點(diǎn)和集體離群點(diǎn)帮掉。
2.1 全局離群點(diǎn)
在給定的數(shù)據(jù)集中,一個(gè)數(shù)據(jù)對(duì)象是全局離群點(diǎn)稽莉,如果它顯著的偏離數(shù)據(jù)集中的其他對(duì)象污秆。全局離群點(diǎn)是最簡(jiǎn)單的一類離群點(diǎn),大部分的離群點(diǎn)檢測(cè)方法都旨在找出全局離群點(diǎn)良拼。
2.2 情境離群點(diǎn)
在給定的數(shù)據(jù)集中庸推,一個(gè)數(shù)據(jù)對(duì)象是情境離群點(diǎn)浇冰,如果關(guān)于對(duì)象的特定情境,它顯著的偏離其他對(duì)象际乘。情境離群點(diǎn)又稱為條件離群點(diǎn)漂佩,因?yàn)樗鼈儣l件的依賴于選定的情境罪塔。一般地垢袱,在情境離群點(diǎn)檢測(cè)中,所考慮數(shù)據(jù)對(duì)象的屬性劃分成兩組:
情境屬性:數(shù)據(jù)對(duì)象的情境屬性定義對(duì)象的情境请契。一般為靜態(tài)屬性變量爽锥,如信用卡欺詐檢測(cè)中畔柔,不同年齡、不同地區(qū)的人消費(fèi)情況是不同的腮考,先按照靜態(tài)屬性將人群大致分類玄捕,再檢測(cè)每一類的離群點(diǎn),會(huì)得到更好的結(jié)果馅闽。
行為屬性:定義對(duì)象的特征馍迄,并用來(lái)評(píng)估對(duì)象關(guān)于它所處的情境是否為離群點(diǎn)。在上述例子中暴凑,行為屬性可以是消費(fèi)金額赘来,消費(fèi)頻率等
情境離群點(diǎn)分析為用戶提供了靈活性,因?yàn)橛脩艨梢栽诓煌榫诚驴疾祀x群點(diǎn)拿穴,這在許多應(yīng)用中都是非常期望的忧风。
2.3 集體離群點(diǎn)
給定一個(gè)數(shù)據(jù)集狮腿,數(shù)據(jù)對(duì)象的一個(gè)子集形成集體離群點(diǎn)呕诉,如果這些對(duì)象作為整體顯著的偏離整個(gè)數(shù)據(jù)集吃度。如一家供應(yīng)鏈公司椿每,每天處理數(shù)以千計(jì)的訂單和出貨。如果一個(gè)訂單的出貨延誤亦渗,則可能不是離群點(diǎn)汁尺,因?yàn)榻y(tǒng)計(jì)表明延誤時(shí)常發(fā)生。然而搂蜓,如果有一天有100個(gè)訂單延誤,則必須注意帮碰。這100個(gè)訂單整體來(lái)看收毫,形成一個(gè)離群點(diǎn),盡管如果單個(gè)考慮殷勘,它們每個(gè)或許都不是離群點(diǎn)玲销。你可能需要更詳細(xì)地整個(gè)考察這些訂單贤斜,搞清楚出貨問(wèn)題逛裤。
與全局和情境離群點(diǎn)檢測(cè)不同,在集體離群點(diǎn)檢測(cè)中锁荔,不僅必須考慮個(gè)體對(duì)象的行為蝙砌,而且還要考慮對(duì)象組群的行為阳堕。因此恬总,為了檢測(cè)集體離群點(diǎn)壹堰,需要關(guān)于對(duì)象之間聯(lián)系的背景知識(shí),如對(duì)象之間的距離或相似性測(cè)量方法贱纠。
離群點(diǎn)檢測(cè)方法
3.1 統(tǒng)計(jì)學(xué)方法
離群點(diǎn)檢測(cè)的統(tǒng)計(jì)學(xué)方法對(duì)數(shù)據(jù)的正常性做假定。假定數(shù)據(jù)集中的正常對(duì)象由一個(gè)隨機(jī)過(guò)程(生成模型)產(chǎn)生目木。因此刽射,正常對(duì)象出現(xiàn)在該隨機(jī)模型的高概率區(qū)域中剃执,而低概率區(qū)域中的對(duì)象是離群點(diǎn)肾档。
離群點(diǎn)檢測(cè)的統(tǒng)計(jì)學(xué)方法的一般思想是:學(xué)習(xí)一個(gè)擬合給定數(shù)據(jù)集的生成模型怒见,然后識(shí)別該模型低概率區(qū)域中的對(duì)象,把它們作為離群點(diǎn)闺阱。有許多不同方法來(lái)學(xué)習(xí)生成模型酣溃,一般而言纪隙,根據(jù)如何指定和如何學(xué)習(xí)模型绵咱,離群點(diǎn)檢測(cè)的統(tǒng)計(jì)學(xué)方法可以劃分成兩個(gè)主要類型:參數(shù)方法和非參數(shù)方法。
參數(shù)方法: 假定正常的數(shù)據(jù)對(duì)象被一個(gè)以為參數(shù)的參數(shù)分布產(chǎn)生黔姜。該參數(shù)分布的概率密度函數(shù)給出對(duì)象被該分布產(chǎn)生的概率秆吵。該值越小,越可能是離群點(diǎn)毙芜。
非參數(shù)方法: 并不假定先驗(yàn)統(tǒng)計(jì)模型,而是試圖從輸入數(shù)據(jù)確定模型隘冲。非參數(shù)方法的例子包括直方圖和核密度估計(jì)。
3.1.1 參數(shù)方法
1罗珍、基于正態(tài)分布的一元離群點(diǎn)檢測(cè)
??假定數(shù)據(jù)集由一個(gè)正態(tài)分布產(chǎn)生,然后通殃,可以由輸入數(shù)據(jù)學(xué)習(xí)正態(tài)分布的參數(shù)堕担,并把低概率的點(diǎn)識(shí)別為離群點(diǎn)佑惠。
??在正態(tài)分布的假定下旭咽,區(qū)域包含99.7%的數(shù)據(jù)穷绵,包含95.4%的數(shù)據(jù)特愿,包含68.3%的數(shù)據(jù)目养。視具體情況而定,將其區(qū)域外的數(shù)據(jù)視為離群點(diǎn)。
??這種直截了當(dāng)?shù)慕y(tǒng)計(jì)學(xué)離群點(diǎn)檢測(cè)方法也可以用于可視化。例如盒圖方法使用五數(shù)概況繪制一元輸入數(shù)據(jù):最小的非離群點(diǎn)值(Min)饿自、第一個(gè)四分位數(shù)(Q1)、中位數(shù)(Q2)烛卧、第三個(gè)四分位數(shù)(Q3)和最大的非離群點(diǎn)值(Max)。
??四分位數(shù)極差(IQR)定義為Q3-Q1。比Q1小1.5倍的IQR或者比Q3大1.5倍的IQR的任何對(duì)象都視為離群點(diǎn)炬搭,因?yàn)镼1-1.5IQR和Q3+1.5IQR之間的區(qū)域包含了99.3%的對(duì)象。
2有额、多元離群點(diǎn)檢測(cè)
(1)使用馬哈拉諾比斯距離檢測(cè)多元離群點(diǎn)苛预。
對(duì)于一個(gè)多元數(shù)據(jù)集,設(shè)為均值向量。對(duì)于數(shù)據(jù)集中的對(duì)象丘薛,從到的馬哈拉諾比斯(Mahalanobis)距離為其中S是協(xié)方差矩陣。是一元數(shù)據(jù),可以對(duì)它進(jìn)行離群點(diǎn)檢測(cè)。如果被確定為離群點(diǎn)聊疲,則也被視為離群點(diǎn)可训。
(2)使用統(tǒng)計(jì)量的多元離群點(diǎn)檢測(cè)飞崖。
在正態(tài)分布的假設(shè)下胯努,統(tǒng)計(jì)量可以用來(lái)捕獲多元離群點(diǎn)。對(duì)于對(duì)象,統(tǒng)計(jì)量是
其中晦墙,是在第維上的值寡痰,是所有對(duì)象在第維上的均值谓谦,而是維度反粥。如果對(duì)象的統(tǒng)計(jì)量很大尤蒿,則該對(duì)象是離群點(diǎn)腰池。
(3)使用混合參數(shù)分布
在許多情況下,數(shù)據(jù)是由正態(tài)分布產(chǎn)生的假定很有效。然而拘悦,當(dāng)實(shí)際數(shù)據(jù)很復(fù)雜時(shí)慰技,這種假定過(guò)于簡(jiǎn)單艾帐。在這種情況下捎稚,假定數(shù)據(jù)是被混合參數(shù)分布產(chǎn)生的。
混合參數(shù)分布中用期望最大化(EM)算法來(lái)估計(jì)參數(shù)条霜。具體情況比較復(fù)雜催什,可以參考韓家煒的《數(shù)據(jù)挖掘:概念與技術(shù)》一書。
3.1.2 非參數(shù)方法
在離群點(diǎn)檢測(cè)的非參數(shù)方法中宰睡,“正常數(shù)據(jù)”的模型從輸入數(shù)據(jù)學(xué)習(xí)蒲凶,而不是假定一個(gè)先驗(yàn)气筋。通常,非參數(shù)方法對(duì)數(shù)據(jù)做較少假定豹爹,因而在更多情況下都可以使用裆悄。
使用直方圖檢測(cè)離群點(diǎn)
包括如下兩步:
步驟1:構(gòu)造直方圖。盡管非參數(shù)方法并不假定任何先驗(yàn)統(tǒng)計(jì)模型臂聋,但是通常確實(shí)要求用戶提供參數(shù),以便由數(shù)據(jù)學(xué)習(xí)或南。如指定直方圖的類型(等寬或等深的)和其他參數(shù)(如直方圖中的箱數(shù)或每個(gè)箱的大泻⒌取)。與參數(shù)方法不同采够,這些參數(shù)并不指定數(shù)據(jù)分布的類型(如高斯分布)肄方。
步驟2:檢測(cè)離群點(diǎn)河爹。為了確定一個(gè)對(duì)象是否是離群點(diǎn)搀崭,可以對(duì)照直方圖檢驗(yàn)它。在最簡(jiǎn)單的方法中刀森,如果該對(duì)象落入直方圖的一個(gè)箱中逝薪,則該對(duì)象被看做是正常的隅要,否則被認(rèn)為是離群點(diǎn)。
對(duì)于更復(fù)雜的方法董济,可以使用直方圖賦予每個(gè)對(duì)象一個(gè)離群點(diǎn)得分步清。一般可以令對(duì)象的離群點(diǎn)得分為該對(duì)象落入的箱的容積的倒數(shù)。得分越高虏肾,表明是離群點(diǎn)的概率越大廓啊。
使用直方圖作為離群點(diǎn)檢測(cè)的非參數(shù)模型的一個(gè)缺點(diǎn)是,很難選擇一個(gè)合適的箱尺寸封豪。一方面谴轮,如箱尺寸太小,則由很多正常對(duì)象都會(huì)落入空的或稀疏箱吹埠,因而被誤識(shí)別為離群點(diǎn)第步。這將導(dǎo)致很高的假正例率或低精度。相反藻雌,如果箱尺寸太大雌续,則離群點(diǎn)對(duì)象可能滲入某些頻繁的箱中,這將導(dǎo)致很高的假負(fù)例率或召回率胯杭。為了解決這些問(wèn)題驯杜,使用核密度估計(jì)來(lái)估計(jì)數(shù)據(jù)的概率密度分布。具體參考韓家煒的《數(shù)據(jù)挖掘:概念與技術(shù)》做个。
3.2 基于鄰近性的方法
??給定特征空間中的對(duì)象集鸽心,可以使用距離度量來(lái)量化對(duì)象間的相似性滚局。基于鄰近性的方法假定:離群點(diǎn)對(duì)象與它最近鄰的鄰近性顯著偏離數(shù)據(jù)集中其他對(duì)象與它們近鄰之間的鄰近性顽频。
??有兩種類型的基于鄰近性的離群點(diǎn)檢測(cè)方法:基于距離的和基于密度的方法藤肢。基于距離的離群點(diǎn)檢測(cè)方法考慮對(duì)象給定半徑的鄰域糯景。一個(gè)對(duì)象被認(rèn)為是離群點(diǎn)嘁圈,如果它的鄰域內(nèi)沒(méi)有足夠多的其他點(diǎn)◇盎矗基于密度的離群點(diǎn)檢測(cè)方法考察對(duì)象和它近鄰的密度最住。這里,一個(gè)對(duì)象被識(shí)別為離群點(diǎn)怠惶,如果它的密度相對(duì)于它的近鄰低得多涨缚。
3.2.1 基于距離的離群點(diǎn)檢測(cè)
對(duì)于待分析的數(shù)據(jù)對(duì)象集D,用戶可以指定一個(gè)距離閾值r來(lái)定義對(duì)象的合理鄰域策治。對(duì)于每個(gè)對(duì)象o脓魏,可以考察o的r-鄰域中的其他對(duì)象的個(gè)數(shù)。如果D中大多數(shù)對(duì)象都遠(yuǎn)離o通惫,即都不在o的r-鄰域中茂翔,則o可以被視為一個(gè)離群點(diǎn)。
令是距離閾值讽膏,是分?jǐn)?shù)閾值檩电。對(duì)象是一個(gè)離群點(diǎn),如果
其中是距離度量府树。
如何計(jì)算-離群點(diǎn)俐末?一是嵌套循環(huán)方法,時(shí)間復(fù)雜度為奄侠。當(dāng)數(shù)據(jù)集很大時(shí)卓箫,該方法的開(kāi)銷很大。為了改進(jìn)性能垄潮,可以用基于網(wǎng)格的方法來(lái)實(shí)現(xiàn)烹卒。具體見(jiàn)韓家煒《數(shù)據(jù)挖掘》一書。
3.2.2 基于密度的離群點(diǎn)檢測(cè)
基于距離的離群點(diǎn)檢測(cè)從全局考慮數(shù)據(jù)集弯洗。由于以下兩個(gè)原因旅急,這種離群點(diǎn)被看成“全局離群點(diǎn)”:
l 例如,一個(gè)-離群點(diǎn)至少遠(yuǎn)離(用參數(shù)r定量)數(shù)據(jù)集中的對(duì)象牡整。換言之藐吮,這種離群點(diǎn)遠(yuǎn)離數(shù)據(jù)的大多數(shù)。
l 為了檢測(cè)基于距離的離群點(diǎn),需要兩個(gè)距離參數(shù)谣辞,它們用于每個(gè)離群點(diǎn)對(duì)象迫摔。
現(xiàn)實(shí)世界的許多數(shù)據(jù)集都呈現(xiàn)更復(fù)雜的結(jié)構(gòu),那里對(duì)象可能關(guān)于其局部鄰域泥从,而不是關(guān)于整個(gè)數(shù)據(jù)分布而被視為離群點(diǎn)句占。如下圖,基于距離的離群點(diǎn)檢測(cè)方法不能捕獲像o1和o2這樣的局部離群點(diǎn)躯嫉。
那么纱烘,如何確切地定義如圖所示的局部離群點(diǎn)?這里關(guān)鍵的思想是和敬,需要把對(duì)象周圍的密度與對(duì)象鄰域周圍的密度進(jìn)行比較凹炸。基于密度的離群點(diǎn)檢測(cè)方法的基本假定是:非離群點(diǎn)對(duì)象周圍的密度與其鄰域周圍的密度類似昼弟,而離群點(diǎn)對(duì)象周圍的密度顯著不同于其鄰域周圍的密度。
3.3 基于聚類的方法
基于聚類的方法通過(guò)考察對(duì)象與簇之間的關(guān)系檢測(cè)離群點(diǎn)奕筐。直觀地舱痘,離群點(diǎn)是一個(gè)對(duì)象,它屬于小的偏遠(yuǎn)簇离赫,或不屬于任何簇芭逝。
這導(dǎo)致三種基于聚類的離群點(diǎn)檢測(cè)的一般方法≡ㄐ兀考慮一個(gè)對(duì)象旬盯。
l 該對(duì)象屬于某個(gè)簇嗎?如果不翎猛,則它被識(shí)別為離群點(diǎn)胖翰。
l 該對(duì)象與最近的簇之間的距離很遠(yuǎn)嗎?如果是切厘,則它是離群點(diǎn)萨咳。
l 該對(duì)象是小簇或稀疏簇的一部分嗎?如果是,則該簇中的所有對(duì)象都是離群點(diǎn)疫稿。
下面對(duì)每一種方法考察一個(gè)例子培他。
例1 把離群點(diǎn)檢測(cè)為不屬于任何簇的對(duì)象。如圖1所示遗座,使用基于密度的聚類方法舀凛,如DBSCAN,注意到黑色點(diǎn)都屬于簇,白色點(diǎn)a不屬于任何簇途蒋,因而被認(rèn)為是離群點(diǎn)猛遍。
圖1 對(duì)象a是離群點(diǎn),因?yàn)?它不屬于任何簇
圖2 離群點(diǎn)(a,b,c)都(關(guān)于簇中心)遠(yuǎn)離距它們最近的簇
例2 使用到最近簇的距離的基于聚類的離群點(diǎn)檢測(cè)。如圖2所示螃壤,使用k-均值聚類方法抗果,可以把圖2中的數(shù)據(jù)點(diǎn)劃分成3個(gè)簇,如圖中不同符號(hào)所示奸晴,每個(gè)簇中心用“+”標(biāo)記冤馏。對(duì)于每個(gè)對(duì)象o,都可以根據(jù)該對(duì)象與最近簇中心的距離寄啼,賦予該對(duì)象一個(gè)離群點(diǎn)得分逮光。假設(shè)到o的最近中心為c,則o與c之間的距離為dist(o,c),c與指派到c的對(duì)象之間的平均距離為L(zhǎng),比率度量與平均值的差異程度墩划。在圖2中涕刚,點(diǎn)a,b和c都相對(duì)遠(yuǎn)離它們的對(duì)應(yīng)中心,因而被懷疑是離群點(diǎn)乙帮。
例3 檢測(cè)小簇中的離群點(diǎn)
迄今為止我們看到的每種方法都只檢測(cè)個(gè)體離群點(diǎn)杜漠,因?yàn)樗鼈円淮伟岩粋€(gè)對(duì)象與數(shù)據(jù)集中的簇進(jìn)行比較。然而察净,在大型數(shù)據(jù)中驾茴,一些離群點(diǎn)可能是類似的,并且形成一個(gè)小簇氢卡。例如锈至,在入侵檢測(cè)中,使用相同手段攻擊系統(tǒng)的黑客可能形成一個(gè)簇译秦。迄今為止所討論的方法可能被這種離群點(diǎn)所欺騙峡捡。
為了解決這一問(wèn)題,第三種基于聚類的離群點(diǎn)檢測(cè)方法識(shí)別小簇或稀疏簇筑悴,并宣告這些簇中的對(duì)象也是離群點(diǎn)们拙。這種方法的一個(gè)例子是FindCBLOF算法,其方法如下雷猪。
(1) 找出數(shù)據(jù)集中的簇睛竣,并把它們按大小降序排列。該算法假定大部分?jǐn)?shù)據(jù)點(diǎn)都不是離群點(diǎn)求摇,它使用一個(gè)參數(shù)來(lái)區(qū)別大簇和小簇射沟。任何至少包含數(shù)據(jù)集中百分之(如,=90%)數(shù)據(jù)點(diǎn)的簇都被視為大簇与境,而其余的簇被看成小簇验夯。
(2) 對(duì)于每個(gè)數(shù)據(jù)點(diǎn)賦予基于簇的局部離群點(diǎn)因子(CBLOF),對(duì)于屬于大簇的點(diǎn)摔刁,它的CBLOF是簇的大小和該點(diǎn)與簇的相似性的乘積挥转。對(duì)于屬于小簇的點(diǎn),它的CBLOF用小簇的大小和該點(diǎn)與最近的大簇的相似性的乘積計(jì)算。
CBLOF用統(tǒng)計(jì)學(xué)方法定義點(diǎn)和簇之間的相似性绑谣,代表點(diǎn)屬于簇的概率党窜。該值越大,點(diǎn)與簇越相似借宵。CBLOF值可以檢測(cè)遠(yuǎn)離任何簇的離群點(diǎn)幌衣。
基于聚類的離群點(diǎn)檢測(cè)方法具有如下優(yōu)點(diǎn)。首先壤玫,它們可以檢測(cè)離群點(diǎn)豁护,而不要求數(shù)據(jù)是有標(biāo)號(hào)的,即它們以無(wú)監(jiān)督方式檢測(cè)欲间。它們對(duì)許多類型的數(shù)據(jù)都有效楚里。簇可以看成是數(shù)據(jù)的概括,一旦得到簇猎贴,基于聚類的方法只需要把對(duì)象與簇進(jìn)行比較班缎,以確定該對(duì)象是否是離群點(diǎn),這一過(guò)程通常很快她渴,因?yàn)榕c對(duì)象總數(shù)相比吝梅,簇的個(gè)數(shù)通常很小。
基于聚類的方法的缺點(diǎn)是:它的有效性高度依賴于所使用的聚類方法惹骂。這些方法對(duì)于離群點(diǎn)檢測(cè)而言可能不是最優(yōu)的。對(duì)于大型數(shù)據(jù)集做瞪,聚類方法通常開(kāi)銷很大对粪,這可能成為一個(gè)瓶頸。
3.4 基于分類的方法
如果訓(xùn)練數(shù)據(jù)具有類標(biāo)號(hào)装蓬,則離群點(diǎn)檢測(cè)可以看做分類問(wèn)題著拭。基于分類的離群點(diǎn)檢測(cè)方法的一般思想是牍帚,訓(xùn)練一個(gè)可以區(qū)分“正忱苷冢”數(shù)據(jù)和離群點(diǎn)的分類模型。
基于分類的離群點(diǎn)檢測(cè)方法通常使用一類模型(單分類模型SVDD)暗赶,即構(gòu)造一個(gè)僅描述正常類的分類器鄙币,不屬于正常類的任何樣本都被視為離群點(diǎn)。
基于分類的方法和基于聚類的方法可以聯(lián)合使用蹂随,以半監(jiān)督的方式檢測(cè)離群點(diǎn)十嘿。
例通過(guò)半監(jiān)督學(xué)習(xí)檢測(cè)離群點(diǎn)
如上圖所示,其中對(duì)象被標(biāo)記為“正吃浪”或“離群點(diǎn)”绩衷,或者沒(méi)有標(biāo)號(hào)。使用基于聚類的方法,發(fā)現(xiàn)一個(gè)大簇C和一個(gè)小簇C1咳燕。因?yàn)镃中的某些對(duì)象攜帶了標(biāo)號(hào)“正澄鹁觯”,因此可以把該簇的所有對(duì)象(包括沒(méi)有標(biāo)號(hào)的對(duì)象)都看做正常對(duì)象招盲。在離群點(diǎn)檢測(cè)中低缩,使用這個(gè)簇的一類模型來(lái)識(shí)別離群點(diǎn)。類似的宪肖,因?yàn)榇谻1中的某些對(duì)象攜帶標(biāo)號(hào)“離群點(diǎn)”表制,因此宣布C1中的所有對(duì)象都是離群點(diǎn)。未落入C模型中的任何對(duì)象(如a)也被視為離群點(diǎn)控乾。
3.5 挖掘情境離群點(diǎn)和集體離群點(diǎn)
與一般的離群點(diǎn)檢測(cè)相比么介,識(shí)別情境離群點(diǎn)需要分析對(duì)應(yīng)的情境信息。情境離群點(diǎn)檢測(cè)方法可以根據(jù)情境是否可以清楚地識(shí)別而分成兩類蜕衡。
3.5.1 把情境離群點(diǎn)檢測(cè)轉(zhuǎn)換成傳統(tǒng)的離群點(diǎn)檢測(cè)
這類方法適用于情境可以被清楚識(shí)別的情況壤短,其基本思想是把情境離群點(diǎn)檢測(cè)問(wèn)題轉(zhuǎn)換成典型的離群點(diǎn)檢測(cè)問(wèn)題。具體地說(shuō)慨仿,對(duì)于給定的數(shù)據(jù)對(duì)象久脯,用兩步來(lái)評(píng)估該對(duì)象是否是離群點(diǎn)。第一步镰吆,使用對(duì)象的情境屬性識(shí)別對(duì)象的情境帘撰。第二步,使用一種傳統(tǒng)的離群點(diǎn)檢測(cè)方法万皿,估計(jì)該對(duì)象的離群點(diǎn)得分摧找。
3.5.2 關(guān)于情境對(duì)正常行為建模
在某些應(yīng)用中,清楚地把數(shù)據(jù)劃分成情境是不方便的或不可行的牢硅。這時(shí)蹬耘,可以關(guān)于情境對(duì)正常行為建模。使用一個(gè)訓(xùn)練數(shù)據(jù)集减余,這種方法訓(xùn)練一個(gè)模型综苔,關(guān)于情境屬性的值,預(yù)測(cè)期望的行為屬性值位岔。然后如筛,為了確定一個(gè)數(shù)據(jù)對(duì)象是否是情境離群點(diǎn),可以在該對(duì)象的情境屬性上使用該模型赃承。如果該對(duì)象的行為屬性值顯著地偏離該模型的預(yù)測(cè)值妙黍,則該對(duì)象被宣布為情境離群點(diǎn)。
通過(guò)使用連接情境和行為的預(yù)測(cè)模型瞧剖,這些方法避免直接識(shí)別具體情境拭嫁。許多分類和預(yù)測(cè)技術(shù)都可以用來(lái)構(gòu)建這種模型可免,如回歸、馬爾科夫模型和有窮狀態(tài)自動(dòng)機(jī)等等做粤。
3.5.3 挖掘集體離群點(diǎn)
與情境離群點(diǎn)檢測(cè)一樣浇借,集體離群點(diǎn)檢測(cè)方法也可以劃分為兩類。第一類方法把問(wèn)題歸結(jié)為傳統(tǒng)的離群點(diǎn)檢測(cè)怕品。其策略是識(shí)別結(jié)構(gòu)單元妇垢,把每個(gè)結(jié)構(gòu)單元(例如,子序列肉康、時(shí)間序列片段闯估、局部區(qū)域或子圖)看做是一個(gè)數(shù)據(jù)對(duì)象,并提取特征吼和。這樣涨薪,集體離群點(diǎn)檢測(cè)問(wèn)題就轉(zhuǎn)換成在使用提取的特征構(gòu)造的“結(jié)構(gòu)化對(duì)象”集上的離群點(diǎn)檢測(cè)。一個(gè)結(jié)構(gòu)單元代表原數(shù)據(jù)集中的一組對(duì)象炫乓,如果該結(jié)構(gòu)單元顯著地偏離提取的特征空間中的期望趨勢(shì)刚夺,則它是一個(gè)集體離群點(diǎn)。
為集體離群點(diǎn)檢測(cè)預(yù)先定義結(jié)構(gòu)單元可能是困難的末捣,或者是不可能的侠姑。因此,第二類方法直接對(duì)結(jié)構(gòu)單元的期望行為建模箩做。例如莽红,為了在時(shí)間序列中檢測(cè)離群點(diǎn),一種方法是從序列中學(xué)習(xí)馬爾科夫模型邦邦。因此船老,一個(gè)子序列被宣布為集體離群點(diǎn),如果它顯著地偏離該模型圃酵。
3.6 高維數(shù)據(jù)中的離群點(diǎn)檢測(cè)
一般地,高維數(shù)據(jù)的離群點(diǎn)檢測(cè)方法應(yīng)該應(yīng)對(duì)以下挑戰(zhàn):
l 離群點(diǎn)的解釋:不僅應(yīng)該能夠識(shí)別檢測(cè)離群點(diǎn)馍管,而且能夠提供離群點(diǎn)的解釋郭赐。離群點(diǎn)的解釋可能是,例如确沸,揭示離群點(diǎn)的特定子空間捌锭,或者關(guān)于對(duì)象的“離群點(diǎn)性”的評(píng)估。這種解釋可以幫助用戶理解離群點(diǎn)的含義和意義罗捎。
l 數(shù)據(jù)的稀疏性:這些方法應(yīng)該能處理高維空間的稀疏性观谦。隨著維度的增加,對(duì)象之間的距離嚴(yán)重地被噪聲所左右桨菜。因此豁状,高維空間中的數(shù)據(jù)通常是稀疏的捉偏。
l 數(shù)據(jù)子空間:它們應(yīng)該以合適的方式對(duì)離群點(diǎn)建模,例如泻红,自適應(yīng)現(xiàn)實(shí)離群點(diǎn)的子空間和捕獲數(shù)據(jù)的局部變化夭禽。在所有的子空間上使用固定的距離閾值來(lái)檢測(cè)離群點(diǎn)捕食一種好想法,因?yàn)閮蓚€(gè)對(duì)象之間的距離隨著維度增加而單調(diào)增加谊路。
l 關(guān)于維度的可伸縮性:隨著維度的增加讹躯,子空間的數(shù)量指數(shù)增加。包含所有可能的子空間的窮舉組合探索不是可伸縮的選擇缠劝。
高維數(shù)據(jù)的離群點(diǎn)檢測(cè)方法可以劃分成三種主要方法潮梯,包括擴(kuò)充的傳統(tǒng)離群點(diǎn)檢測(cè)、發(fā)現(xiàn)子空間中的離群點(diǎn)和對(duì)高維離群點(diǎn)建模惨恭。
3.6.1 擴(kuò)充的傳統(tǒng)離群點(diǎn)檢測(cè)
一種高維數(shù)據(jù)離群點(diǎn)檢測(cè)方法是擴(kuò)充的傳統(tǒng)離群點(diǎn)檢測(cè)方法秉馏。它使用傳統(tǒng)的基于鄰近性的離群點(diǎn)模型。然而喉恋,為了克服高維空間中鄰近性度量惡化問(wèn)題沃饶,它使用其他度量,或構(gòu)造子空間并在其中檢測(cè)離群點(diǎn)轻黑。
HilOut算法就是這種方法的一個(gè)例子糊肤。HitOut找出基于距離的離群點(diǎn),但在離群點(diǎn)檢測(cè)中使用距離的秩氓鄙,而不是絕對(duì)距離馆揉。具體地說(shuō),對(duì)于每個(gè)對(duì)象o抖拦,HitOut找出o的k個(gè)最近鄰升酣,記作nn1(o),nn2(o)……nnk(o),其中k是一個(gè)依賴于應(yīng)用的參數(shù)。參數(shù)o的權(quán)重定義為
所有對(duì)象按權(quán)重遞減序定秩态罪。權(quán)重最高的top-p個(gè)對(duì)象作為離群點(diǎn)輸出噩茄,其中p是另一個(gè)用戶指定的參數(shù)。
HilOut算法計(jì)算每個(gè)對(duì)象的k-最近鄰開(kāi)銷很大复颈,當(dāng)維度很高并且數(shù)據(jù)很大時(shí)不能伸縮绩聘。
另一種方法則是通過(guò)維歸約,把高維離群點(diǎn)檢測(cè)問(wèn)題歸結(jié)為較低維上的離群點(diǎn)檢測(cè)耗啦。其基本思想是凿菩,把高維空間歸約到低維空間,那里標(biāo)準(zhǔn)的距離度量仍然能夠區(qū)分離群點(diǎn)帜讲。如果能夠找到這樣的較低維空間衅谷,則可以用傳統(tǒng)的離群點(diǎn)檢測(cè)方法。
為了降低維度似将,可以對(duì)離群點(diǎn)檢測(cè)使用或擴(kuò)充一般的特征特征選擇和提取方法获黔。例如蚀苛,可以用主成分分析(PCA)來(lái)提取一個(gè)低維空間。
3.6.2 發(fā)現(xiàn)子空間中的離群點(diǎn)
高維數(shù)據(jù)中離群點(diǎn)檢測(cè)的另一種方法是搜索各種子空間中的離群點(diǎn)肢执。其唯一的優(yōu)點(diǎn)是枉阵,如果發(fā)現(xiàn)一個(gè)對(duì)象是很低維度的子空間的離群點(diǎn),則該子空間提供了重要信息预茄,解釋該對(duì)象為什么和在何種程度上是離群點(diǎn)兴溜。
如何檢測(cè)子空間中的離群點(diǎn),一種方法是基于網(wǎng)格的子空間離群點(diǎn)檢測(cè)耻陕。具體做法見(jiàn)韓家煒《數(shù)據(jù)挖掘》拙徽。
3.6.3 高維離群點(diǎn)建模
另一種方法是試圖直接為高維離群點(diǎn)建立一個(gè)新模型。這種方法通常避免鄰近性度量诗宣,而是采用新的啟發(fā)式方法來(lái)檢測(cè)離群點(diǎn)膘怕。具體做法見(jiàn)韓家煒《數(shù)據(jù)挖掘》。