異常檢測(cè)方法 二

什么是離群點(diǎn)

??離群點(diǎn)是一個(gè)數(shù)據(jù)對(duì)象施逾,它顯著不同于其他數(shù)據(jù)對(duì)象托猩,好像它是被不同的機(jī)制產(chǎn)生的一樣。有時(shí)也稱非離群點(diǎn)為“正常數(shù)據(jù)”旗闽,離群點(diǎn)為“異常數(shù)據(jù)”。
??離群點(diǎn)不同于噪聲數(shù)據(jù)蜜另。噪聲是被觀測(cè)變量的隨機(jī)誤差或方差适室。一般而言,噪聲在數(shù)據(jù)分析(包括離群點(diǎn)分析)中不是令人感興趣的蚕钦。如在信用卡欺詐檢測(cè)亭病,顧客的購(gòu)買行為可以用一個(gè)隨機(jī)變量建模。一位顧客可能會(huì)產(chǎn)生某些看上去像“隨機(jī)誤差”或“方差”的噪聲交易嘶居,如買一份較豐盛的午餐罪帖,或比通常多要了一杯咖啡。這種交易不應(yīng)該視為離群點(diǎn)邮屁,否則信用卡公司將因驗(yàn)證太多的交易而付出沉重代價(jià)整袁。因此,與許多其他數(shù)據(jù)分析和數(shù)據(jù)挖掘任務(wù)一樣佑吝,應(yīng)該在離群點(diǎn)檢測(cè)前就刪除噪聲坐昙。
??離群點(diǎn)檢測(cè)是有趣的,因?yàn)閼岩僧a(chǎn)生它們的機(jī)制不同于產(chǎn)生其他數(shù)據(jù)的機(jī)制芋忿。因此疾棵,在離群點(diǎn)檢測(cè)時(shí)痹仙,重要的是搞清楚為什么檢測(cè)到的離群點(diǎn)被某種其他機(jī)制產(chǎn)生开仰。通常,在其余數(shù)據(jù)上做各種假設(shè)恩溅,并且證明檢測(cè)到的離群點(diǎn)顯著違反了這些假設(shè)谓娃。

離群點(diǎn)的類型

離群點(diǎn)可以分成三類:全局離群點(diǎn)傻粘、情境(或條件)離群點(diǎn)和集體離群點(diǎn)帮掉。

2.1 全局離群點(diǎn)

在給定的數(shù)據(jù)集中,一個(gè)數(shù)據(jù)對(duì)象是全局離群點(diǎn)稽莉,如果它顯著的偏離數(shù)據(jù)集中的其他對(duì)象污秆。全局離群點(diǎn)是最簡(jiǎn)單的一類離群點(diǎn),大部分的離群點(diǎn)檢測(cè)方法都旨在找出全局離群點(diǎn)良拼。

2.2 情境離群點(diǎn)

在給定的數(shù)據(jù)集中庸推,一個(gè)數(shù)據(jù)對(duì)象是情境離群點(diǎn)浇冰,如果關(guān)于對(duì)象的特定情境,它顯著的偏離其他對(duì)象际乘。情境離群點(diǎn)又稱為條件離群點(diǎn)漂佩,因?yàn)樗鼈儣l件的依賴于選定的情境罪塔。一般地垢袱,在情境離群點(diǎn)檢測(cè)中,所考慮數(shù)據(jù)對(duì)象的屬性劃分成兩組:
情境屬性:數(shù)據(jù)對(duì)象的情境屬性定義對(duì)象的情境请契。一般為靜態(tài)屬性變量爽锥,如信用卡欺詐檢測(cè)中畔柔,不同年齡、不同地區(qū)的人消費(fèi)情況是不同的腮考,先按照靜態(tài)屬性將人群大致分類玄捕,再檢測(cè)每一類的離群點(diǎn),會(huì)得到更好的結(jié)果馅闽。
行為屬性:定義對(duì)象的特征馍迄,并用來(lái)評(píng)估對(duì)象關(guān)于它所處的情境是否為離群點(diǎn)。在上述例子中暴凑,行為屬性可以是消費(fèi)金額赘来,消費(fèi)頻率等
情境離群點(diǎn)分析為用戶提供了靈活性,因?yàn)橛脩艨梢栽诓煌榫诚驴疾祀x群點(diǎn)拿穴,這在許多應(yīng)用中都是非常期望的忧风。

2.3 集體離群點(diǎn)

給定一個(gè)數(shù)據(jù)集狮腿,數(shù)據(jù)對(duì)象的一個(gè)子集形成集體離群點(diǎn)呕诉,如果這些對(duì)象作為整體顯著的偏離整個(gè)數(shù)據(jù)集吃度。如一家供應(yīng)鏈公司椿每,每天處理數(shù)以千計(jì)的訂單和出貨。如果一個(gè)訂單的出貨延誤亦渗,則可能不是離群點(diǎn)汁尺,因?yàn)榻y(tǒng)計(jì)表明延誤時(shí)常發(fā)生。然而搂蜓,如果有一天有100個(gè)訂單延誤,則必須注意帮碰。這100個(gè)訂單整體來(lái)看收毫,形成一個(gè)離群點(diǎn),盡管如果單個(gè)考慮殷勘,它們每個(gè)或許都不是離群點(diǎn)玲销。你可能需要更詳細(xì)地整個(gè)考察這些訂單贤斜,搞清楚出貨問(wèn)題逛裤。
與全局和情境離群點(diǎn)檢測(cè)不同,在集體離群點(diǎn)檢測(cè)中锁荔,不僅必須考慮個(gè)體對(duì)象的行為蝙砌,而且還要考慮對(duì)象組群的行為阳堕。因此恬总,為了檢測(cè)集體離群點(diǎn)壹堰,需要關(guān)于對(duì)象之間聯(lián)系的背景知識(shí),如對(duì)象之間的距離或相似性測(cè)量方法贱纠。

離群點(diǎn)檢測(cè)方法

3.1 統(tǒng)計(jì)學(xué)方法

離群點(diǎn)檢測(cè)的統(tǒng)計(jì)學(xué)方法對(duì)數(shù)據(jù)的正常性做假定。假定數(shù)據(jù)集中的正常對(duì)象由一個(gè)隨機(jī)過(guò)程(生成模型)產(chǎn)生目木。因此刽射,正常對(duì)象出現(xiàn)在該隨機(jī)模型的高概率區(qū)域中剃执,而低概率區(qū)域中的對(duì)象是離群點(diǎn)肾档。
離群點(diǎn)檢測(cè)的統(tǒng)計(jì)學(xué)方法的一般思想是:學(xué)習(xí)一個(gè)擬合給定數(shù)據(jù)集的生成模型怒见,然后識(shí)別該模型低概率區(qū)域中的對(duì)象,把它們作為離群點(diǎn)闺阱。有許多不同方法來(lái)學(xué)習(xí)生成模型酣溃,一般而言纪隙,根據(jù)如何指定和如何學(xué)習(xí)模型绵咱,離群點(diǎn)檢測(cè)的統(tǒng)計(jì)學(xué)方法可以劃分成兩個(gè)主要類型:參數(shù)方法和非參數(shù)方法。
參數(shù)方法: 假定正常的數(shù)據(jù)對(duì)象被一個(gè)以為參數(shù)的參數(shù)分布產(chǎn)生黔姜。該參數(shù)分布的概率密度函數(shù)給出對(duì)象被該分布產(chǎn)生的概率秆吵。該值越小,越可能是離群點(diǎn)毙芜。
非參數(shù)方法: 并不假定先驗(yàn)統(tǒng)計(jì)模型,而是試圖從輸入數(shù)據(jù)確定模型隘冲。非參數(shù)方法的例子包括直方圖和核密度估計(jì)。

3.1.1 參數(shù)方法
1罗珍、基于正態(tài)分布的一元離群點(diǎn)檢測(cè)

??假定數(shù)據(jù)集由一個(gè)正態(tài)分布產(chǎn)生,然后通殃,可以由輸入數(shù)據(jù)學(xué)習(xí)正態(tài)分布的參數(shù)堕担,并把低概率的點(diǎn)識(shí)別為離群點(diǎn)佑惠。
??在正態(tài)分布的假定下旭咽,區(qū)域包含99.7%的數(shù)據(jù)穷绵,包含95.4%的數(shù)據(jù)特愿,包含68.3%的數(shù)據(jù)目养。視具體情況而定,將其區(qū)域外的數(shù)據(jù)視為離群點(diǎn)。
??這種直截了當(dāng)?shù)慕y(tǒng)計(jì)學(xué)離群點(diǎn)檢測(cè)方法也可以用于可視化。例如盒圖方法使用五數(shù)概況繪制一元輸入數(shù)據(jù):最小的非離群點(diǎn)值(Min)饿自、第一個(gè)四分位數(shù)(Q1)、中位數(shù)(Q2)烛卧、第三個(gè)四分位數(shù)(Q3)和最大的非離群點(diǎn)值(Max)。
??四分位數(shù)極差(IQR)定義為Q3-Q1。比Q1小1.5倍的IQR或者比Q3大1.5倍的IQR的任何對(duì)象都視為離群點(diǎn)炬搭,因?yàn)镼1-1.5IQR和Q3+1.5IQR之間的區(qū)域包含了99.3%的對(duì)象。

2有额、多元離群點(diǎn)檢測(cè)

(1)使用馬哈拉諾比斯距離檢測(cè)多元離群點(diǎn)苛预。
對(duì)于一個(gè)多元數(shù)據(jù)集,設(shè)為均值向量。對(duì)于數(shù)據(jù)集中的對(duì)象丘薛,從到的馬哈拉諾比斯(Mahalanobis)距離為其中S是協(xié)方差矩陣。是一元數(shù)據(jù),可以對(duì)它進(jìn)行離群點(diǎn)檢測(cè)。如果被確定為離群點(diǎn)聊疲,則也被視為離群點(diǎn)可训。
(2)使用統(tǒng)計(jì)量的多元離群點(diǎn)檢測(cè)飞崖。
在正態(tài)分布的假設(shè)下胯努,統(tǒng)計(jì)量可以用來(lái)捕獲多元離群點(diǎn)。對(duì)于對(duì)象,統(tǒng)計(jì)量是
其中晦墙,是在第維上的值寡痰,是所有對(duì)象在第維上的均值谓谦,而是維度反粥。如果對(duì)象的統(tǒng)計(jì)量很大尤蒿,則該對(duì)象是離群點(diǎn)腰池。
(3)使用混合參數(shù)分布
在許多情況下,數(shù)據(jù)是由正態(tài)分布產(chǎn)生的假定很有效。然而拘悦,當(dāng)實(shí)際數(shù)據(jù)很復(fù)雜時(shí)慰技,這種假定過(guò)于簡(jiǎn)單艾帐。在這種情況下捎稚,假定數(shù)據(jù)是被混合參數(shù)分布產(chǎn)生的。
混合參數(shù)分布中用期望最大化(EM)算法來(lái)估計(jì)參數(shù)条霜。具體情況比較復(fù)雜催什,可以參考韓家煒的《數(shù)據(jù)挖掘:概念與技術(shù)》一書。

3.1.2 非參數(shù)方法

在離群點(diǎn)檢測(cè)的非參數(shù)方法中宰睡,“正常數(shù)據(jù)”的模型從輸入數(shù)據(jù)學(xué)習(xí)蒲凶,而不是假定一個(gè)先驗(yàn)气筋。通常,非參數(shù)方法對(duì)數(shù)據(jù)做較少假定豹爹,因而在更多情況下都可以使用裆悄。

使用直方圖檢測(cè)離群點(diǎn)
包括如下兩步:
步驟1:構(gòu)造直方圖。盡管非參數(shù)方法并不假定任何先驗(yàn)統(tǒng)計(jì)模型臂聋,但是通常確實(shí)要求用戶提供參數(shù),以便由數(shù)據(jù)學(xué)習(xí)或南。如指定直方圖的類型(等寬或等深的)和其他參數(shù)(如直方圖中的箱數(shù)或每個(gè)箱的大泻⒌取)。與參數(shù)方法不同采够,這些參數(shù)并不指定數(shù)據(jù)分布的類型(如高斯分布)肄方。
步驟2:檢測(cè)離群點(diǎn)河爹。為了確定一個(gè)對(duì)象是否是離群點(diǎn)搀崭,可以對(duì)照直方圖檢驗(yàn)它。在最簡(jiǎn)單的方法中刀森,如果該對(duì)象落入直方圖的一個(gè)箱中逝薪,則該對(duì)象被看做是正常的隅要,否則被認(rèn)為是離群點(diǎn)。

對(duì)于更復(fù)雜的方法董济,可以使用直方圖賦予每個(gè)對(duì)象一個(gè)離群點(diǎn)得分步清。一般可以令對(duì)象的離群點(diǎn)得分為該對(duì)象落入的箱的容積的倒數(shù)。得分越高虏肾,表明是離群點(diǎn)的概率越大廓啊。

使用直方圖作為離群點(diǎn)檢測(cè)的非參數(shù)模型的一個(gè)缺點(diǎn)是,很難選擇一個(gè)合適的箱尺寸封豪。一方面谴轮,如箱尺寸太小,則由很多正常對(duì)象都會(huì)落入空的或稀疏箱吹埠,因而被誤識(shí)別為離群點(diǎn)第步。這將導(dǎo)致很高的假正例率或低精度。相反藻雌,如果箱尺寸太大雌续,則離群點(diǎn)對(duì)象可能滲入某些頻繁的箱中,這將導(dǎo)致很高的假負(fù)例率或召回率胯杭。為了解決這些問(wèn)題驯杜,使用核密度估計(jì)來(lái)估計(jì)數(shù)據(jù)的概率密度分布。具體參考韓家煒的《數(shù)據(jù)挖掘:概念與技術(shù)》做个。

3.2 基于鄰近性的方法

??給定特征空間中的對(duì)象集鸽心,可以使用距離度量來(lái)量化對(duì)象間的相似性滚局。基于鄰近性的方法假定:離群點(diǎn)對(duì)象與它最近鄰的鄰近性顯著偏離數(shù)據(jù)集中其他對(duì)象與它們近鄰之間的鄰近性顽频。
??有兩種類型的基于鄰近性的離群點(diǎn)檢測(cè)方法:基于距離的和基于密度的方法藤肢。基于距離的離群點(diǎn)檢測(cè)方法考慮對(duì)象給定半徑的鄰域糯景。一個(gè)對(duì)象被認(rèn)為是離群點(diǎn)嘁圈,如果它的鄰域內(nèi)沒(méi)有足夠多的其他點(diǎn)◇盎矗基于密度的離群點(diǎn)檢測(cè)方法考察對(duì)象和它近鄰的密度最住。這里,一個(gè)對(duì)象被識(shí)別為離群點(diǎn)怠惶,如果它的密度相對(duì)于它的近鄰低得多涨缚。

3.2.1 基于距離的離群點(diǎn)檢測(cè)

對(duì)于待分析的數(shù)據(jù)對(duì)象集D,用戶可以指定一個(gè)距離閾值r來(lái)定義對(duì)象的合理鄰域策治。對(duì)于每個(gè)對(duì)象o脓魏,可以考察o的r-鄰域中的其他對(duì)象的個(gè)數(shù)。如果D中大多數(shù)對(duì)象都遠(yuǎn)離o通惫,即都不在o的r-鄰域中茂翔,則o可以被視為一個(gè)離群點(diǎn)。
令是距離閾值讽膏,是分?jǐn)?shù)閾值檩电。對(duì)象是一個(gè)離群點(diǎn),如果
其中是距離度量府树。
如何計(jì)算-離群點(diǎn)俐末?一是嵌套循環(huán)方法,時(shí)間復(fù)雜度為奄侠。當(dāng)數(shù)據(jù)集很大時(shí)卓箫,該方法的開(kāi)銷很大。為了改進(jìn)性能垄潮,可以用基于網(wǎng)格的方法來(lái)實(shí)現(xiàn)烹卒。具體見(jiàn)韓家煒《數(shù)據(jù)挖掘》一書。

3.2.2 基于密度的離群點(diǎn)檢測(cè)

基于距離的離群點(diǎn)檢測(cè)從全局考慮數(shù)據(jù)集弯洗。由于以下兩個(gè)原因旅急,這種離群點(diǎn)被看成“全局離群點(diǎn)”:
l 例如,一個(gè)-離群點(diǎn)至少遠(yuǎn)離(用參數(shù)r定量)數(shù)據(jù)集中的對(duì)象牡整。換言之藐吮,這種離群點(diǎn)遠(yuǎn)離數(shù)據(jù)的大多數(shù)。
l 為了檢測(cè)基于距離的離群點(diǎn),需要兩個(gè)距離參數(shù)谣辞,它們用于每個(gè)離群點(diǎn)對(duì)象迫摔。
現(xiàn)實(shí)世界的許多數(shù)據(jù)集都呈現(xiàn)更復(fù)雜的結(jié)構(gòu),那里對(duì)象可能關(guān)于其局部鄰域泥从,而不是關(guān)于整個(gè)數(shù)據(jù)分布而被視為離群點(diǎn)句占。如下圖,基于距離的離群點(diǎn)檢測(cè)方法不能捕獲像o1和o2這樣的局部離群點(diǎn)躯嫉。
那么纱烘,如何確切地定義如圖所示的局部離群點(diǎn)?這里關(guān)鍵的思想是和敬,需要把對(duì)象周圍的密度與對(duì)象鄰域周圍的密度進(jìn)行比較凹炸。基于密度的離群點(diǎn)檢測(cè)方法的基本假定是:非離群點(diǎn)對(duì)象周圍的密度與其鄰域周圍的密度類似昼弟,而離群點(diǎn)對(duì)象周圍的密度顯著不同于其鄰域周圍的密度。

3.3 基于聚類的方法

基于聚類的方法通過(guò)考察對(duì)象與簇之間的關(guān)系檢測(cè)離群點(diǎn)奕筐。直觀地舱痘,離群點(diǎn)是一個(gè)對(duì)象,它屬于小的偏遠(yuǎn)簇离赫,或不屬于任何簇芭逝。
這導(dǎo)致三種基于聚類的離群點(diǎn)檢測(cè)的一般方法≡ㄐ兀考慮一個(gè)對(duì)象旬盯。
l 該對(duì)象屬于某個(gè)簇嗎?如果不翎猛,則它被識(shí)別為離群點(diǎn)胖翰。
l 該對(duì)象與最近的簇之間的距離很遠(yuǎn)嗎?如果是切厘,則它是離群點(diǎn)萨咳。
l 該對(duì)象是小簇或稀疏簇的一部分嗎?如果是,則該簇中的所有對(duì)象都是離群點(diǎn)疫稿。

下面對(duì)每一種方法考察一個(gè)例子培他。

例1 把離群點(diǎn)檢測(cè)為不屬于任何簇的對(duì)象。如圖1所示遗座,使用基于密度的聚類方法舀凛,如DBSCAN,注意到黑色點(diǎn)都屬于簇,白色點(diǎn)a不屬于任何簇途蒋,因而被認(rèn)為是離群點(diǎn)猛遍。


圖1 對(duì)象a是離群點(diǎn),因?yàn)?它不屬于任何簇

圖2 離群點(diǎn)(a,b,c)都(關(guān)于簇中心)遠(yuǎn)離距它們最近的簇

例2 使用到最近簇的距離的基于聚類的離群點(diǎn)檢測(cè)。如圖2所示螃壤,使用k-均值聚類方法抗果,可以把圖2中的數(shù)據(jù)點(diǎn)劃分成3個(gè)簇,如圖中不同符號(hào)所示奸晴,每個(gè)簇中心用“+”標(biāo)記冤馏。對(duì)于每個(gè)對(duì)象o,都可以根據(jù)該對(duì)象與最近簇中心的距離寄啼,賦予該對(duì)象一個(gè)離群點(diǎn)得分逮光。假設(shè)到o的最近中心為c,則o與c之間的距離為dist(o,c),c與指派到c的對(duì)象之間的平均距離為L(zhǎng),比率度量與平均值的差異程度墩划。在圖2中涕刚,點(diǎn)a,b和c都相對(duì)遠(yuǎn)離它們的對(duì)應(yīng)中心,因而被懷疑是離群點(diǎn)乙帮。

例3 檢測(cè)小簇中的離群點(diǎn)

迄今為止我們看到的每種方法都只檢測(cè)個(gè)體離群點(diǎn)杜漠,因?yàn)樗鼈円淮伟岩粋€(gè)對(duì)象與數(shù)據(jù)集中的簇進(jìn)行比較。然而察净,在大型數(shù)據(jù)中驾茴,一些離群點(diǎn)可能是類似的,并且形成一個(gè)小簇氢卡。例如锈至,在入侵檢測(cè)中,使用相同手段攻擊系統(tǒng)的黑客可能形成一個(gè)簇译秦。迄今為止所討論的方法可能被這種離群點(diǎn)所欺騙峡捡。
為了解決這一問(wèn)題,第三種基于聚類的離群點(diǎn)檢測(cè)方法識(shí)別小簇或稀疏簇筑悴,并宣告這些簇中的對(duì)象也是離群點(diǎn)们拙。這種方法的一個(gè)例子是FindCBLOF算法,其方法如下雷猪。

(1) 找出數(shù)據(jù)集中的簇睛竣,并把它們按大小降序排列。該算法假定大部分?jǐn)?shù)據(jù)點(diǎn)都不是離群點(diǎn)求摇,它使用一個(gè)參數(shù)來(lái)區(qū)別大簇和小簇射沟。任何至少包含數(shù)據(jù)集中百分之(如,=90%)數(shù)據(jù)點(diǎn)的簇都被視為大簇与境,而其余的簇被看成小簇验夯。
(2) 對(duì)于每個(gè)數(shù)據(jù)點(diǎn)賦予基于簇的局部離群點(diǎn)因子(CBLOF),對(duì)于屬于大簇的點(diǎn)摔刁,它的CBLOF是簇的大小和該點(diǎn)與簇的相似性的乘積挥转。對(duì)于屬于小簇的點(diǎn),它的CBLOF用小簇的大小和該點(diǎn)與最近的大簇的相似性的乘積計(jì)算。
CBLOF用統(tǒng)計(jì)學(xué)方法定義點(diǎn)和簇之間的相似性绑谣,代表點(diǎn)屬于簇的概率党窜。該值越大,點(diǎn)與簇越相似借宵。CBLOF值可以檢測(cè)遠(yuǎn)離任何簇的離群點(diǎn)幌衣。
基于聚類的離群點(diǎn)檢測(cè)方法具有如下優(yōu)點(diǎn)。首先壤玫,它們可以檢測(cè)離群點(diǎn)豁护,而不要求數(shù)據(jù)是有標(biāo)號(hào)的,即它們以無(wú)監(jiān)督方式檢測(cè)欲间。它們對(duì)許多類型的數(shù)據(jù)都有效楚里。簇可以看成是數(shù)據(jù)的概括,一旦得到簇猎贴,基于聚類的方法只需要把對(duì)象與簇進(jìn)行比較班缎,以確定該對(duì)象是否是離群點(diǎn),這一過(guò)程通常很快她渴,因?yàn)榕c對(duì)象總數(shù)相比吝梅,簇的個(gè)數(shù)通常很小。
基于聚類的方法的缺點(diǎn)是:它的有效性高度依賴于所使用的聚類方法惹骂。這些方法對(duì)于離群點(diǎn)檢測(cè)而言可能不是最優(yōu)的。對(duì)于大型數(shù)據(jù)集做瞪,聚類方法通常開(kāi)銷很大对粪,這可能成為一個(gè)瓶頸。

3.4 基于分類的方法

如果訓(xùn)練數(shù)據(jù)具有類標(biāo)號(hào)装蓬,則離群點(diǎn)檢測(cè)可以看做分類問(wèn)題著拭。基于分類的離群點(diǎn)檢測(cè)方法的一般思想是牍帚,訓(xùn)練一個(gè)可以區(qū)分“正忱苷冢”數(shù)據(jù)和離群點(diǎn)的分類模型。
基于分類的離群點(diǎn)檢測(cè)方法通常使用一類模型(單分類模型SVDD)暗赶,即構(gòu)造一個(gè)僅描述正常類的分類器鄙币,不屬于正常類的任何樣本都被視為離群點(diǎn)。
基于分類的方法和基于聚類的方法可以聯(lián)合使用蹂随,以半監(jiān)督的方式檢測(cè)離群點(diǎn)十嘿。
例通過(guò)半監(jiān)督學(xué)習(xí)檢測(cè)離群點(diǎn)



如上圖所示,其中對(duì)象被標(biāo)記為“正吃浪”或“離群點(diǎn)”绩衷,或者沒(méi)有標(biāo)號(hào)。使用基于聚類的方法,發(fā)現(xiàn)一個(gè)大簇C和一個(gè)小簇C1咳燕。因?yàn)镃中的某些對(duì)象攜帶了標(biāo)號(hào)“正澄鹁觯”,因此可以把該簇的所有對(duì)象(包括沒(méi)有標(biāo)號(hào)的對(duì)象)都看做正常對(duì)象招盲。在離群點(diǎn)檢測(cè)中低缩,使用這個(gè)簇的一類模型來(lái)識(shí)別離群點(diǎn)。類似的宪肖,因?yàn)榇谻1中的某些對(duì)象攜帶標(biāo)號(hào)“離群點(diǎn)”表制,因此宣布C1中的所有對(duì)象都是離群點(diǎn)。未落入C模型中的任何對(duì)象(如a)也被視為離群點(diǎn)控乾。

3.5 挖掘情境離群點(diǎn)和集體離群點(diǎn)

與一般的離群點(diǎn)檢測(cè)相比么介,識(shí)別情境離群點(diǎn)需要分析對(duì)應(yīng)的情境信息。情境離群點(diǎn)檢測(cè)方法可以根據(jù)情境是否可以清楚地識(shí)別而分成兩類蜕衡。

3.5.1 把情境離群點(diǎn)檢測(cè)轉(zhuǎn)換成傳統(tǒng)的離群點(diǎn)檢測(cè)

這類方法適用于情境可以被清楚識(shí)別的情況壤短,其基本思想是把情境離群點(diǎn)檢測(cè)問(wèn)題轉(zhuǎn)換成典型的離群點(diǎn)檢測(cè)問(wèn)題。具體地說(shuō)慨仿,對(duì)于給定的數(shù)據(jù)對(duì)象久脯,用兩步來(lái)評(píng)估該對(duì)象是否是離群點(diǎn)。第一步镰吆,使用對(duì)象的情境屬性識(shí)別對(duì)象的情境帘撰。第二步,使用一種傳統(tǒng)的離群點(diǎn)檢測(cè)方法万皿,估計(jì)該對(duì)象的離群點(diǎn)得分摧找。

3.5.2 關(guān)于情境對(duì)正常行為建模

在某些應(yīng)用中,清楚地把數(shù)據(jù)劃分成情境是不方便的或不可行的牢硅。這時(shí)蹬耘,可以關(guān)于情境對(duì)正常行為建模。使用一個(gè)訓(xùn)練數(shù)據(jù)集减余,這種方法訓(xùn)練一個(gè)模型综苔,關(guān)于情境屬性的值,預(yù)測(cè)期望的行為屬性值位岔。然后如筛,為了確定一個(gè)數(shù)據(jù)對(duì)象是否是情境離群點(diǎn),可以在該對(duì)象的情境屬性上使用該模型赃承。如果該對(duì)象的行為屬性值顯著地偏離該模型的預(yù)測(cè)值妙黍,則該對(duì)象被宣布為情境離群點(diǎn)。
通過(guò)使用連接情境和行為的預(yù)測(cè)模型瞧剖,這些方法避免直接識(shí)別具體情境拭嫁。許多分類和預(yù)測(cè)技術(shù)都可以用來(lái)構(gòu)建這種模型可免,如回歸、馬爾科夫模型和有窮狀態(tài)自動(dòng)機(jī)等等做粤。

3.5.3 挖掘集體離群點(diǎn)

與情境離群點(diǎn)檢測(cè)一樣浇借,集體離群點(diǎn)檢測(cè)方法也可以劃分為兩類。第一類方法把問(wèn)題歸結(jié)為傳統(tǒng)的離群點(diǎn)檢測(cè)怕品。其策略是識(shí)別結(jié)構(gòu)單元妇垢,把每個(gè)結(jié)構(gòu)單元(例如,子序列肉康、時(shí)間序列片段闯估、局部區(qū)域或子圖)看做是一個(gè)數(shù)據(jù)對(duì)象,并提取特征吼和。這樣涨薪,集體離群點(diǎn)檢測(cè)問(wèn)題就轉(zhuǎn)換成在使用提取的特征構(gòu)造的“結(jié)構(gòu)化對(duì)象”集上的離群點(diǎn)檢測(cè)。一個(gè)結(jié)構(gòu)單元代表原數(shù)據(jù)集中的一組對(duì)象炫乓,如果該結(jié)構(gòu)單元顯著地偏離提取的特征空間中的期望趨勢(shì)刚夺,則它是一個(gè)集體離群點(diǎn)。
為集體離群點(diǎn)檢測(cè)預(yù)先定義結(jié)構(gòu)單元可能是困難的末捣,或者是不可能的侠姑。因此,第二類方法直接對(duì)結(jié)構(gòu)單元的期望行為建模箩做。例如莽红,為了在時(shí)間序列中檢測(cè)離群點(diǎn),一種方法是從序列中學(xué)習(xí)馬爾科夫模型邦邦。因此船老,一個(gè)子序列被宣布為集體離群點(diǎn),如果它顯著地偏離該模型圃酵。

3.6 高維數(shù)據(jù)中的離群點(diǎn)檢測(cè)

一般地,高維數(shù)據(jù)的離群點(diǎn)檢測(cè)方法應(yīng)該應(yīng)對(duì)以下挑戰(zhàn):

l 離群點(diǎn)的解釋:不僅應(yīng)該能夠識(shí)別檢測(cè)離群點(diǎn)馍管,而且能夠提供離群點(diǎn)的解釋郭赐。離群點(diǎn)的解釋可能是,例如确沸,揭示離群點(diǎn)的特定子空間捌锭,或者關(guān)于對(duì)象的“離群點(diǎn)性”的評(píng)估。這種解釋可以幫助用戶理解離群點(diǎn)的含義和意義罗捎。
l 數(shù)據(jù)的稀疏性:這些方法應(yīng)該能處理高維空間的稀疏性观谦。隨著維度的增加,對(duì)象之間的距離嚴(yán)重地被噪聲所左右桨菜。因此豁状,高維空間中的數(shù)據(jù)通常是稀疏的捉偏。
l 數(shù)據(jù)子空間:它們應(yīng)該以合適的方式對(duì)離群點(diǎn)建模,例如泻红,自適應(yīng)現(xiàn)實(shí)離群點(diǎn)的子空間和捕獲數(shù)據(jù)的局部變化夭禽。在所有的子空間上使用固定的距離閾值來(lái)檢測(cè)離群點(diǎn)捕食一種好想法,因?yàn)閮蓚€(gè)對(duì)象之間的距離隨著維度增加而單調(diào)增加谊路。
l 關(guān)于維度的可伸縮性:隨著維度的增加讹躯,子空間的數(shù)量指數(shù)增加。包含所有可能的子空間的窮舉組合探索不是可伸縮的選擇缠劝。
高維數(shù)據(jù)的離群點(diǎn)檢測(cè)方法可以劃分成三種主要方法潮梯,包括擴(kuò)充的傳統(tǒng)離群點(diǎn)檢測(cè)、發(fā)現(xiàn)子空間中的離群點(diǎn)和對(duì)高維離群點(diǎn)建模惨恭。

3.6.1 擴(kuò)充的傳統(tǒng)離群點(diǎn)檢測(cè)

一種高維數(shù)據(jù)離群點(diǎn)檢測(cè)方法是擴(kuò)充的傳統(tǒng)離群點(diǎn)檢測(cè)方法秉馏。它使用傳統(tǒng)的基于鄰近性的離群點(diǎn)模型。然而喉恋,為了克服高維空間中鄰近性度量惡化問(wèn)題沃饶,它使用其他度量,或構(gòu)造子空間并在其中檢測(cè)離群點(diǎn)轻黑。

HilOut算法就是這種方法的一個(gè)例子糊肤。HitOut找出基于距離的離群點(diǎn),但在離群點(diǎn)檢測(cè)中使用距離的秩氓鄙,而不是絕對(duì)距離馆揉。具體地說(shuō),對(duì)于每個(gè)對(duì)象o抖拦,HitOut找出o的k個(gè)最近鄰升酣,記作nn1(o),nn2(o)……nnk(o),其中k是一個(gè)依賴于應(yīng)用的參數(shù)。參數(shù)o的權(quán)重定義為

所有對(duì)象按權(quán)重遞減序定秩态罪。權(quán)重最高的top-p個(gè)對(duì)象作為離群點(diǎn)輸出噩茄,其中p是另一個(gè)用戶指定的參數(shù)。

HilOut算法計(jì)算每個(gè)對(duì)象的k-最近鄰開(kāi)銷很大复颈,當(dāng)維度很高并且數(shù)據(jù)很大時(shí)不能伸縮绩聘。
另一種方法則是通過(guò)維歸約,把高維離群點(diǎn)檢測(cè)問(wèn)題歸結(jié)為較低維上的離群點(diǎn)檢測(cè)耗啦。其基本思想是凿菩,把高維空間歸約到低維空間,那里標(biāo)準(zhǔn)的距離度量仍然能夠區(qū)分離群點(diǎn)帜讲。如果能夠找到這樣的較低維空間衅谷,則可以用傳統(tǒng)的離群點(diǎn)檢測(cè)方法。
為了降低維度似将,可以對(duì)離群點(diǎn)檢測(cè)使用或擴(kuò)充一般的特征特征選擇和提取方法获黔。例如蚀苛,可以用主成分分析(PCA)來(lái)提取一個(gè)低維空間。

3.6.2 發(fā)現(xiàn)子空間中的離群點(diǎn)

高維數(shù)據(jù)中離群點(diǎn)檢測(cè)的另一種方法是搜索各種子空間中的離群點(diǎn)肢执。其唯一的優(yōu)點(diǎn)是枉阵,如果發(fā)現(xiàn)一個(gè)對(duì)象是很低維度的子空間的離群點(diǎn),則該子空間提供了重要信息预茄,解釋該對(duì)象為什么和在何種程度上是離群點(diǎn)兴溜。
如何檢測(cè)子空間中的離群點(diǎn),一種方法是基于網(wǎng)格的子空間離群點(diǎn)檢測(cè)耻陕。具體做法見(jiàn)韓家煒《數(shù)據(jù)挖掘》拙徽。

3.6.3 高維離群點(diǎn)建模

另一種方法是試圖直接為高維離群點(diǎn)建立一個(gè)新模型。這種方法通常避免鄰近性度量诗宣,而是采用新的啟發(fā)式方法來(lái)檢測(cè)離群點(diǎn)膘怕。具體做法見(jiàn)韓家煒《數(shù)據(jù)挖掘》。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末召庞,一起剝皮案震驚了整個(gè)濱河市岛心,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌篮灼,老刑警劉巖忘古,帶你破解...
    沈念sama閱讀 206,126評(píng)論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異诅诱,居然都是意外死亡髓堪,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,254評(píng)論 2 382
  • 文/潘曉璐 我一進(jìn)店門娘荡,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)干旁,“玉大人,你說(shuō)我怎么就攤上這事炮沐≌海” “怎么了?”我有些...
    開(kāi)封第一講書人閱讀 152,445評(píng)論 0 341
  • 文/不壞的土叔 我叫張陵大年,是天一觀的道長(zhǎng)祭阀。 經(jīng)常有香客問(wèn)我,道長(zhǎng)鲜戒,這世上最難降的妖魔是什么? 我笑而不...
    開(kāi)封第一講書人閱讀 55,185評(píng)論 1 278
  • 正文 為了忘掉前任抹凳,我火速辦了婚禮遏餐,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘赢底。我一直安慰自己失都,他們只是感情好柏蘑,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,178評(píng)論 5 371
  • 文/花漫 我一把揭開(kāi)白布。 她就那樣靜靜地躺著粹庞,像睡著了一般咳焚。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上庞溜,一...
    開(kāi)封第一講書人閱讀 48,970評(píng)論 1 284
  • 那天革半,我揣著相機(jī)與錄音,去河邊找鬼流码。 笑死又官,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的漫试。 我是一名探鬼主播六敬,決...
    沈念sama閱讀 38,276評(píng)論 3 399
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼驾荣!你這毒婦竟也來(lái)了外构?” 一聲冷哼從身側(cè)響起,我...
    開(kāi)封第一講書人閱讀 36,927評(píng)論 0 259
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤播掷,失蹤者是張志新(化名)和其女友劉穎审编,沒(méi)想到半個(gè)月后,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體叮趴,經(jīng)...
    沈念sama閱讀 43,400評(píng)論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡割笙,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 35,883評(píng)論 2 323
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了眯亦。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片伤溉。...
    茶點(diǎn)故事閱讀 37,997評(píng)論 1 333
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖妻率,靈堂內(nèi)的尸體忽然破棺而出乱顾,到底是詐尸還是另有隱情,我是刑警寧澤宫静,帶...
    沈念sama閱讀 33,646評(píng)論 4 322
  • 正文 年R本政府宣布走净,位于F島的核電站,受9級(jí)特大地震影響孤里,放射性物質(zhì)發(fā)生泄漏伏伯。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,213評(píng)論 3 307
  • 文/蒙蒙 一捌袜、第九天 我趴在偏房一處隱蔽的房頂上張望说搅。 院中可真熱鬧,春花似錦虏等、人聲如沸弄唧。這莊子的主人今日做“春日...
    開(kāi)封第一講書人閱讀 30,204評(píng)論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)候引。三九已至侯养,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間澄干,已是汗流浹背逛揩。 一陣腳步聲響...
    開(kāi)封第一講書人閱讀 31,423評(píng)論 1 260
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留傻寂,地道東北人息尺。 一個(gè)月前我還...
    沈念sama閱讀 45,423評(píng)論 2 352
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像疾掰,于是被迫代替她去往敵國(guó)和親搂誉。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,722評(píng)論 2 345

推薦閱讀更多精彩內(nèi)容