異常檢測(cè)方法二

什么是離群點(diǎn)

??離群點(diǎn)是一個(gè)數(shù)據(jù)對(duì)象施逾，它顯著不同于其他數(shù)據(jù)對(duì)象托猩，好像它是被不同的機(jī)制產(chǎn)生的一樣。有時(shí)也稱非離群點(diǎn)為“正常數(shù)據(jù)”旗闽，離群點(diǎn)為“異常數(shù)據(jù)”。
??離群點(diǎn)不同于噪聲數(shù)據(jù)蜜另。噪聲是被觀測(cè)變量的隨機(jī)誤差或方差适室。一般而言，噪聲在數(shù)據(jù)分析（包括離群點(diǎn)分析）中不是令人感興趣的蚕钦。如在信用卡欺詐檢測(cè)亭病，顧客的購(gòu)買行為可以用一個(gè)隨機(jī)變量建模。一位顧客可能會(huì)產(chǎn)生某些看上去像“隨機(jī)誤差”或“方差”的噪聲交易嘶居，如買一份較豐盛的午餐罪帖，或比通常多要了一杯咖啡。這種交易不應(yīng)該視為離群點(diǎn)邮屁，否則信用卡公司將因驗(yàn)證太多的交易而付出沉重代價(jià)整袁。因此，與許多其他數(shù)據(jù)分析和數(shù)據(jù)挖掘任務(wù)一樣佑吝，應(yīng)該在離群點(diǎn)檢測(cè)前就刪除噪聲坐昙。
??離群點(diǎn)檢測(cè)是有趣的，因?yàn)閼岩僧a(chǎn)生它們的機(jī)制不同于產(chǎn)生其他數(shù)據(jù)的機(jī)制芋忿。因此疾棵，在離群點(diǎn)檢測(cè)時(shí)痹仙，重要的是搞清楚為什么檢測(cè)到的離群點(diǎn)被某種其他機(jī)制產(chǎn)生开仰。通常，在其余數(shù)據(jù)上做各種假設(shè)恩溅，并且證明檢測(cè)到的離群點(diǎn)顯著違反了這些假設(shè)谓娃。

離群點(diǎn)的類型

離群點(diǎn)可以分成三類：全局離群點(diǎn)傻粘、情境（或條件）離群點(diǎn)和集體離群點(diǎn)帮掉。

2.1 全局離群點(diǎn)

在給定的數(shù)據(jù)集中，一個(gè)數(shù)據(jù)對(duì)象是全局離群點(diǎn)稽莉，如果它顯著的偏離數(shù)據(jù)集中的其他對(duì)象污秆。全局離群點(diǎn)是最簡(jiǎn)單的一類離群點(diǎn)，大部分的離群點(diǎn)檢測(cè)方法都旨在找出全局離群點(diǎn)良拼。

2.2 情境離群點(diǎn)

在給定的數(shù)據(jù)集中庸推，一個(gè)數(shù)據(jù)對(duì)象是情境離群點(diǎn)浇冰，如果關(guān)于對(duì)象的特定情境，它顯著的偏離其他對(duì)象际乘。情境離群點(diǎn)又稱為條件離群點(diǎn)漂佩，因?yàn)樗鼈儣l件的依賴于選定的情境罪塔。一般地垢袱，在情境離群點(diǎn)檢測(cè)中，所考慮數(shù)據(jù)對(duì)象的屬性劃分成兩組：
情境屬性：數(shù)據(jù)對(duì)象的情境屬性定義對(duì)象的情境请契。一般為靜態(tài)屬性變量爽锥，如信用卡欺詐檢測(cè)中畔柔，不同年齡、不同地區(qū)的人消費(fèi)情況是不同的腮考，先按照靜態(tài)屬性將人群大致分類玄捕，再檢測(cè)每一類的離群點(diǎn)，會(huì)得到更好的結(jié)果馅闽。
行為屬性：定義對(duì)象的特征馍迄，并用來(lái)評(píng)估對(duì)象關(guān)于它所處的情境是否為離群點(diǎn)。在上述例子中暴凑，行為屬性可以是消費(fèi)金額赘来，消費(fèi)頻率等
情境離群點(diǎn)分析為用戶提供了靈活性，因?yàn)橛脩艨梢栽诓煌榫诚驴疾祀x群點(diǎn)拿穴，這在許多應(yīng)用中都是非常期望的忧风。

2.3 集體離群點(diǎn)

給定一個(gè)數(shù)據(jù)集狮腿，數(shù)據(jù)對(duì)象的一個(gè)子集形成集體離群點(diǎn)呕诉，如果這些對(duì)象作為整體顯著的偏離整個(gè)數(shù)據(jù)集吃度。如一家供應(yīng)鏈公司椿每，每天處理數(shù)以千計(jì)的訂單和出貨。如果一個(gè)訂單的出貨延誤亦渗，則可能不是離群點(diǎn)汁尺，因?yàn)榻y(tǒng)計(jì)表明延誤時(shí)常發(fā)生。然而搂蜓，如果有一天有100個(gè)訂單延誤，則必須注意帮碰。這100個(gè)訂單整體來(lái)看收毫，形成一個(gè)離群點(diǎn)，盡管如果單個(gè)考慮殷勘，它們每個(gè)或許都不是離群點(diǎn)玲销。你可能需要更詳細(xì)地整個(gè)考察這些訂單贤斜，搞清楚出貨問(wèn)題逛裤。
與全局和情境離群點(diǎn)檢測(cè)不同，在集體離群點(diǎn)檢測(cè)中锁荔，不僅必須考慮個(gè)體對(duì)象的行為蝙砌，而且還要考慮對(duì)象組群的行為阳堕。因此恬总，為了檢測(cè)集體離群點(diǎn)壹堰，需要關(guān)于對(duì)象之間聯(lián)系的背景知識(shí)，如對(duì)象之間的距離或相似性測(cè)量方法贱纠。

離群點(diǎn)檢測(cè)方法

3.1 統(tǒng)計(jì)學(xué)方法

離群點(diǎn)檢測(cè)的統(tǒng)計(jì)學(xué)方法對(duì)數(shù)據(jù)的正常性做假定。假定數(shù)據(jù)集中的正常對(duì)象由一個(gè)隨機(jī)過(guò)程（生成模型）產(chǎn)生目木。因此刽射，正常對(duì)象出現(xiàn)在該隨機(jī)模型的高概率區(qū)域中剃执，而低概率區(qū)域中的對(duì)象是離群點(diǎn)肾档。
離群點(diǎn)檢測(cè)的統(tǒng)計(jì)學(xué)方法的一般思想是：學(xué)習(xí)一個(gè)擬合給定數(shù)據(jù)集的生成模型怒见，然后識(shí)別該模型低概率區(qū)域中的對(duì)象，把它們作為離群點(diǎn)闺阱。有許多不同方法來(lái)學(xué)習(xí)生成模型酣溃，一般而言纪隙，根據(jù)如何指定和如何學(xué)習(xí)模型绵咱，離群點(diǎn)檢測(cè)的統(tǒng)計(jì)學(xué)方法可以劃分成兩個(gè)主要類型：參數(shù)方法和非參數(shù)方法。
參數(shù)方法: 假定正常的數(shù)據(jù)對(duì)象被一個(gè)以為參數(shù)的參數(shù)分布產(chǎn)生黔姜。該參數(shù)分布的概率密度函數(shù)給出對(duì)象被該分布產(chǎn)生的概率秆吵。該值越小，越可能是離群點(diǎn)毙芜。
非參數(shù)方法: 并不假定先驗(yàn)統(tǒng)計(jì)模型，而是試圖從輸入數(shù)據(jù)確定模型隘冲。非參數(shù)方法的例子包括直方圖和核密度估計(jì)。

3.1.1 參數(shù)方法

1罗珍、基于正態(tài)分布的一元離群點(diǎn)檢測(cè)

??假定數(shù)據(jù)集由一個(gè)正態(tài)分布產(chǎn)生，然后通殃，可以由輸入數(shù)據(jù)學(xué)習(xí)正態(tài)分布的參數(shù)堕担，并把低概率的點(diǎn)識(shí)別為離群點(diǎn)佑惠。
??在正態(tài)分布的假定下旭咽，區(qū)域包含99.7%的數(shù)據(jù)穷绵，包含95.4%的數(shù)據(jù)特愿，包含68.3%的數(shù)據(jù)目养。視具體情況而定，將其區(qū)域外的數(shù)據(jù)視為離群點(diǎn)。
??這種直截了當(dāng)?shù)慕y(tǒng)計(jì)學(xué)離群點(diǎn)檢測(cè)方法也可以用于可視化。例如盒圖方法使用五數(shù)概況繪制一元輸入數(shù)據(jù)：最小的非離群點(diǎn)值（Min）饿自、第一個(gè)四分位數(shù)（Q1）、中位數(shù)（Q2）烛卧、第三個(gè)四分位數(shù)（Q3）和最大的非離群點(diǎn)值（Max）。
??四分位數(shù)極差（IQR）定義為Q3-Q1。比Q1小1.5倍的IQR或者比Q3大1.5倍的IQR的任何對(duì)象都視為離群點(diǎn)炬搭，因?yàn)镼1-1.5IQR和Q3+1.5IQR之間的區(qū)域包含了99.3%的對(duì)象。

2有额、多元離群點(diǎn)檢測(cè)

（1）使用馬哈拉諾比斯距離檢測(cè)多元離群點(diǎn)苛预。
對(duì)于一個(gè)多元數(shù)據(jù)集，設(shè)為均值向量。對(duì)于數(shù)據(jù)集中的對(duì)象丘薛，從到的馬哈拉諾比斯（Mahalanobis）距離為其中S是協(xié)方差矩陣。是一元數(shù)據(jù)，可以對(duì)它進(jìn)行離群點(diǎn)檢測(cè)。如果被確定為離群點(diǎn)聊疲，則也被視為離群點(diǎn)可训。
（2）使用統(tǒng)計(jì)量的多元離群點(diǎn)檢測(cè)飞崖。
在正態(tài)分布的假設(shè)下胯努，統(tǒng)計(jì)量可以用來(lái)捕獲多元離群點(diǎn)。對(duì)于對(duì)象，統(tǒng)計(jì)量是
其中晦墙，是在第維上的值寡痰，是所有對(duì)象在第維上的均值谓谦，而是維度反粥。如果對(duì)象的統(tǒng)計(jì)量很大尤蒿，則該對(duì)象是離群點(diǎn)腰池。
（3）使用混合參數(shù)分布
在許多情況下，數(shù)據(jù)是由正態(tài)分布產(chǎn)生的假定很有效。然而拘悦，當(dāng)實(shí)際數(shù)據(jù)很復(fù)雜時(shí)慰技，這種假定過(guò)于簡(jiǎn)單艾帐。在這種情況下捎稚，假定數(shù)據(jù)是被混合參數(shù)分布產(chǎn)生的。
混合參數(shù)分布中用期望最大化（EM）算法來(lái)估計(jì)參數(shù)条霜。具體情況比較復(fù)雜催什，可以參考韓家煒的《數(shù)據(jù)挖掘：概念與技術(shù)》一書。

3.1.2 非參數(shù)方法

在離群點(diǎn)檢測(cè)的非參數(shù)方法中宰睡，“正常數(shù)據(jù)”的模型從輸入數(shù)據(jù)學(xué)習(xí)蒲凶，而不是假定一個(gè)先驗(yàn)气筋。通常，非參數(shù)方法對(duì)數(shù)據(jù)做較少假定豹爹，因而在更多情況下都可以使用裆悄。

使用直方圖檢測(cè)離群點(diǎn)
包括如下兩步：
步驟1：構(gòu)造直方圖。盡管非參數(shù)方法并不假定任何先驗(yàn)統(tǒng)計(jì)模型臂聋，但是通常確實(shí)要求用戶提供參數(shù)，以便由數(shù)據(jù)學(xué)習(xí)或南。如指定直方圖的類型（等寬或等深的）和其他參數(shù)（如直方圖中的箱數(shù)或每個(gè)箱的大泻⒌取）。與參數(shù)方法不同采够，這些參數(shù)并不指定數(shù)據(jù)分布的類型（如高斯分布）肄方。
步驟2：檢測(cè)離群點(diǎn)河爹。為了確定一個(gè)對(duì)象是否是離群點(diǎn)搀崭，可以對(duì)照直方圖檢驗(yàn)它。在最簡(jiǎn)單的方法中刀森，如果該對(duì)象落入直方圖的一個(gè)箱中逝薪，則該對(duì)象被看做是正常的隅要，否則被認(rèn)為是離群點(diǎn)。

對(duì)于更復(fù)雜的方法董济，可以使用直方圖賦予每個(gè)對(duì)象一個(gè)離群點(diǎn)得分步清。一般可以令對(duì)象的離群點(diǎn)得分為該對(duì)象落入的箱的容積的倒數(shù)。得分越高虏肾，表明是離群點(diǎn)的概率越大廓啊。

使用直方圖作為離群點(diǎn)檢測(cè)的非參數(shù)模型的一個(gè)缺點(diǎn)是，很難選擇一個(gè)合適的箱尺寸封豪。一方面谴轮，如箱尺寸太小，則由很多正常對(duì)象都會(huì)落入空的或稀疏箱吹埠，因而被誤識(shí)別為離群點(diǎn)第步。這將導(dǎo)致很高的假正例率或低精度。相反藻雌，如果箱尺寸太大雌续，則離群點(diǎn)對(duì)象可能滲入某些頻繁的箱中，這將導(dǎo)致很高的假負(fù)例率或召回率胯杭。為了解決這些問(wèn)題驯杜，使用核密度估計(jì)來(lái)估計(jì)數(shù)據(jù)的概率密度分布。具體參考韓家煒的《數(shù)據(jù)挖掘：概念與技術(shù)》做个。

3.2 基于鄰近性的方法

??給定特征空間中的對(duì)象集鸽心，可以使用距離度量來(lái)量化對(duì)象間的相似性滚局。基于鄰近性的方法假定：離群點(diǎn)對(duì)象與它最近鄰的鄰近性顯著偏離數(shù)據(jù)集中其他對(duì)象與它們近鄰之間的鄰近性顽频。
??有兩種類型的基于鄰近性的離群點(diǎn)檢測(cè)方法：基于距離的和基于密度的方法藤肢。基于距離的離群點(diǎn)檢測(cè)方法考慮對(duì)象給定半徑的鄰域糯景。一個(gè)對(duì)象被認(rèn)為是離群點(diǎn)嘁圈，如果它的鄰域內(nèi)沒(méi)有足夠多的其他點(diǎn)◇盎矗基于密度的離群點(diǎn)檢測(cè)方法考察對(duì)象和它近鄰的密度最住。這里，一個(gè)對(duì)象被識(shí)別為離群點(diǎn)怠惶，如果它的密度相對(duì)于它的近鄰低得多涨缚。

3.2.1 基于距離的離群點(diǎn)檢測(cè)

對(duì)于待分析的數(shù)據(jù)對(duì)象集D，用戶可以指定一個(gè)距離閾值r來(lái)定義對(duì)象的合理鄰域策治。對(duì)于每個(gè)對(duì)象o脓魏，可以考察o的r-鄰域中的其他對(duì)象的個(gè)數(shù)。如果D中大多數(shù)對(duì)象都遠(yuǎn)離o通惫，即都不在o的r-鄰域中茂翔，則o可以被視為一個(gè)離群點(diǎn)。
令是距離閾值讽膏，是分?jǐn)?shù)閾值檩电。對(duì)象是一個(gè)離群點(diǎn)，如果
其中是距離度量府树。
如何計(jì)算-離群點(diǎn)俐末？一是嵌套循環(huán)方法，時(shí)間復(fù)雜度為奄侠。當(dāng)數(shù)據(jù)集很大時(shí)卓箫，該方法的開(kāi)銷很大。為了改進(jìn)性能垄潮，可以用基于網(wǎng)格的方法來(lái)實(shí)現(xiàn)烹卒。具體見(jiàn)韓家煒《數(shù)據(jù)挖掘》一書。

3.2.2 基于密度的離群點(diǎn)檢測(cè)

基于距離的離群點(diǎn)檢測(cè)從全局考慮數(shù)據(jù)集弯洗。由于以下兩個(gè)原因旅急，這種離群點(diǎn)被看成“全局離群點(diǎn)”：
l 例如，一個(gè)-離群點(diǎn)至少遠(yuǎn)離（用參數(shù)r定量）數(shù)據(jù)集中的對(duì)象牡整。換言之藐吮，這種離群點(diǎn)遠(yuǎn)離數(shù)據(jù)的大多數(shù)。
l 為了檢測(cè)基于距離的離群點(diǎn)，需要兩個(gè)距離參數(shù)谣辞，它們用于每個(gè)離群點(diǎn)對(duì)象迫摔。
現(xiàn)實(shí)世界的許多數(shù)據(jù)集都呈現(xiàn)更復(fù)雜的結(jié)構(gòu)，那里對(duì)象可能關(guān)于其局部鄰域泥从，而不是關(guān)于整個(gè)數(shù)據(jù)分布而被視為離群點(diǎn)句占。如下圖，基于距離的離群點(diǎn)檢測(cè)方法不能捕獲像o1和o2這樣的局部離群點(diǎn)躯嫉。
那么纱烘，如何確切地定義如圖所示的局部離群點(diǎn)？這里關(guān)鍵的思想是和敬，需要把對(duì)象周圍的密度與對(duì)象鄰域周圍的密度進(jìn)行比較凹炸。基于密度的離群點(diǎn)檢測(cè)方法的基本假定是：非離群點(diǎn)對(duì)象周圍的密度與其鄰域周圍的密度類似昼弟，而離群點(diǎn)對(duì)象周圍的密度顯著不同于其鄰域周圍的密度。

3.3 基于聚類的方法

基于聚類的方法通過(guò)考察對(duì)象與簇之間的關(guān)系檢測(cè)離群點(diǎn)奕筐。直觀地舱痘，離群點(diǎn)是一個(gè)對(duì)象，它屬于小的偏遠(yuǎn)簇离赫，或不屬于任何簇芭逝。
這導(dǎo)致三種基于聚類的離群點(diǎn)檢測(cè)的一般方法≡ㄐ兀考慮一個(gè)對(duì)象旬盯。
l 該對(duì)象屬于某個(gè)簇嗎？如果不翎猛，則它被識(shí)別為離群點(diǎn)胖翰。
l 該對(duì)象與最近的簇之間的距離很遠(yuǎn)嗎？如果是切厘，則它是離群點(diǎn)萨咳。
l 該對(duì)象是小簇或稀疏簇的一部分嗎?如果是，則該簇中的所有對(duì)象都是離群點(diǎn)疫稿。

下面對(duì)每一種方法考察一個(gè)例子培他。

例1 把離群點(diǎn)檢測(cè)為不屬于任何簇的對(duì)象。如圖1所示遗座，使用基于密度的聚類方法舀凛，如DBSCAN,注意到黑色點(diǎn)都屬于簇，白色點(diǎn)a不屬于任何簇途蒋，因而被認(rèn)為是離群點(diǎn)猛遍。

圖1 對(duì)象a是離群點(diǎn)，因?yàn)?它不屬于任何簇

圖2 離群點(diǎn)（a,b,c）都（關(guān)于簇中心）遠(yuǎn)離距它們最近的簇

例2 使用到最近簇的距離的基于聚類的離群點(diǎn)檢測(cè)。如圖2所示螃壤，使用k-均值聚類方法抗果，可以把圖2中的數(shù)據(jù)點(diǎn)劃分成3個(gè)簇，如圖中不同符號(hào)所示奸晴，每個(gè)簇中心用“+”標(biāo)記冤馏。對(duì)于每個(gè)對(duì)象o，都可以根據(jù)該對(duì)象與最近簇中心的距離寄啼，賦予該對(duì)象一個(gè)離群點(diǎn)得分逮光。假設(shè)到o的最近中心為c,則o與c之間的距離為dist(o,c)，c與指派到c的對(duì)象之間的平均距離為L(zhǎng),比率度量與平均值的差異程度墩划。在圖2中涕刚，點(diǎn)a,b和c都相對(duì)遠(yuǎn)離它們的對(duì)應(yīng)中心，因而被懷疑是離群點(diǎn)乙帮。

例3 檢測(cè)小簇中的離群點(diǎn)

迄今為止我們看到的每種方法都只檢測(cè)個(gè)體離群點(diǎn)杜漠，因?yàn)樗鼈円淮伟岩粋€(gè)對(duì)象與數(shù)據(jù)集中的簇進(jìn)行比較。然而察净，在大型數(shù)據(jù)中驾茴，一些離群點(diǎn)可能是類似的，并且形成一個(gè)小簇氢卡。例如锈至，在入侵檢測(cè)中，使用相同手段攻擊系統(tǒng)的黑客可能形成一個(gè)簇译秦。迄今為止所討論的方法可能被這種離群點(diǎn)所欺騙峡捡。
為了解決這一問(wèn)題，第三種基于聚類的離群點(diǎn)檢測(cè)方法識(shí)別小簇或稀疏簇筑悴，并宣告這些簇中的對(duì)象也是離群點(diǎn)们拙。這種方法的一個(gè)例子是FindCBLOF算法，其方法如下雷猪。

（1）找出數(shù)據(jù)集中的簇睛竣，并把它們按大小降序排列。該算法假定大部分?jǐn)?shù)據(jù)點(diǎn)都不是離群點(diǎn)求摇，它使用一個(gè)參數(shù)來(lái)區(qū)別大簇和小簇射沟。任何至少包含數(shù)據(jù)集中百分之（如，=90%）數(shù)據(jù)點(diǎn)的簇都被視為大簇与境，而其余的簇被看成小簇验夯。
（2）對(duì)于每個(gè)數(shù)據(jù)點(diǎn)賦予基于簇的局部離群點(diǎn)因子（CBLOF），對(duì)于屬于大簇的點(diǎn)摔刁，它的CBLOF是簇的大小和該點(diǎn)與簇的相似性的乘積挥转。對(duì)于屬于小簇的點(diǎn)，它的CBLOF用小簇的大小和該點(diǎn)與最近的大簇的相似性的乘積計(jì)算。
CBLOF用統(tǒng)計(jì)學(xué)方法定義點(diǎn)和簇之間的相似性绑谣，代表點(diǎn)屬于簇的概率党窜。該值越大，點(diǎn)與簇越相似借宵。CBLOF值可以檢測(cè)遠(yuǎn)離任何簇的離群點(diǎn)幌衣。
基于聚類的離群點(diǎn)檢測(cè)方法具有如下優(yōu)點(diǎn)。首先壤玫，它們可以檢測(cè)離群點(diǎn)豁护，而不要求數(shù)據(jù)是有標(biāo)號(hào)的，即它們以無(wú)監(jiān)督方式檢測(cè)欲间。它們對(duì)許多類型的數(shù)據(jù)都有效楚里。簇可以看成是數(shù)據(jù)的概括，一旦得到簇猎贴，基于聚類的方法只需要把對(duì)象與簇進(jìn)行比較班缎，以確定該對(duì)象是否是離群點(diǎn)，這一過(guò)程通常很快她渴，因?yàn)榕c對(duì)象總數(shù)相比吝梅，簇的個(gè)數(shù)通常很小。
基于聚類的方法的缺點(diǎn)是：它的有效性高度依賴于所使用的聚類方法惹骂。這些方法對(duì)于離群點(diǎn)檢測(cè)而言可能不是最優(yōu)的。對(duì)于大型數(shù)據(jù)集做瞪，聚類方法通常開(kāi)銷很大对粪，這可能成為一個(gè)瓶頸。

3.4 基于分類的方法

如果訓(xùn)練數(shù)據(jù)具有類標(biāo)號(hào)装蓬，則離群點(diǎn)檢測(cè)可以看做分類問(wèn)題著拭。基于分類的離群點(diǎn)檢測(cè)方法的一般思想是牍帚，訓(xùn)練一個(gè)可以區(qū)分“正忱苷冢”數(shù)據(jù)和離群點(diǎn)的分類模型。
基于分類的離群點(diǎn)檢測(cè)方法通常使用一類模型（單分類模型SVDD）暗赶，即構(gòu)造一個(gè)僅描述正常類的分類器鄙币，不屬于正常類的任何樣本都被視為離群點(diǎn)。
基于分類的方法和基于聚類的方法可以聯(lián)合使用蹂随，以半監(jiān)督的方式檢測(cè)離群點(diǎn)十嘿。
例通過(guò)半監(jiān)督學(xué)習(xí)檢測(cè)離群點(diǎn)

如上圖所示，其中對(duì)象被標(biāo)記為“正吃浪”或“離群點(diǎn)”绩衷，或者沒(méi)有標(biāo)號(hào)。使用基于聚類的方法，發(fā)現(xiàn)一個(gè)大簇C和一個(gè)小簇C1咳燕。因?yàn)镃中的某些對(duì)象攜帶了標(biāo)號(hào)“正澄鹁觯”，因此可以把該簇的所有對(duì)象（包括沒(méi)有標(biāo)號(hào)的對(duì)象）都看做正常對(duì)象招盲。在離群點(diǎn)檢測(cè)中低缩，使用這個(gè)簇的一類模型來(lái)識(shí)別離群點(diǎn)。類似的宪肖，因?yàn)榇谻1中的某些對(duì)象攜帶標(biāo)號(hào)“離群點(diǎn)”表制，因此宣布C1中的所有對(duì)象都是離群點(diǎn)。未落入C模型中的任何對(duì)象（如a）也被視為離群點(diǎn)控乾。

3.5 挖掘情境離群點(diǎn)和集體離群點(diǎn)

與一般的離群點(diǎn)檢測(cè)相比么介，識(shí)別情境離群點(diǎn)需要分析對(duì)應(yīng)的情境信息。情境離群點(diǎn)檢測(cè)方法可以根據(jù)情境是否可以清楚地識(shí)別而分成兩類蜕衡。

3.5.1 把情境離群點(diǎn)檢測(cè)轉(zhuǎn)換成傳統(tǒng)的離群點(diǎn)檢測(cè)

這類方法適用于情境可以被清楚識(shí)別的情況壤短，其基本思想是把情境離群點(diǎn)檢測(cè)問(wèn)題轉(zhuǎn)換成典型的離群點(diǎn)檢測(cè)問(wèn)題。具體地說(shuō)慨仿，對(duì)于給定的數(shù)據(jù)對(duì)象久脯，用兩步來(lái)評(píng)估該對(duì)象是否是離群點(diǎn)。第一步镰吆，使用對(duì)象的情境屬性識(shí)別對(duì)象的情境帘撰。第二步，使用一種傳統(tǒng)的離群點(diǎn)檢測(cè)方法万皿，估計(jì)該對(duì)象的離群點(diǎn)得分摧找。

3.5.2 關(guān)于情境對(duì)正常行為建模

在某些應(yīng)用中，清楚地把數(shù)據(jù)劃分成情境是不方便的或不可行的牢硅。這時(shí)蹬耘，可以關(guān)于情境對(duì)正常行為建模。使用一個(gè)訓(xùn)練數(shù)據(jù)集减余，這種方法訓(xùn)練一個(gè)模型综苔，關(guān)于情境屬性的值，預(yù)測(cè)期望的行為屬性值位岔。然后如筛，為了確定一個(gè)數(shù)據(jù)對(duì)象是否是情境離群點(diǎn)，可以在該對(duì)象的情境屬性上使用該模型赃承。如果該對(duì)象的行為屬性值顯著地偏離該模型的預(yù)測(cè)值妙黍，則該對(duì)象被宣布為情境離群點(diǎn)。
通過(guò)使用連接情境和行為的預(yù)測(cè)模型瞧剖，這些方法避免直接識(shí)別具體情境拭嫁。許多分類和預(yù)測(cè)技術(shù)都可以用來(lái)構(gòu)建這種模型可免，如回歸、馬爾科夫模型和有窮狀態(tài)自動(dòng)機(jī)等等做粤。

3.5.3 挖掘集體離群點(diǎn)

與情境離群點(diǎn)檢測(cè)一樣浇借，集體離群點(diǎn)檢測(cè)方法也可以劃分為兩類。第一類方法把問(wèn)題歸結(jié)為傳統(tǒng)的離群點(diǎn)檢測(cè)怕品。其策略是識(shí)別結(jié)構(gòu)單元妇垢，把每個(gè)結(jié)構(gòu)單元（例如，子序列肉康、時(shí)間序列片段闯估、局部區(qū)域或子圖）看做是一個(gè)數(shù)據(jù)對(duì)象，并提取特征吼和。這樣涨薪，集體離群點(diǎn)檢測(cè)問(wèn)題就轉(zhuǎn)換成在使用提取的特征構(gòu)造的“結(jié)構(gòu)化對(duì)象”集上的離群點(diǎn)檢測(cè)。一個(gè)結(jié)構(gòu)單元代表原數(shù)據(jù)集中的一組對(duì)象炫乓，如果該結(jié)構(gòu)單元顯著地偏離提取的特征空間中的期望趨勢(shì)刚夺，則它是一個(gè)集體離群點(diǎn)。
為集體離群點(diǎn)檢測(cè)預(yù)先定義結(jié)構(gòu)單元可能是困難的末捣，或者是不可能的侠姑。因此，第二類方法直接對(duì)結(jié)構(gòu)單元的期望行為建模箩做。例如莽红，為了在時(shí)間序列中檢測(cè)離群點(diǎn)，一種方法是從序列中學(xué)習(xí)馬爾科夫模型邦邦。因此船老，一個(gè)子序列被宣布為集體離群點(diǎn)，如果它顯著地偏離該模型圃酵。

3.6 高維數(shù)據(jù)中的離群點(diǎn)檢測(cè)

一般地，高維數(shù)據(jù)的離群點(diǎn)檢測(cè)方法應(yīng)該應(yīng)對(duì)以下挑戰(zhàn)：

l 離群點(diǎn)的解釋：不僅應(yīng)該能夠識(shí)別檢測(cè)離群點(diǎn)馍管，而且能夠提供離群點(diǎn)的解釋郭赐。離群點(diǎn)的解釋可能是，例如确沸，揭示離群點(diǎn)的特定子空間捌锭，或者關(guān)于對(duì)象的“離群點(diǎn)性”的評(píng)估。這種解釋可以幫助用戶理解離群點(diǎn)的含義和意義罗捎。
l 數(shù)據(jù)的稀疏性：這些方法應(yīng)該能處理高維空間的稀疏性观谦。隨著維度的增加，對(duì)象之間的距離嚴(yán)重地被噪聲所左右桨菜。因此豁状，高維空間中的數(shù)據(jù)通常是稀疏的捉偏。
l 數(shù)據(jù)子空間：它們應(yīng)該以合適的方式對(duì)離群點(diǎn)建模，例如泻红，自適應(yīng)現(xiàn)實(shí)離群點(diǎn)的子空間和捕獲數(shù)據(jù)的局部變化夭禽。在所有的子空間上使用固定的距離閾值來(lái)檢測(cè)離群點(diǎn)捕食一種好想法，因?yàn)閮蓚€(gè)對(duì)象之間的距離隨著維度增加而單調(diào)增加谊路。
l 關(guān)于維度的可伸縮性：隨著維度的增加讹躯，子空間的數(shù)量指數(shù)增加。包含所有可能的子空間的窮舉組合探索不是可伸縮的選擇缠劝。
高維數(shù)據(jù)的離群點(diǎn)檢測(cè)方法可以劃分成三種主要方法潮梯，包括擴(kuò)充的傳統(tǒng)離群點(diǎn)檢測(cè)、發(fā)現(xiàn)子空間中的離群點(diǎn)和對(duì)高維離群點(diǎn)建模惨恭。

3.6.1 擴(kuò)充的傳統(tǒng)離群點(diǎn)檢測(cè)

一種高維數(shù)據(jù)離群點(diǎn)檢測(cè)方法是擴(kuò)充的傳統(tǒng)離群點(diǎn)檢測(cè)方法秉馏。它使用傳統(tǒng)的基于鄰近性的離群點(diǎn)模型。然而喉恋，為了克服高維空間中鄰近性度量惡化問(wèn)題沃饶，它使用其他度量，或構(gòu)造子空間并在其中檢測(cè)離群點(diǎn)轻黑。

HilOut算法就是這種方法的一個(gè)例子糊肤。HitOut找出基于距離的離群點(diǎn)，但在離群點(diǎn)檢測(cè)中使用距離的秩氓鄙，而不是絕對(duì)距離馆揉。具體地說(shuō)，對(duì)于每個(gè)對(duì)象o抖拦，HitOut找出o的k個(gè)最近鄰升酣，記作nn1(o),nn2(o)……nnk(o),其中k是一個(gè)依賴于應(yīng)用的參數(shù)。參數(shù)o的權(quán)重定義為

所有對(duì)象按權(quán)重遞減序定秩态罪。權(quán)重最高的top-p個(gè)對(duì)象作為離群點(diǎn)輸出噩茄，其中p是另一個(gè)用戶指定的參數(shù)。

HilOut算法計(jì)算每個(gè)對(duì)象的k-最近鄰開(kāi)銷很大复颈，當(dāng)維度很高并且數(shù)據(jù)很大時(shí)不能伸縮绩聘。
另一種方法則是通過(guò)維歸約，把高維離群點(diǎn)檢測(cè)問(wèn)題歸結(jié)為較低維上的離群點(diǎn)檢測(cè)耗啦。其基本思想是凿菩，把高維空間歸約到低維空間，那里標(biāo)準(zhǔn)的距離度量仍然能夠區(qū)分離群點(diǎn)帜讲。如果能夠找到這樣的較低維空間衅谷，則可以用傳統(tǒng)的離群點(diǎn)檢測(cè)方法。
為了降低維度似将，可以對(duì)離群點(diǎn)檢測(cè)使用或擴(kuò)充一般的特征特征選擇和提取方法获黔。例如蚀苛，可以用主成分分析（PCA）來(lái)提取一個(gè)低維空間。

3.6.2 發(fā)現(xiàn)子空間中的離群點(diǎn)

高維數(shù)據(jù)中離群點(diǎn)檢測(cè)的另一種方法是搜索各種子空間中的離群點(diǎn)肢执。其唯一的優(yōu)點(diǎn)是枉阵，如果發(fā)現(xiàn)一個(gè)對(duì)象是很低維度的子空間的離群點(diǎn)，則該子空間提供了重要信息预茄，解釋該對(duì)象為什么和在何種程度上是離群點(diǎn)兴溜。
如何檢測(cè)子空間中的離群點(diǎn)，一種方法是基于網(wǎng)格的子空間離群點(diǎn)檢測(cè)耻陕。具體做法見(jiàn)韓家煒《數(shù)據(jù)挖掘》拙徽。

3.6.3 高維離群點(diǎn)建模

另一種方法是試圖直接為高維離群點(diǎn)建立一個(gè)新模型。這種方法通常避免鄰近性度量诗宣，而是采用新的啟發(fā)式方法來(lái)檢測(cè)離群點(diǎn)膘怕。具體做法見(jiàn)韓家煒《數(shù)據(jù)挖掘》。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末召庞，一起剝皮案震驚了整個(gè)濱河市岛心，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌篮灼，老刑警劉巖忘古，帶你破解...
沈念sama閱讀 206,126評(píng)論 6贊 481
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場(chǎng)離奇詭異诅诱，居然都是意外死亡髓堪，警方通過(guò)查閱死者的電腦和手機(jī)，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 88,254評(píng)論 2贊 382
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門娘荡，熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)干旁，“玉大人，你說(shuō)我怎么就攤上這事炮沐≌海” “怎么了？”我有些...
開(kāi)封第一講書人閱讀 152,445評(píng)論 0贊 341
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵大年，是天一觀的道長(zhǎng)祭阀。經(jīng)常有香客問(wèn)我，道長(zhǎng)鲜戒，這世上最難降的妖魔是什么？我笑而不...
開(kāi)封第一講書人閱讀 55,185評(píng)論 1贊 278
?港島之戀（遺憾婚禮）
正文為了忘掉前任抹凳，我火速辦了婚禮遏餐，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘赢底。我一直安慰自己失都，他們只是感情好柏蘑，可當(dāng)我...
茶點(diǎn)故事閱讀 64,178評(píng)論 5贊 371
惡毒庶女頂嫁案：這布局不是一般人想出來(lái)的
文/花漫我一把揭開(kāi)白布。她就那樣靜靜地躺著粹庞，像睡著了一般咳焚。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上庞溜，一...
開(kāi)封第一講書人閱讀 48,970評(píng)論 1贊 284
城市分裂傳說(shuō)
那天革半，我揣著相機(jī)與錄音，去河邊找鬼流码。笑死又官，一個(gè)胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的漫试。我是一名探鬼主播六敬，決...
沈念sama閱讀 38,276評(píng)論 3贊 399
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開(kāi)眼，長(zhǎng)吁一口氣：“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼驾荣！你這毒婦竟也來(lái)了外构？” 一聲冷哼從身側(cè)響起，我...
開(kāi)封第一講書人閱讀 36,927評(píng)論 0贊 259
萬(wàn)榮殺人案實(shí)錄
序言：老撾萬(wàn)榮一對(duì)情侶失蹤播掷，失蹤者是張志新（化名）和其女友劉穎审编，沒(méi)想到半個(gè)月后，有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體叮趴，經(jīng)...
沈念sama閱讀 43,400評(píng)論 1贊 300
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡割笙，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 35,883評(píng)論 2贊 323
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了眯亦。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片伤溉。...
茶點(diǎn)故事閱讀 37,997評(píng)論 1贊 333
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡，死狀恐怖妻率，靈堂內(nèi)的尸體忽然破棺而出乱顾，到底是詐尸還是另有隱情，我是刑警寧澤宫静，帶...
沈念sama閱讀 33,646評(píng)論 4贊 322
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布走净，位于F島的核電站，受9級(jí)特大地震影響孤里，放射性物質(zhì)發(fā)生泄漏伏伯。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 39,213評(píng)論 3贊 307
男人毒藥：我在死后第九天來(lái)索命
文/蒙蒙一捌袜、第九天我趴在偏房一處隱蔽的房頂上張望说搅。院中可真熱鬧，春花似錦虏等、人聲如沸弄唧。這莊子的主人今日做“春日...
開(kāi)封第一講書人閱讀 30,204評(píng)論 0贊 19
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)候引。三九已至侯养，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間澄干，已是汗流浹背逛揩。一陣腳步聲響...
開(kāi)封第一講書人閱讀 31,423評(píng)論 1贊 260
情欲美人皮
我被黑心中介騙來(lái)泰國(guó)打工，沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留傻寂，地道東北人息尺。一個(gè)月前我還...
沈念sama閱讀 45,423評(píng)論 2贊 352
代替公主和親
正文我出身青樓，卻偏偏與公主長(zhǎng)得像疾掰，于是被迫代替她去往敵國(guó)和親搂誉。傳聞我的和親對(duì)象是個(gè)殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 42,722評(píng)論 2贊 345

異常檢測(cè)方法 二