異常對(duì)象被稱作離群點(diǎn)。異常檢測(cè)也稱偏差檢測(cè)和例外挖掘鼎文。
常見(jiàn)的異常成因:數(shù)據(jù)來(lái)源于不同的類(異常對(duì)象來(lái)自于一個(gè)與大多數(shù)數(shù)據(jù)對(duì)象源(類)不同的源(類)的思想)槽棍,自然變異冀自,以及數(shù)據(jù)測(cè)量或收集誤差弹囚。
離群點(diǎn)的類型
- 基于模型的技術(shù):首先建立一個(gè)數(shù)據(jù)模型厨相,異常是那些同模型不能完美擬合的對(duì)象;如果模型是簇的集合鸥鹉,則異常是不顯著屬于任何簇的對(duì)象领铐;在使用回歸模型時(shí),異常是相對(duì)遠(yuǎn)離預(yù)測(cè)值的對(duì)象宋舷。
- 基于鄰近度的技術(shù):通常可以在對(duì)象之間定義鄰近性度量瓢姻,異常對(duì)象是那些遠(yuǎn)離其他對(duì)象的對(duì)象祝蝠。
- 基于密度的技術(shù):僅當(dāng)一個(gè)點(diǎn)的局部密度顯著低于它的大部分近鄰時(shí)才將其分類為離群點(diǎn)。
離群點(diǎn)檢測(cè)方法
1. 統(tǒng)計(jì)方法
??統(tǒng)計(jì)學(xué)方法是基于模型的方法幻碱,即為數(shù)據(jù)創(chuàng)建一個(gè)模型绎狭,并且根據(jù)對(duì)象擬合模型的情況來(lái)評(píng)估它們。大部分用于離群點(diǎn)檢測(cè)的統(tǒng)計(jì)學(xué)方法都是構(gòu)建一個(gè)概率分布模型褥傍,并考慮對(duì)象有多大可能符合該模型儡嘶。離群點(diǎn)的概率定義:離群點(diǎn)是一個(gè)對(duì)象,關(guān)于數(shù)據(jù)的概率分布模型恍风,它具有低概率蹦狂。這種情況的前提是必須知道數(shù)據(jù)集服從什么分布,如果估計(jì)錯(cuò)誤就造成了重尾分布朋贬。異常檢測(cè)的混合模型方法:對(duì)于異常檢測(cè)凯楔,數(shù)據(jù)用兩個(gè)分布的混合模型建模,一個(gè)分布為普通數(shù)據(jù)锦募,而另一個(gè)為離群點(diǎn)摆屯。
??聚類和異常檢測(cè)目標(biāo)都是估計(jì)分布的參數(shù),以最大化數(shù)據(jù)的總似然(概率)糠亩。聚類時(shí)虐骑,使用EM算法估計(jì)每個(gè)概率分布的參數(shù)准验。然而,這里提供的異常檢測(cè)技術(shù)使用一種更簡(jiǎn)單的方法廷没。初始時(shí)將所有對(duì)象放入普通對(duì)象集糊饱,而異常對(duì)象集為空。然后腕柜,用一個(gè)迭代過(guò)程將對(duì)象從普通集轉(zhuǎn)移到異常集济似,只要該轉(zhuǎn)移能提高數(shù)據(jù)的總似然(其實(shí)等價(jià)于把在正常對(duì)象的分布下具有低概率的對(duì)象分類為離群點(diǎn))。(假設(shè)異常對(duì)象屬于均勻分布)盏缤。異常對(duì)象由這樣一些對(duì)象組成砰蠢,這些對(duì)象在均勻分布下比在正常分布下具有顯著較高的概率。
優(yōu)缺點(diǎn):
(1)有堅(jiān)實(shí)的統(tǒng)計(jì)學(xué)理論基礎(chǔ)唉铜,當(dāng)存在充分的數(shù)據(jù)和所用的檢驗(yàn)類型的知識(shí)時(shí)台舱,這些檢驗(yàn)可能非常有效;
(2)對(duì)于多元數(shù)據(jù)潭流,可用的選擇少一些竞惋,并且對(duì)于高維數(shù)據(jù),這些檢測(cè)可能性很差灰嫉。
2. 基于鄰近度的離群點(diǎn)檢測(cè)
一個(gè)對(duì)象是異常的拆宛,如果它遠(yuǎn)離大部分點(diǎn)。這種方法比統(tǒng)計(jì)學(xué)方法更一般讼撒、更容易使用浑厚,因?yàn)榇_定數(shù)據(jù)集的有意義的鄰近性度量比確定它的統(tǒng)計(jì)分布更容易。一個(gè)對(duì)象的離群點(diǎn)得分由到它的k-最近鄰的距離給定根盒。離群點(diǎn)得分對(duì)k的取值高度敏感钳幅。如果k太小(例如1)炎滞,則少量的鄰近離群點(diǎn)可能導(dǎo)致較低的離群點(diǎn)得分敢艰;如果K太大,則點(diǎn)數(shù)少于k的簇中所有的對(duì)象可能都成了離群點(diǎn)册赛。為了使該方案對(duì)于k的選取更具有魯棒性钠导,可以使用k個(gè)最近鄰的平均距離。
優(yōu)缺點(diǎn):
(1)簡(jiǎn)單击奶。
(2)缺點(diǎn):基于鄰近度的方法需要O(m2)時(shí)間,大數(shù)據(jù)集不適用柜砾。
(3)該方法對(duì)參數(shù)的選擇也是敏感的湃望。
(4)不能處理具有不同密度區(qū)域的數(shù)據(jù)集,因?yàn)樗褂萌珠撝担荒芸紤]這種密度的變化证芭。
3. 基于密度的離群點(diǎn)檢測(cè)
從基于密度的觀點(diǎn)來(lái)說(shuō)瞳浦,離群點(diǎn)是在低密度區(qū)域中的對(duì)象。一個(gè)對(duì)象的離群點(diǎn)得分是該對(duì)象周?chē)芏鹊哪妗?/strong>基于密度的離群點(diǎn)檢測(cè)與基于鄰近度的離群點(diǎn)檢測(cè)密切相關(guān)废士,因?yàn)槊芏韧ǔS绵徑榷x叫潦。一種常用的定義密度的方法是,定義密度為到k個(gè)最近鄰的平均距離的倒數(shù)官硝。如果該距離小矗蕊,則密度高,反之亦然氢架。另一種密度定義是使用DBSCAN聚類算法使用的密度定義傻咖,即一個(gè)對(duì)象周?chē)拿芏鹊扔谠搶?duì)象指定距離d內(nèi)對(duì)象的個(gè)數(shù)。需要小心的選擇d岖研,如果d太小卿操,則許多正常點(diǎn)可能具有低密度,從而具有高離群點(diǎn)得分孙援。如果d太大害淤,則許多離群點(diǎn)可能具有與正常點(diǎn)類似的密度(和離群點(diǎn)得分)。使用任何密度定義檢測(cè)離群點(diǎn)具有與基于鄰近度的離群點(diǎn)方案類似的特點(diǎn)和局限性拓售。特殊地窥摄,當(dāng)數(shù)據(jù)包含不同密度的區(qū)域時(shí),它們不能正確的識(shí)別離群點(diǎn)础淤。為了正確的識(shí)別這種數(shù)據(jù)集中的離群點(diǎn)溪王,我們需要與對(duì)象鄰域相關(guān)的密度概念,也就是定義相對(duì)密度值骇。常見(jiàn)的有兩種方法:
(1)使用基于SNN密度的聚類算法使用的方法;
(2)用點(diǎn)x的密度與它的最近鄰y的平均密度之比作為相對(duì)密度移国。使用相對(duì)密度的離群點(diǎn)檢測(cè)(局部離群點(diǎn)要素LOF技術(shù)):首先吱瘩,對(duì)于指定的近鄰個(gè)數(shù)(k),基于對(duì)象的最近鄰計(jì)算對(duì)象的密度density(x,k)迹缀,由此計(jì)算每個(gè)對(duì)象的離群點(diǎn)得分使碾;然后,計(jì)算點(diǎn)的鄰近平均密度祝懂,并使用它們計(jì)算點(diǎn)的平均相對(duì)密度票摇。這個(gè)量指示x是否在比它的近鄰更稠密或更稀疏的鄰域內(nèi),并取作x的離群點(diǎn)得分(這個(gè)是建立在上面的離群點(diǎn)得分基礎(chǔ)上的)砚蓬。
優(yōu)缺點(diǎn):
(1)給出了對(duì)象是離群點(diǎn)的定量度量矢门,并且即使數(shù)據(jù)具有不同的區(qū)域也能夠很好的處理;
(2)與基于距離的方法一樣,這些方法必然具有O(m2)的時(shí)間復(fù)雜度祟剔。對(duì)于低維數(shù)據(jù)使用特定的數(shù)據(jù)結(jié)構(gòu)可以達(dá)到O(mlogm)隔躲;
(3)參數(shù)選擇是困難的。雖然LOF算法通過(guò)觀察不同的k值物延,然后取得最大離群點(diǎn)得分來(lái)處理該問(wèn)題宣旱,但是,仍然需要選擇這些值的上下界叛薯。
4. 基于聚類的技術(shù)浑吟。
??一種利用聚類檢測(cè)離群點(diǎn)的方法是丟棄遠(yuǎn)離其他簇的小簇。這個(gè)方法可以和其他任何聚類技術(shù)一起使用耗溜,但是需要最小簇大小和小簇與其他簇之間距離的閾值褪测。這種方案對(duì)簇個(gè)數(shù)的選擇高度敏感。使用這個(gè)方案很難將離群點(diǎn)得分附加到對(duì)象上糖埋。一種更系統(tǒng)的方法闷旧,首先聚類所有對(duì)象,然后評(píng)估對(duì)象屬于簇的程度(離群點(diǎn)得分)(基于原型的聚類可用離中心點(diǎn)的距離來(lái)評(píng)估城舞,對(duì)具有目標(biāo)函數(shù)的聚類技術(shù)該得分反映刪除對(duì)象后目標(biāo)函數(shù)的改進(jìn)(這個(gè)可能是計(jì)算密集的))轩触。基于聚類的離群點(diǎn):一個(gè)對(duì)象是基于聚類的離群點(diǎn)家夺,如果該對(duì)象不強(qiáng)屬于任何簇脱柱。離群點(diǎn)對(duì)初始聚類的影響:如果通過(guò)聚類檢測(cè)離群點(diǎn),則由于離群點(diǎn)影響聚類拉馋,存在一個(gè)問(wèn)題:結(jié)構(gòu)是否有效榨为。為了處理該問(wèn)題,可以使用如下方法:對(duì)象聚類煌茴,刪除離群點(diǎn)随闺,對(duì)象再次聚類(這個(gè)不能保證產(chǎn)生最優(yōu)結(jié)果)。還有一種更復(fù)雜的方法:取一組不能很好的擬合任何簇的特殊對(duì)象蔓腐,這組對(duì)象代表潛在的離群點(diǎn)矩乐。隨著聚類過(guò)程的進(jìn)展,簇在變化回论。不再?gòu)?qiáng)屬于任何簇的對(duì)象被添加到潛在的離群點(diǎn)集合散罕;而當(dāng)前在該集合中的對(duì)象被測(cè)試,如果它現(xiàn)在強(qiáng)屬于一個(gè)簇傀蓉,就可以將它從潛在的離群點(diǎn)集合中移除欧漱。聚類過(guò)程結(jié)束時(shí)還留在該集合中的點(diǎn)被分類為離群點(diǎn)(這種方法也不能保證產(chǎn)生最優(yōu)解,甚至不比前面的簡(jiǎn)單算法好葬燎,在使用相對(duì)距離計(jì)算離群點(diǎn)得分時(shí)误甚,這個(gè)問(wèn)題特別嚴(yán)重)缚甩。
??對(duì)象是否被認(rèn)為是離群點(diǎn)可能依賴于簇的個(gè)數(shù)(如k很大時(shí)的噪聲簇)。該問(wèn)題也沒(méi)有簡(jiǎn)單的答案靶草。一種策略是對(duì)于不同的簇個(gè)數(shù)重復(fù)該分析蹄胰。另一種方法是找出大量小簇,其想法是:
(1)較小的簇傾向于更加凝聚奕翔,
(2)如果存在大量小簇時(shí)一個(gè)對(duì)象是離群點(diǎn)裕寨,則它多半是一個(gè)真正的離群點(diǎn)。不利的一面是一組離群點(diǎn)可能形成小簇而逃避檢測(cè)派继。
優(yōu)缺點(diǎn):
(1)基于線性和接近線性復(fù)雜度(k均值)的聚類技術(shù)來(lái)發(fā)現(xiàn)離群點(diǎn)可能是高度有效的宾袜;
(2)簇的定義通常是離群點(diǎn)的補(bǔ),因此可能同時(shí)發(fā)現(xiàn)簇和離群點(diǎn)驾窟;
(3)產(chǎn)生的離群點(diǎn)集和它們的得分可能非常依賴所用的簇的個(gè)數(shù)和數(shù)據(jù)中離群點(diǎn)的存在性庆猫;
(4)聚類算法產(chǎn)生的簇的質(zhì)量對(duì)該算法產(chǎn)生的離群點(diǎn)的質(zhì)量影響非常大。