異常檢測(cè)方法一

異常對(duì)象被稱作離群點(diǎn)。異常檢測(cè)也稱偏差檢測(cè)和例外挖掘鼎文。
常見(jiàn)的異常成因：數(shù)據(jù)來(lái)源于不同的類（異常對(duì)象來(lái)自于一個(gè)與大多數(shù)數(shù)據(jù)對(duì)象源（類）不同的源（類）的思想）槽棍，自然變異冀自，以及數(shù)據(jù)測(cè)量或收集誤差弹囚。

離群點(diǎn)的類型

基于模型的技術(shù)：首先建立一個(gè)數(shù)據(jù)模型厨相，異常是那些同模型不能完美擬合的對(duì)象；如果模型是簇的集合鸥鹉，則異常是不顯著屬于任何簇的對(duì)象领铐；在使用回歸模型時(shí)，異常是相對(duì)遠(yuǎn)離預(yù)測(cè)值的對(duì)象宋舷。
基于鄰近度的技術(shù)：通常可以在對(duì)象之間定義鄰近性度量瓢姻，異常對(duì)象是那些遠(yuǎn)離其他對(duì)象的對(duì)象祝蝠。
基于密度的技術(shù)：僅當(dāng)一個(gè)點(diǎn)的局部密度顯著低于它的大部分近鄰時(shí)才將其分類為離群點(diǎn)。

離群點(diǎn)檢測(cè)方法

1. 統(tǒng)計(jì)方法

??統(tǒng)計(jì)學(xué)方法是基于模型的方法幻碱，即為數(shù)據(jù)創(chuàng)建一個(gè)模型绎狭，并且根據(jù)對(duì)象擬合模型的情況來(lái)評(píng)估它們。大部分用于離群點(diǎn)檢測(cè)的統(tǒng)計(jì)學(xué)方法都是構(gòu)建一個(gè)概率分布模型褥傍，并考慮對(duì)象有多大可能符合該模型儡嘶。離群點(diǎn)的概率定義：離群點(diǎn)是一個(gè)對(duì)象，關(guān)于數(shù)據(jù)的概率分布模型恍风，它具有低概率蹦狂。這種情況的前提是必須知道數(shù)據(jù)集服從什么分布，如果估計(jì)錯(cuò)誤就造成了重尾分布朋贬。異常檢測(cè)的混合模型方法：對(duì)于異常檢測(cè)凯楔，數(shù)據(jù)用兩個(gè)分布的混合模型建模，一個(gè)分布為普通數(shù)據(jù)锦募，而另一個(gè)為離群點(diǎn)摆屯。
??聚類和異常檢測(cè)目標(biāo)都是估計(jì)分布的參數(shù)，以最大化數(shù)據(jù)的總似然（概率）糠亩。聚類時(shí)虐骑，使用EM算法估計(jì)每個(gè)概率分布的參數(shù)准验。然而，這里提供的異常檢測(cè)技術(shù)使用一種更簡(jiǎn)單的方法廷没。初始時(shí)將所有對(duì)象放入普通對(duì)象集糊饱，而異常對(duì)象集為空。然后腕柜，用一個(gè)迭代過(guò)程將對(duì)象從普通集轉(zhuǎn)移到異常集济似，只要該轉(zhuǎn)移能提高數(shù)據(jù)的總似然（其實(shí)等價(jià)于把在正常對(duì)象的分布下具有低概率的對(duì)象分類為離群點(diǎn)）。（假設(shè)異常對(duì)象屬于均勻分布）盏缤。異常對(duì)象由這樣一些對(duì)象組成砰蠢，這些對(duì)象在均勻分布下比在正常分布下具有顯著較高的概率。
優(yōu)缺點(diǎn):
（1）有堅(jiān)實(shí)的統(tǒng)計(jì)學(xué)理論基礎(chǔ)唉铜，當(dāng)存在充分的數(shù)據(jù)和所用的檢驗(yàn)類型的知識(shí)時(shí)台舱，這些檢驗(yàn)可能非常有效；
（2）對(duì)于多元數(shù)據(jù)潭流，可用的選擇少一些竞惋，并且對(duì)于高維數(shù)據(jù)，這些檢測(cè)可能性很差灰嫉。

2. 基于鄰近度的離群點(diǎn)檢測(cè)

一個(gè)對(duì)象是異常的拆宛，如果它遠(yuǎn)離大部分點(diǎn)。這種方法比統(tǒng)計(jì)學(xué)方法更一般讼撒、更容易使用浑厚，因?yàn)榇_定數(shù)據(jù)集的有意義的鄰近性度量比確定它的統(tǒng)計(jì)分布更容易。一個(gè)對(duì)象的離群點(diǎn)得分由到它的k-最近鄰的距離給定根盒。離群點(diǎn)得分對(duì)k的取值高度敏感钳幅。如果k太小（例如1）炎滞，則少量的鄰近離群點(diǎn)可能導(dǎo)致較低的離群點(diǎn)得分敢艰；如果K太大，則點(diǎn)數(shù)少于k的簇中所有的對(duì)象可能都成了離群點(diǎn)册赛。為了使該方案對(duì)于k的選取更具有魯棒性钠导，可以使用k個(gè)最近鄰的平均距離。
優(yōu)缺點(diǎn)：
（1）簡(jiǎn)單击奶。
（2）缺點(diǎn)：基于鄰近度的方法需要O(m2)時(shí)間，大數(shù)據(jù)集不適用柜砾。
（3）該方法對(duì)參數(shù)的選擇也是敏感的湃望。
（4）不能處理具有不同密度區(qū)域的數(shù)據(jù)集，因?yàn)樗褂萌珠撝担荒芸紤]這種密度的變化证芭。

3. 基于密度的離群點(diǎn)檢測(cè)

從基于密度的觀點(diǎn)來(lái)說(shuō)瞳浦，離群點(diǎn)是在低密度區(qū)域中的對(duì)象。一個(gè)對(duì)象的離群點(diǎn)得分是該對(duì)象周?chē)芏鹊哪妗?/strong>基于密度的離群點(diǎn)檢測(cè)與基于鄰近度的離群點(diǎn)檢測(cè)密切相關(guān)废士，因?yàn)槊芏韧ǔＳ绵徑榷x叫潦。一種常用的定義密度的方法是，定義密度為到k個(gè)最近鄰的平均距離的倒數(shù)官硝。如果該距離小矗蕊，則密度高，反之亦然氢架。另一種密度定義是使用DBSCAN聚類算法使用的密度定義傻咖，即一個(gè)對(duì)象周?chē)拿芏鹊扔谠搶?duì)象指定距離d內(nèi)對(duì)象的個(gè)數(shù)。需要小心的選擇d岖研，如果d太小卿操，則許多正常點(diǎn)可能具有低密度，從而具有高離群點(diǎn)得分孙援。如果d太大害淤，則許多離群點(diǎn)可能具有與正常點(diǎn)類似的密度（和離群點(diǎn)得分）。使用任何密度定義檢測(cè)離群點(diǎn)具有與基于鄰近度的離群點(diǎn)方案類似的特點(diǎn)和局限性拓售。特殊地窥摄，當(dāng)數(shù)據(jù)包含不同密度的區(qū)域時(shí)，它們不能正確的識(shí)別離群點(diǎn)础淤。為了正確的識(shí)別這種數(shù)據(jù)集中的離群點(diǎn)溪王，我們需要與對(duì)象鄰域相關(guān)的密度概念，也就是定義相對(duì)密度值骇。常見(jiàn)的有兩種方法：
（1）使用基于SNN密度的聚類算法使用的方法；
（2）用點(diǎn)x的密度與它的最近鄰y的平均密度之比作為相對(duì)密度移国。使用相對(duì)密度的離群點(diǎn)檢測(cè)（局部離群點(diǎn)要素LOF技術(shù)）：首先吱瘩，對(duì)于指定的近鄰個(gè)數(shù)（k），基于對(duì)象的最近鄰計(jì)算對(duì)象的密度density(x,k)迹缀，由此計(jì)算每個(gè)對(duì)象的離群點(diǎn)得分使碾；然后，計(jì)算點(diǎn)的鄰近平均密度祝懂，并使用它們計(jì)算點(diǎn)的平均相對(duì)密度票摇。這個(gè)量指示x是否在比它的近鄰更稠密或更稀疏的鄰域內(nèi)，并取作x的離群點(diǎn)得分（這個(gè)是建立在上面的離群點(diǎn)得分基礎(chǔ)上的）砚蓬。

優(yōu)缺點(diǎn)：
（1）給出了對(duì)象是離群點(diǎn)的定量度量矢门，并且即使數(shù)據(jù)具有不同的區(qū)域也能夠很好的處理；
（2）與基于距離的方法一樣，這些方法必然具有O(m2)的時(shí)間復(fù)雜度祟剔。對(duì)于低維數(shù)據(jù)使用特定的數(shù)據(jù)結(jié)構(gòu)可以達(dá)到O(mlogm)隔躲；
（3）參數(shù)選擇是困難的。雖然LOF算法通過(guò)觀察不同的k值物延，然后取得最大離群點(diǎn)得分來(lái)處理該問(wèn)題宣旱，但是，仍然需要選擇這些值的上下界叛薯。

4. 基于聚類的技術(shù)浑吟。

??一種利用聚類檢測(cè)離群點(diǎn)的方法是丟棄遠(yuǎn)離其他簇的小簇。這個(gè)方法可以和其他任何聚類技術(shù)一起使用耗溜，但是需要最小簇大小和小簇與其他簇之間距離的閾值褪测。這種方案對(duì)簇個(gè)數(shù)的選擇高度敏感。使用這個(gè)方案很難將離群點(diǎn)得分附加到對(duì)象上糖埋。一種更系統(tǒng)的方法闷旧，首先聚類所有對(duì)象，然后評(píng)估對(duì)象屬于簇的程度（離群點(diǎn)得分）（基于原型的聚類可用離中心點(diǎn)的距離來(lái)評(píng)估城舞，對(duì)具有目標(biāo)函數(shù)的聚類技術(shù)該得分反映刪除對(duì)象后目標(biāo)函數(shù)的改進(jìn)（這個(gè)可能是計(jì)算密集的））轩触。基于聚類的離群點(diǎn)：一個(gè)對(duì)象是基于聚類的離群點(diǎn)家夺，如果該對(duì)象不強(qiáng)屬于任何簇脱柱。離群點(diǎn)對(duì)初始聚類的影響：如果通過(guò)聚類檢測(cè)離群點(diǎn)，則由于離群點(diǎn)影響聚類拉馋，存在一個(gè)問(wèn)題：結(jié)構(gòu)是否有效榨为。為了處理該問(wèn)題，可以使用如下方法：對(duì)象聚類煌茴，刪除離群點(diǎn)随闺，對(duì)象再次聚類（這個(gè)不能保證產(chǎn)生最優(yōu)結(jié)果）。還有一種更復(fù)雜的方法：取一組不能很好的擬合任何簇的特殊對(duì)象蔓腐，這組對(duì)象代表潛在的離群點(diǎn)矩乐。隨著聚類過(guò)程的進(jìn)展，簇在變化回论。不再?gòu)?qiáng)屬于任何簇的對(duì)象被添加到潛在的離群點(diǎn)集合散罕；而當(dāng)前在該集合中的對(duì)象被測(cè)試，如果它現(xiàn)在強(qiáng)屬于一個(gè)簇傀蓉，就可以將它從潛在的離群點(diǎn)集合中移除欧漱。聚類過(guò)程結(jié)束時(shí)還留在該集合中的點(diǎn)被分類為離群點(diǎn)（這種方法也不能保證產(chǎn)生最優(yōu)解，甚至不比前面的簡(jiǎn)單算法好葬燎，在使用相對(duì)距離計(jì)算離群點(diǎn)得分時(shí)误甚，這個(gè)問(wèn)題特別嚴(yán)重）缚甩。
??對(duì)象是否被認(rèn)為是離群點(diǎn)可能依賴于簇的個(gè)數(shù)（如k很大時(shí)的噪聲簇）。該問(wèn)題也沒(méi)有簡(jiǎn)單的答案靶草。一種策略是對(duì)于不同的簇個(gè)數(shù)重復(fù)該分析蹄胰。另一種方法是找出大量小簇，其想法是：
（1）較小的簇傾向于更加凝聚奕翔，
（2）如果存在大量小簇時(shí)一個(gè)對(duì)象是離群點(diǎn)裕寨，則它多半是一個(gè)真正的離群點(diǎn)。不利的一面是一組離群點(diǎn)可能形成小簇而逃避檢測(cè)派继。

優(yōu)缺點(diǎn)：
（1）基于線性和接近線性復(fù)雜度（k均值）的聚類技術(shù)來(lái)發(fā)現(xiàn)離群點(diǎn)可能是高度有效的宾袜；
（2）簇的定義通常是離群點(diǎn)的補(bǔ)，因此可能同時(shí)發(fā)現(xiàn)簇和離群點(diǎn)驾窟；
（3）產(chǎn)生的離群點(diǎn)集和它們的得分可能非常依賴所用的簇的個(gè)數(shù)和數(shù)據(jù)中離群點(diǎn)的存在性庆猫；
（4）聚類算法產(chǎn)生的簇的質(zhì)量對(duì)該算法產(chǎn)生的離群點(diǎn)的質(zhì)量影響非常大。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末绅络，一起剝皮案震驚了整個(gè)濱河市月培，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌恩急，老刑警劉巖杉畜，帶你破解...
沈念sama閱讀 206,968評(píng)論 6贊 482
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場(chǎng)離奇詭異衷恭，居然都是意外死亡此叠，警方通過(guò)查閱死者的電腦和手機(jī)，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 88,601評(píng)論 2贊 382
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門(mén)随珠，熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)灭袁，“玉大人，你說(shuō)我怎么就攤上這事窗看∪灼纾” “怎么了？”我有些...
開(kāi)封第一講書(shū)人閱讀 153,220評(píng)論 0贊 344
道士緝兇錄：失蹤的賣(mài)姜人
文/不壞的土叔我叫張陵显沈，是天一觀的道長(zhǎng)举娩。經(jīng)常有香客問(wèn)我，道長(zhǎng)构罗，這世上最難降的妖魔是什么？我笑而不...
開(kāi)封第一講書(shū)人閱讀 55,416評(píng)論 1贊 279
?港島之戀（遺憾婚禮）
正文為了忘掉前任智玻，我火速辦了婚禮遂唧，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘吊奢。我一直安慰自己盖彭，他們只是感情好纹烹，可當(dāng)我...
茶點(diǎn)故事閱讀 64,425評(píng)論 5贊 374
惡毒庶女頂嫁案：這布局不是一般人想出來(lái)的
文/花漫我一把揭開(kāi)白布。她就那樣靜靜地躺著召边，像睡著了一般铺呵。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上隧熙，一...
開(kāi)封第一講書(shū)人閱讀 49,144評(píng)論 1贊 285
城市分裂傳說(shuō)
那天片挂，我揣著相機(jī)與錄音，去河邊找鬼贞盯。笑死音念，一個(gè)胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的躏敢。我是一名探鬼主播闷愤，決...
沈念sama閱讀 38,432評(píng)論 3贊 401
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開(kāi)眼，長(zhǎng)吁一口氣：“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼件余！你這毒婦竟也來(lái)了讥脐？” 一聲冷哼從身側(cè)響起，我...
開(kāi)封第一講書(shū)人閱讀 37,088評(píng)論 0贊 261
萬(wàn)榮殺人案實(shí)錄
序言：老撾萬(wàn)榮一對(duì)情侶失蹤啼器，失蹤者是張志新（化名）和其女友劉穎旬渠，沒(méi)想到半個(gè)月后，有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體镀首，經(jīng)...
沈念sama閱讀 43,586評(píng)論 1贊 300
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡坟漱，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 36,028評(píng)論 2贊 325
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了更哄。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片芋齿。...
茶點(diǎn)故事閱讀 38,137評(píng)論 1贊 334
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡，死狀恐怖成翩，靈堂內(nèi)的尸體忽然破棺而出觅捆，到底是詐尸還是另有隱情，我是刑警寧澤麻敌，帶...
沈念sama閱讀 33,783評(píng)論 4贊 324
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布栅炒，位于F島的核電站，受9級(jí)特大地震影響术羔，放射性物質(zhì)發(fā)生泄漏赢赊。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 39,343評(píng)論 3贊 307
男人毒藥：我在死后第九天來(lái)索命
文/蒙蒙一级历、第九天我趴在偏房一處隱蔽的房頂上張望释移。院中可真熱鬧，春花似錦寥殖、人聲如沸玩讳。這莊子的主人今日做“春日...
開(kāi)封第一講書(shū)人閱讀 30,333評(píng)論 0贊 19
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)熏纯。三九已至同诫，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間樟澜，已是汗流浹背误窖。一陣腳步聲響...
開(kāi)封第一講書(shū)人閱讀 31,559評(píng)論 1贊 262
情欲美人皮
我被黑心中介騙來(lái)泰國(guó)打工，沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留往扔，地道東北人贩猎。一個(gè)月前我還...
沈念sama閱讀 45,595評(píng)論 2贊 355
代替公主和親
正文我出身青樓，卻偏偏與公主長(zhǎng)得像萍膛，于是被迫代替她去往敵國(guó)和親吭服。傳聞我的和親對(duì)象是個(gè)殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 42,901評(píng)論 2贊 345

異常檢測(cè)方法 一