異常檢測(cè)方法 一

異常對(duì)象被稱作離群點(diǎn)。異常檢測(cè)也稱偏差檢測(cè)和例外挖掘鼎文。
常見(jiàn)的異常成因:數(shù)據(jù)來(lái)源于不同的類(異常對(duì)象來(lái)自于一個(gè)與大多數(shù)數(shù)據(jù)對(duì)象源(類)不同的源(類)的思想)槽棍,自然變異冀自,以及數(shù)據(jù)測(cè)量或收集誤差弹囚。

離群點(diǎn)的類型

  1. 基于模型的技術(shù):首先建立一個(gè)數(shù)據(jù)模型厨相,異常是那些同模型不能完美擬合的對(duì)象;如果模型是簇的集合鸥鹉,則異常是不顯著屬于任何簇的對(duì)象领铐;在使用回歸模型時(shí),異常是相對(duì)遠(yuǎn)離預(yù)測(cè)值的對(duì)象宋舷。
  2. 基于鄰近度的技術(shù):通常可以在對(duì)象之間定義鄰近性度量瓢姻,異常對(duì)象是那些遠(yuǎn)離其他對(duì)象的對(duì)象祝蝠。
  3. 基于密度的技術(shù):僅當(dāng)一個(gè)點(diǎn)的局部密度顯著低于它的大部分近鄰時(shí)才將其分類為離群點(diǎn)。

離群點(diǎn)檢測(cè)方法

1. 統(tǒng)計(jì)方法

??統(tǒng)計(jì)學(xué)方法是基于模型的方法幻碱,即為數(shù)據(jù)創(chuàng)建一個(gè)模型绎狭,并且根據(jù)對(duì)象擬合模型的情況來(lái)評(píng)估它們。大部分用于離群點(diǎn)檢測(cè)的統(tǒng)計(jì)學(xué)方法都是構(gòu)建一個(gè)概率分布模型褥傍,并考慮對(duì)象有多大可能符合該模型儡嘶。離群點(diǎn)的概率定義:離群點(diǎn)是一個(gè)對(duì)象,關(guān)于數(shù)據(jù)的概率分布模型恍风,它具有低概率蹦狂。這種情況的前提是必須知道數(shù)據(jù)集服從什么分布,如果估計(jì)錯(cuò)誤就造成了重尾分布朋贬。異常檢測(cè)的混合模型方法:對(duì)于異常檢測(cè)凯楔,數(shù)據(jù)用兩個(gè)分布的混合模型建模,一個(gè)分布為普通數(shù)據(jù)锦募,而另一個(gè)為離群點(diǎn)摆屯。
??聚類和異常檢測(cè)目標(biāo)都是估計(jì)分布的參數(shù),以最大化數(shù)據(jù)的總似然(概率)糠亩。聚類時(shí)虐骑,使用EM算法估計(jì)每個(gè)概率分布的參數(shù)准验。然而,這里提供的異常檢測(cè)技術(shù)使用一種更簡(jiǎn)單的方法廷没。初始時(shí)將所有對(duì)象放入普通對(duì)象集糊饱,而異常對(duì)象集為空。然后腕柜,用一個(gè)迭代過(guò)程將對(duì)象從普通集轉(zhuǎn)移到異常集济似,只要該轉(zhuǎn)移能提高數(shù)據(jù)的總似然(其實(shí)等價(jià)于把在正常對(duì)象的分布下具有低概率的對(duì)象分類為離群點(diǎn))。(假設(shè)異常對(duì)象屬于均勻分布)盏缤。異常對(duì)象由這樣一些對(duì)象組成砰蠢,這些對(duì)象在均勻分布下比在正常分布下具有顯著較高的概率。
優(yōu)缺點(diǎn):
(1)有堅(jiān)實(shí)的統(tǒng)計(jì)學(xué)理論基礎(chǔ)唉铜,當(dāng)存在充分的數(shù)據(jù)和所用的檢驗(yàn)類型的知識(shí)時(shí)台舱,這些檢驗(yàn)可能非常有效;
(2)對(duì)于多元數(shù)據(jù)潭流,可用的選擇少一些竞惋,并且對(duì)于高維數(shù)據(jù),這些檢測(cè)可能性很差灰嫉。

2. 基于鄰近度的離群點(diǎn)檢測(cè)

一個(gè)對(duì)象是異常的拆宛,如果它遠(yuǎn)離大部分點(diǎn)。這種方法比統(tǒng)計(jì)學(xué)方法更一般讼撒、更容易使用浑厚,因?yàn)榇_定數(shù)據(jù)集的有意義的鄰近性度量比確定它的統(tǒng)計(jì)分布更容易。一個(gè)對(duì)象的離群點(diǎn)得分由到它的k-最近鄰的距離給定根盒。離群點(diǎn)得分對(duì)k的取值高度敏感钳幅。如果k太小(例如1)炎滞,則少量的鄰近離群點(diǎn)可能導(dǎo)致較低的離群點(diǎn)得分敢艰;如果K太大,則點(diǎn)數(shù)少于k的簇中所有的對(duì)象可能都成了離群點(diǎn)册赛。為了使該方案對(duì)于k的選取更具有魯棒性钠导,可以使用k個(gè)最近鄰的平均距離。
優(yōu)缺點(diǎn):
(1)簡(jiǎn)單击奶。
(2)缺點(diǎn):基于鄰近度的方法需要O(m2)時(shí)間,大數(shù)據(jù)集不適用柜砾。
(3)該方法對(duì)參數(shù)的選擇也是敏感的湃望。
(4)不能處理具有不同密度區(qū)域的數(shù)據(jù)集,因?yàn)樗褂萌珠撝担荒芸紤]這種密度的變化证芭。

3. 基于密度的離群點(diǎn)檢測(cè)

從基于密度的觀點(diǎn)來(lái)說(shuō)瞳浦,離群點(diǎn)是在低密度區(qū)域中的對(duì)象。一個(gè)對(duì)象的離群點(diǎn)得分是該對(duì)象周?chē)芏鹊哪妗?/strong>基于密度的離群點(diǎn)檢測(cè)與基于鄰近度的離群點(diǎn)檢測(cè)密切相關(guān)废士,因?yàn)槊芏韧ǔS绵徑榷x叫潦。一種常用的定義密度的方法是,定義密度為到k個(gè)最近鄰的平均距離的倒數(shù)官硝。如果該距離小矗蕊,則密度高,反之亦然氢架。另一種密度定義是使用DBSCAN聚類算法使用的密度定義傻咖,即一個(gè)對(duì)象周?chē)拿芏鹊扔谠搶?duì)象指定距離d內(nèi)對(duì)象的個(gè)數(shù)。需要小心的選擇d岖研,如果d太小卿操,則許多正常點(diǎn)可能具有低密度,從而具有高離群點(diǎn)得分孙援。如果d太大害淤,則許多離群點(diǎn)可能具有與正常點(diǎn)類似的密度(和離群點(diǎn)得分)。使用任何密度定義檢測(cè)離群點(diǎn)具有與基于鄰近度的離群點(diǎn)方案類似的特點(diǎn)和局限性拓售。特殊地窥摄,當(dāng)數(shù)據(jù)包含不同密度的區(qū)域時(shí),它們不能正確的識(shí)別離群點(diǎn)础淤。為了正確的識(shí)別這種數(shù)據(jù)集中的離群點(diǎn)溪王,我們需要與對(duì)象鄰域相關(guān)的密度概念,也就是定義相對(duì)密度值骇。常見(jiàn)的有兩種方法:
(1)使用基于SNN密度的聚類算法使用的方法;
(2)用點(diǎn)x的密度與它的最近鄰y的平均密度之比作為相對(duì)密度移国。使用相對(duì)密度的離群點(diǎn)檢測(cè)(局部離群點(diǎn)要素LOF技術(shù)):首先吱瘩,對(duì)于指定的近鄰個(gè)數(shù)(k),基于對(duì)象的最近鄰計(jì)算對(duì)象的密度density(x,k)迹缀,由此計(jì)算每個(gè)對(duì)象的離群點(diǎn)得分使碾;然后,計(jì)算點(diǎn)的鄰近平均密度祝懂,并使用它們計(jì)算點(diǎn)的平均相對(duì)密度票摇。這個(gè)量指示x是否在比它的近鄰更稠密或更稀疏的鄰域內(nèi),并取作x的離群點(diǎn)得分(這個(gè)是建立在上面的離群點(diǎn)得分基礎(chǔ)上的)砚蓬。

優(yōu)缺點(diǎn):
(1)給出了對(duì)象是離群點(diǎn)的定量度量矢门,并且即使數(shù)據(jù)具有不同的區(qū)域也能夠很好的處理;
(2)與基于距離的方法一樣,這些方法必然具有O(m2)的時(shí)間復(fù)雜度祟剔。對(duì)于低維數(shù)據(jù)使用特定的數(shù)據(jù)結(jié)構(gòu)可以達(dá)到O(mlogm)隔躲;
(3)參數(shù)選擇是困難的。雖然LOF算法通過(guò)觀察不同的k值物延,然后取得最大離群點(diǎn)得分來(lái)處理該問(wèn)題宣旱,但是,仍然需要選擇這些值的上下界叛薯。

4. 基于聚類的技術(shù)浑吟。

??一種利用聚類檢測(cè)離群點(diǎn)的方法是丟棄遠(yuǎn)離其他簇的小簇。這個(gè)方法可以和其他任何聚類技術(shù)一起使用耗溜,但是需要最小簇大小和小簇與其他簇之間距離的閾值褪测。這種方案對(duì)簇個(gè)數(shù)的選擇高度敏感。使用這個(gè)方案很難將離群點(diǎn)得分附加到對(duì)象上糖埋。一種更系統(tǒng)的方法闷旧,首先聚類所有對(duì)象,然后評(píng)估對(duì)象屬于簇的程度(離群點(diǎn)得分)(基于原型的聚類可用離中心點(diǎn)的距離來(lái)評(píng)估城舞,對(duì)具有目標(biāo)函數(shù)的聚類技術(shù)該得分反映刪除對(duì)象后目標(biāo)函數(shù)的改進(jìn)(這個(gè)可能是計(jì)算密集的))轩触。基于聚類的離群點(diǎn):一個(gè)對(duì)象是基于聚類的離群點(diǎn)家夺,如果該對(duì)象不強(qiáng)屬于任何簇脱柱。離群點(diǎn)對(duì)初始聚類的影響:如果通過(guò)聚類檢測(cè)離群點(diǎn),則由于離群點(diǎn)影響聚類拉馋,存在一個(gè)問(wèn)題:結(jié)構(gòu)是否有效榨为。為了處理該問(wèn)題,可以使用如下方法:對(duì)象聚類煌茴,刪除離群點(diǎn)随闺,對(duì)象再次聚類(這個(gè)不能保證產(chǎn)生最優(yōu)結(jié)果)。還有一種更復(fù)雜的方法:取一組不能很好的擬合任何簇的特殊對(duì)象蔓腐,這組對(duì)象代表潛在的離群點(diǎn)矩乐。隨著聚類過(guò)程的進(jìn)展,簇在變化回论。不再?gòu)?qiáng)屬于任何簇的對(duì)象被添加到潛在的離群點(diǎn)集合散罕;而當(dāng)前在該集合中的對(duì)象被測(cè)試,如果它現(xiàn)在強(qiáng)屬于一個(gè)簇傀蓉,就可以將它從潛在的離群點(diǎn)集合中移除欧漱。聚類過(guò)程結(jié)束時(shí)還留在該集合中的點(diǎn)被分類為離群點(diǎn)(這種方法也不能保證產(chǎn)生最優(yōu)解,甚至不比前面的簡(jiǎn)單算法好葬燎,在使用相對(duì)距離計(jì)算離群點(diǎn)得分時(shí)误甚,這個(gè)問(wèn)題特別嚴(yán)重)缚甩。
??對(duì)象是否被認(rèn)為是離群點(diǎn)可能依賴于簇的個(gè)數(shù)(如k很大時(shí)的噪聲簇)。該問(wèn)題也沒(méi)有簡(jiǎn)單的答案靶草。一種策略是對(duì)于不同的簇個(gè)數(shù)重復(fù)該分析蹄胰。另一種方法是找出大量小簇,其想法是:
(1)較小的簇傾向于更加凝聚奕翔,
(2)如果存在大量小簇時(shí)一個(gè)對(duì)象是離群點(diǎn)裕寨,則它多半是一個(gè)真正的離群點(diǎn)。不利的一面是一組離群點(diǎn)可能形成小簇而逃避檢測(cè)派继。

優(yōu)缺點(diǎn):
(1)基于線性和接近線性復(fù)雜度(k均值)的聚類技術(shù)來(lái)發(fā)現(xiàn)離群點(diǎn)可能是高度有效的宾袜;
(2)簇的定義通常是離群點(diǎn)的補(bǔ),因此可能同時(shí)發(fā)現(xiàn)簇和離群點(diǎn)驾窟;
(3)產(chǎn)生的離群點(diǎn)集和它們的得分可能非常依賴所用的簇的個(gè)數(shù)和數(shù)據(jù)中離群點(diǎn)的存在性庆猫;
(4)聚類算法產(chǎn)生的簇的質(zhì)量對(duì)該算法產(chǎn)生的離群點(diǎn)的質(zhì)量影響非常大。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末绅络,一起剝皮案震驚了整個(gè)濱河市月培,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌恩急,老刑警劉巖杉畜,帶你破解...
    沈念sama閱讀 206,968評(píng)論 6 482
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異衷恭,居然都是意外死亡此叠,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,601評(píng)論 2 382
  • 文/潘曉璐 我一進(jìn)店門(mén)随珠,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)灭袁,“玉大人,你說(shuō)我怎么就攤上這事窗看∪灼纾” “怎么了?”我有些...
    開(kāi)封第一講書(shū)人閱讀 153,220評(píng)論 0 344
  • 文/不壞的土叔 我叫張陵显沈,是天一觀的道長(zhǎng)举娩。 經(jīng)常有香客問(wèn)我,道長(zhǎng)构罗,這世上最難降的妖魔是什么? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 55,416評(píng)論 1 279
  • 正文 為了忘掉前任智玻,我火速辦了婚禮遂唧,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘吊奢。我一直安慰自己盖彭,他們只是感情好纹烹,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,425評(píng)論 5 374
  • 文/花漫 我一把揭開(kāi)白布。 她就那樣靜靜地躺著召边,像睡著了一般铺呵。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上隧熙,一...
    開(kāi)封第一講書(shū)人閱讀 49,144評(píng)論 1 285
  • 那天片挂,我揣著相機(jī)與錄音,去河邊找鬼贞盯。 笑死音念,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的躏敢。 我是一名探鬼主播闷愤,決...
    沈念sama閱讀 38,432評(píng)論 3 401
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼件余!你這毒婦竟也來(lái)了讥脐?” 一聲冷哼從身側(cè)響起,我...
    開(kāi)封第一講書(shū)人閱讀 37,088評(píng)論 0 261
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤啼器,失蹤者是張志新(化名)和其女友劉穎旬渠,沒(méi)想到半個(gè)月后,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體镀首,經(jīng)...
    沈念sama閱讀 43,586評(píng)論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡坟漱,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,028評(píng)論 2 325
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了更哄。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片芋齿。...
    茶點(diǎn)故事閱讀 38,137評(píng)論 1 334
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖成翩,靈堂內(nèi)的尸體忽然破棺而出觅捆,到底是詐尸還是另有隱情,我是刑警寧澤麻敌,帶...
    沈念sama閱讀 33,783評(píng)論 4 324
  • 正文 年R本政府宣布栅炒,位于F島的核電站,受9級(jí)特大地震影響术羔,放射性物質(zhì)發(fā)生泄漏赢赊。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,343評(píng)論 3 307
  • 文/蒙蒙 一级历、第九天 我趴在偏房一處隱蔽的房頂上張望释移。 院中可真熱鬧,春花似錦寥殖、人聲如沸玩讳。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 30,333評(píng)論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)熏纯。三九已至同诫,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間樟澜,已是汗流浹背误窖。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 31,559評(píng)論 1 262
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留往扔,地道東北人贩猎。 一個(gè)月前我還...
    沈念sama閱讀 45,595評(píng)論 2 355
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像萍膛,于是被迫代替她去往敵國(guó)和親吭服。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,901評(píng)論 2 345

推薦閱讀更多精彩內(nèi)容

  • 單選題 1. 某超市研究銷(xiāo)售紀(jì)錄數(shù)據(jù)后發(fā)現(xiàn)蝗罗,買(mǎi)啤酒的人很大概率也會(huì)購(gòu)買(mǎi)尿布艇棕,這種屬于數(shù)據(jù)挖掘的哪類問(wèn)題?(A) A...
    山的那邊是什么_閱讀 33,485評(píng)論 2 59
  • 想寫(xiě)這個(gè)系列很久了串塑,最近剛好項(xiàng)目結(jié)束了閑下來(lái)有點(diǎn)時(shí)間沼琉,于是決定把之前學(xué)過(guò)的東西做個(gè)總結(jié)。之前看過(guò)一些機(jī)器學(xué)習(xí)方面的...
    huihui7987閱讀 1,143評(píng)論 0 0
  • 算法技術(shù)解構(gòu) 1桩匪、Python基礎(chǔ)知識(shí) (1)IPythonIPython的開(kāi)發(fā)者吸收了標(biāo)準(zhǔn)解釋器的基本概念打瘪,在此...
    shenciyou閱讀 5,274評(píng)論 0 10
  • 第三章 使用距離向量構(gòu)建模型 作者:Trent Hauck 譯者:飛龍 協(xié)議:CC BY-NC-SA 4.0 這一...
    布客飛龍閱讀 2,032評(píng)論 1 6
  • 馬上,就迎來(lái)2017年了傻昙,沒(méi)想到闺骚,我是一個(gè)人獨(dú)自在床上過(guò),耳朵嗡嗡作響妆档,心中充滿惆悵僻爽,2016經(jīng)歷了太多,謝...
    檀州漁歌閱讀 184評(píng)論 0 0