異常檢測(cè)——高維數(shù)據(jù)異常檢測(cè)

異常檢測(cè)——高維數(shù)據(jù)異常檢測(cè)

主要內(nèi)容包括:

  • Feature Bagging

  • 孤立森林

[TOC]

1、引言

在實(shí)際場(chǎng)景中,很多數(shù)據(jù)集都是多維度的庆猫。隨著維度的增加抠璃,數(shù)據(jù)空間的大序讯椤(體積)會(huì)以指數(shù)級(jí)別增長(zhǎng)妹萨,使數(shù)據(jù)變得稀疏孵睬,這便是維度詛咒的難題石窑。維度詛咒不止給異常檢測(cè)帶來(lái)了挑戰(zhàn)牌芋,對(duì)距離的計(jì)算,聚類都帶來(lái)了難題松逊。例如基于鄰近度的方法是在所有維度使用距離函數(shù)來(lái)定義局部性躺屁,但是,在高維空間中经宏,所有點(diǎn)對(duì)的距離幾乎都是相等的(距離集中)犀暑,這使得一些基于距離的方法失效。在高維場(chǎng)景下烁兰,一個(gè)常用的方法是子空間方法耐亏。

集成是子空間思想中常用的方法之一,可以有效提高數(shù)據(jù)挖掘算法精度沪斟。集成方法將多個(gè)算法或多個(gè)基檢測(cè)器的輸出結(jié)合起來(lái)广辰。其基本思想是一些算法在某些子集上表現(xiàn)很好,一些算法在其他子集上表現(xiàn)很好,然后集成起來(lái)使得輸出更加魯棒择吊。集成方法與基于子空間方法有著天然的相似性李根,子空間與不同的點(diǎn)集相關(guān),而集成方法使用基檢測(cè)器來(lái)探索不同維度的子集几睛,將這些基學(xué)習(xí)器集合起來(lái)房轿。

下面來(lái)介紹兩種常見(jiàn)的集成方法:

2、Feature Bagging

Feature Bagging枉长,基本思想與bagging相似冀续,只是對(duì)象是feature琼讽。feature bagging屬于集成方法的一種必峰。集成方法的設(shè)計(jì)有以下兩個(gè)主要步驟:

1.選擇基檢測(cè)器。這些基本檢測(cè)器可以彼此完全不同钻蹬,或不同的參數(shù)設(shè)置吼蚁,或使用不同采樣的子數(shù)據(jù)集。Feature bagging常用lof算法為基算法问欠。下圖是feature bagging的通用算法:

image.png

2.分?jǐn)?shù)標(biāo)準(zhǔn)化和組合方法:不同檢測(cè)器可能會(huì)在不同的尺度上產(chǎn)生分?jǐn)?shù)肝匆。例如,平均k近鄰檢測(cè)器會(huì)輸出原始距離分?jǐn)?shù)顺献,而LOF算法會(huì)輸出歸一化值旗国。另外,盡管一般情況是輸出較大的異常值分?jǐn)?shù)注整,但有些檢測(cè)器會(huì)輸出較小的異常值分?jǐn)?shù)能曾。因此,需要將來(lái)自各種檢測(cè)器的分?jǐn)?shù)轉(zhuǎn)換成可以有意義的組合的歸一化值肿轨。分?jǐn)?shù)標(biāo)準(zhǔn)化之后寿冕,還要選擇一個(gè)組合函數(shù)將不同基本檢測(cè)器的得分進(jìn)行組合,最常見(jiàn)的選擇包括平均和最大化組合函數(shù)椒袍。

下圖是兩個(gè)feature bagging兩個(gè)不同的組合分?jǐn)?shù)方法:


image.png

(廣度優(yōu)先)

image.png

(累積求和)

?

基探測(cè)器的設(shè)計(jì)及其組合方法都取決于特定集成方法的特定目標(biāo)驼唱。很多時(shí)候,我們無(wú)法得知數(shù)據(jù)的原始分布驹暑,只能通過(guò)部分?jǐn)?shù)據(jù)去學(xué)習(xí)玫恳。除此以外,算法本身也可能存在一定問(wèn)題使得其無(wú)法學(xué)習(xí)到數(shù)據(jù)完整的信息优俘。這些問(wèn)題造成的誤差通常分為偏差和方差兩種京办。

方差:是指算法輸出結(jié)果與算法輸出期望之間的誤差,描述模型的離散程度兼吓,數(shù)據(jù)波動(dòng)性臂港。

偏差:是指預(yù)測(cè)值與真實(shí)值之間的差距。即使在離群點(diǎn)檢測(cè)問(wèn)題中沒(méi)有可用的基本真值。

image.png

方差與偏差的選擇:

image.png

選擇相對(duì)較好的模型的順序:方差小审孽,偏差小 > 方差小县袱,偏差大 > 方差大,偏差小 > 方差大佑力,偏差大式散。 方差小,偏差大 之所以在實(shí)際中排位相對(duì)靠前打颤,是因?yàn)樗容^穩(wěn)定暴拄。很多時(shí)候?qū)嶋H中無(wú)法獲得非常全面的數(shù)據(jù)集,那么编饺,如果一個(gè)模型在可獲得的樣本上有較小的方差乖篷,說(shuō)明它對(duì)不同數(shù)據(jù)集的敏感度不高,可以期望它對(duì)新數(shù)據(jù)集的預(yù)測(cè)效果比較穩(wěn)定透且。
原知乎地址:https://zhuanlan.zhihu.com/p/44872686

3撕蔼、Isolation Forests

孤立森林(Isolation Forest)算法是周志華教授等人于2008年提出的異常檢測(cè)算法,是機(jī)器學(xué)習(xí)中少見(jiàn)的專門針對(duì)異常檢測(cè)設(shè)計(jì)的算法之一秽誊,方法因?yàn)樵撍惴〞r(shí)間效率高鲸沮,能有效處理高維數(shù)據(jù)和海量數(shù)據(jù),無(wú)須標(biāo)注樣本锅论,在工業(yè)界應(yīng)用廣泛讼溺。

孤立森林屬于非參數(shù)和無(wú)監(jiān)督的算法,既不需要定義數(shù)學(xué)模型也不需要訓(xùn)練數(shù)據(jù)有標(biāo)簽最易。孤立森林查找孤立點(diǎn)的策略非常高效怒坯。假設(shè)我們用一個(gè)隨機(jī)超平面來(lái)切割數(shù)據(jù)空間,切一次可以生成兩個(gè)子空間耘纱。然后我們繼續(xù)用隨機(jī)超平面來(lái)切割每個(gè)子空間并循環(huán)敬肚,直到每個(gè)子空間只有一個(gè)數(shù)據(jù)點(diǎn)為止。直觀上來(lái)講束析,那些具有高密度的簇需要被切很多次才會(huì)將其分離艳馒,而那些低密度的點(diǎn)很快就被單獨(dú)分配到一個(gè)子空間了。孤立森林認(rèn)為這些很快被孤立的點(diǎn)就是異常點(diǎn)员寇。

用四個(gè)樣本做簡(jiǎn)單直觀的理解弄慰,d是最早被孤立出來(lái)的,所以d最有可能是異常蝶锋。

image.png

怎么來(lái)切這個(gè)數(shù)據(jù)空間是孤立森林的核心思想陆爽。因?yàn)榍懈钍请S機(jī)的,為了結(jié)果的可靠性扳缕,要用集成(ensemble)的方法來(lái)得到一個(gè)收斂值慌闭,即反復(fù)從頭開(kāi)始切别威,平均每次切的結(jié)果。孤立森林由t棵孤立的數(shù)組成驴剔,每棵樹(shù)都是一個(gè)隨機(jī)二叉樹(shù)省古,也就是說(shuō)對(duì)于樹(shù)中的每個(gè)節(jié)點(diǎn),要么有兩個(gè)孩子節(jié)點(diǎn)丧失,要么一個(gè)孩子節(jié)點(diǎn)都沒(méi)有豺妓。樹(shù)的構(gòu)造方法和隨機(jī)森林(random forests)中樹(shù)的構(gòu)造方法有些類似。流程如下:

從訓(xùn)練數(shù)據(jù)中隨機(jī)選擇一個(gè)樣本子集布讹,放入樹(shù)的根節(jié)點(diǎn)琳拭;
隨機(jī)指定一個(gè)屬性,隨機(jī)產(chǎn)生一個(gè)切割點(diǎn)V描验,即屬性A的最大值和最小值之間的某個(gè)數(shù)白嘁;
根據(jù)屬性A對(duì)每個(gè)樣本分類,把A小于V的樣本放在當(dāng)前節(jié)點(diǎn)的左孩子中挠乳,大于等于V的樣本放在右孩子中权薯,這樣就形成了2個(gè)子空間;
在孩子節(jié)點(diǎn)中遞歸步驟2和3睡扬,不斷地構(gòu)造左孩子和右孩子,直到孩子節(jié)點(diǎn)中只有一個(gè)數(shù)據(jù)黍析,或樹(shù)的高度達(dá)到了限定高度卖怜。
獲得t棵樹(shù)之后,孤立森林的訓(xùn)練就結(jié)束阐枣,就可以用生成的孤立森林來(lái)評(píng)估測(cè)試數(shù)據(jù)马靠。

孤立森林檢測(cè)異常的假設(shè)是:異常點(diǎn)一般都是非常稀有的,在樹(shù)中會(huì)很快被劃分到葉子節(jié)點(diǎn)蔼两,因此可以用葉子節(jié)點(diǎn)到根節(jié)點(diǎn)的路徑長(zhǎng)度來(lái)判斷一條記錄是否是異常的甩鳄。和隨機(jī)森林類似,孤立森林也是采用構(gòu)造好的所有樹(shù)的平均結(jié)果形成最終結(jié)果的额划。在訓(xùn)練時(shí)妙啃,每棵樹(shù)的訓(xùn)練樣本是隨機(jī)抽樣的。從孤立森林的樹(shù)的構(gòu)造過(guò)程看俊戳,它不需要知道樣本的標(biāo)簽揖赴,而是通過(guò)閾值來(lái)判斷樣本是否異常。因?yàn)楫惓|c(diǎn)的路徑比較短抑胎,正常點(diǎn)的路徑比較長(zhǎng)燥滑,孤立森林根據(jù)路徑長(zhǎng)度來(lái)估計(jì)每個(gè)樣本點(diǎn)的異常程度。

路徑長(zhǎng)度計(jì)算方法:

image.png

孤立森林也是一種基于子空間的方法阿逃,不同的分支對(duì)應(yīng)于數(shù)據(jù)的不同局部子空間區(qū)域铭拧,較小的路徑對(duì)應(yīng)于孤立子空間的低維

4赃蛛、總結(jié)

1.feature bagging可以降低方差

2.孤立森林的優(yōu)勢(shì)在于:

  • 計(jì)算成本相比基于距離或基于密度的算法更小。
  • 具有線性的時(shí)間復(fù)雜度搀菩。
  • 在處理大數(shù)據(jù)集上有優(yōu)勢(shì)焊虏。

孤立森林不適用于超高維數(shù)據(jù),因?yàn)楣膭?lì)森林每次都是隨機(jī)選取維度秕磷,如果維度過(guò)高诵闭,則會(huì)存在過(guò)多噪音。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末澎嚣,一起剝皮案震驚了整個(gè)濱河市疏尿,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌易桃,老刑警劉巖褥琐,帶你破解...
    沈念sama閱讀 212,884評(píng)論 6 492
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異晤郑,居然都是意外死亡敌呈,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,755評(píng)論 3 385
  • 文/潘曉璐 我一進(jìn)店門造寝,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)磕洪,“玉大人,你說(shuō)我怎么就攤上這事诫龙∥鱿裕” “怎么了?”我有些...
    開(kāi)封第一講書(shū)人閱讀 158,369評(píng)論 0 348
  • 文/不壞的土叔 我叫張陵签赃,是天一觀的道長(zhǎng)谷异。 經(jīng)常有香客問(wèn)我,道長(zhǎng)锦聊,這世上最難降的妖魔是什么歹嘹? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 56,799評(píng)論 1 285
  • 正文 為了忘掉前任,我火速辦了婚禮孔庭,結(jié)果婚禮上尺上,老公的妹妹穿的比我還像新娘。我一直安慰自己史飞,他們只是感情好尖昏,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,910評(píng)論 6 386
  • 文/花漫 我一把揭開(kāi)白布。 她就那樣靜靜地躺著构资,像睡著了一般抽诉。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上吐绵,一...
    開(kāi)封第一講書(shū)人閱讀 50,096評(píng)論 1 291
  • 那天,我揣著相機(jī)與錄音,去河邊找鬼返劲。 笑死,一個(gè)胖子當(dāng)著我的面吹牛耙饰,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播纹份,決...
    沈念sama閱讀 39,159評(píng)論 3 411
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼苟跪,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了蔓涧?” 一聲冷哼從身側(cè)響起件已,我...
    開(kāi)封第一講書(shū)人閱讀 37,917評(píng)論 0 268
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎元暴,沒(méi)想到半個(gè)月后篷扩,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 44,360評(píng)論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡茉盏,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,673評(píng)論 2 327
  • 正文 我和宋清朗相戀三年鉴未,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片鸠姨。...
    茶點(diǎn)故事閱讀 38,814評(píng)論 1 341
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡铜秆,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出享怀,到底是詐尸還是另有隱情羽峰,我是刑警寧澤,帶...
    沈念sama閱讀 34,509評(píng)論 4 334
  • 正文 年R本政府宣布添瓷,位于F島的核電站,受9級(jí)特大地震影響值纱,放射性物質(zhì)發(fā)生泄漏鳞贷。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 40,156評(píng)論 3 317
  • 文/蒙蒙 一虐唠、第九天 我趴在偏房一處隱蔽的房頂上張望搀愧。 院中可真熱鬧,春花似錦疆偿、人聲如沸咱筛。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 30,882評(píng)論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)迅箩。三九已至,卻和暖如春处铛,著一層夾襖步出監(jiān)牢的瞬間饲趋,已是汗流浹背拐揭。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 32,123評(píng)論 1 267
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留奕塑,地道東北人堂污。 一個(gè)月前我還...
    沈念sama閱讀 46,641評(píng)論 2 362
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像龄砰,于是被迫代替她去往敵國(guó)和親盟猖。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,728評(píng)論 2 351

推薦閱讀更多精彩內(nèi)容

  • 主要內(nèi)容包括: Feature Bagging 孤立森林 練習(xí) 1换棚、引言 在實(shí)際場(chǎng)景中式镐,很多數(shù)據(jù)集都是多維度的。隨...
    Q_cy閱讀 299評(píng)論 0 1
  • 1 引言 在實(shí)際場(chǎng)景中圃泡,很多數(shù)據(jù)集都是多維度的碟案。隨著維度的增加,數(shù)據(jù)空間的大衅睦(體積)會(huì)以指數(shù)級(jí)別增長(zhǎng)价说,使數(shù)據(jù)變得...
    許志輝Albert閱讀 510評(píng)論 0 0
  • 參考datawhale開(kāi)源組織:https://github.com/datawhalechina/team-le...
    YANJINING閱讀 411評(píng)論 0 0
  • 1、什么是異常檢測(cè) 異常檢測(cè)(Outlier Detection)风秤,顧名思義鳖目,是識(shí)別與正常數(shù)據(jù)不同的數(shù)據(jù),與預(yù)期行...
    noob鴿閱讀 489評(píng)論 0 0
  • Task01: 今天開(kāi)始了異常值學(xué)習(xí)的第一天缤弦。我在本科階段學(xué)習(xí)過(guò)一些關(guān)于高維數(shù)據(jù)流故障診斷的知識(shí)领迈。當(dāng)時(shí)主要學(xué)習(xí)的是...
    Jeremy__Wang閱讀 2,334評(píng)論 0 0