問題動機(jī)
再給定訓(xùn)練集的情況下豆赏,如何檢測某一個輸入x是否異常芳悲?
首先要根據(jù)訓(xùn)練集數(shù)據(jù)建立一個模型榛丢,當(dāng)給定數(shù)據(jù)的值的時候枪芒,則數(shù)據(jù)被認(rèn)定為異常彻况,表示它距離總體數(shù)據(jù)中心較遠(yuǎn)時被認(rèn)定為正常。
欺詐行為識別是異常識別最常用的領(lǐng)域舅踪,向量表示用戶i的一系列特征纽甘,如登錄次數(shù),點擊某一個頁面的次數(shù)抽碌,發(fā)帖次數(shù)等悍赢,根據(jù)這些特征建立模型,然后根據(jù)閾值識別欺詐行為。同樣,異常識別還用于產(chǎn)品檢測等方面左权。
高斯分布
基于高斯分布的異常檢測算法
假設(shè)樣本數(shù)據(jù)的每一個特征對應(yīng)一個高斯分布皮胡,模型等于這些分布的聯(lián)合分布。通常涮总,統(tǒng)計學(xué)上概率聯(lián)乘基于獨立性假設(shè)胸囱,但在實際中,若樣本數(shù)量足夠大瀑梗,是否獨立就不那么重要了烹笔。
首先選擇可能需要的特征,擬合特征的參數(shù)抛丽,即均值和方差谤职,得到每個特征的分布,也可以用特征向量表示亿鲜;用所有特征的聯(lián)合分布構(gòu)建模型允蜈;給定新的樣本點x,根據(jù)模型計算值蒿柳,看其有沒有小于閾值饶套。
上圖數(shù)據(jù)有兩個特征,擬合每個特征的參數(shù)垒探,p值就表示為在三維圖上面的高度妓蛮。
開發(fā)和評估異常檢測系統(tǒng)
在進(jìn)行特征選擇的時候,如果想知道是否應(yīng)該加入一個新的特征圾叼,一個數(shù)值的評估指標(biāo)就顯得很重要蛤克,那么在進(jìn)行特征選擇的時候可以分別計算加入該特征和不加兩種情況,當(dāng)加入該特征時夷蚊,返回一個數(shù)值指標(biāo)构挤,可以用來判斷算法效果是否得到了改進(jìn)。
假設(shè)有10000個正常樣本和20個異常樣本惕鼓,按上面的方式進(jìn)行評估筋现。根據(jù)訓(xùn)練集求得特征向量的參數(shù),構(gòu)造模型呜笑,樣本的分類比例有不同的方法夫否,但是不要把把驗證集同時作為測試集。
首先進(jìn)行模型的構(gòu)造叫胁,對訓(xùn)練集樣本中的每一個特征建立高斯分布擦?xí)缓笸ㄟ^聯(lián)乘建立模型汞幢,因為樣本其實是有標(biāo)簽的驼鹅,即,是帶有標(biāo)簽y的,那么输钩,y就可以用來幫我們判斷模型的好壞豺型。建立模型以后,在驗證集中進(jìn)行算法評估买乃,將驗證集中的某一個樣本值x輸入到模型中姻氨,根據(jù)閾值預(yù)測驗證集樣本的標(biāo)簽,大于閾值則為正常點剪验,小于閾值為異常點肴焊。然后在與樣本的實際標(biāo)簽作對比,計算評估指標(biāo)如準(zhǔn)確率功戚,召回率娶眷,F(xiàn)-score等。
對于模型中的閾值的選擇啸臀,可以嘗試不同的届宠,然后選擇對應(yīng)的F-score最大的。
既然我們有了帶標(biāo)簽的數(shù)據(jù)乘粒,為什么不適用線性回歸豌注,邏輯回歸等方法進(jìn)行異常點識別呢?
異常檢測VS監(jiān)督學(xué)習(xí)
異常檢測適用于正樣例(y=1)數(shù)量非常少灯萍,而負(fù)樣例(y=0)數(shù)量非常多的樣本轧铁。因為這正樣本正樣例太少,無法找到所有的異常原因竟稳,若進(jìn)行監(jiān)督學(xué)習(xí)的話属桦,無法學(xué)到所有的知識,還有可能會存在未來會發(fā)生的新的異樣他爸,這些異衬舯觯現(xiàn)在無法觀測的到,更無法進(jìn)行建模诊笤。相反系谐,異常檢測是對大量的負(fù)樣例進(jìn)行建模,這樣任何偏離模型的樣本就可以被識別為異常讨跟,而不用研究異常的原因是什么纪他。之前在講述有監(jiān)督的學(xué)習(xí)的時候提到過例子,垃圾郵件的分類晾匠,就是因為我們擁有的垃圾郵件的數(shù)量非常多茶袒,可以總結(jié)出垃圾郵件的普遍特征,因此有利于算法學(xué)習(xí)和建模凉馆。
因此薪寓,當(dāng)負(fù)樣例即異常點數(shù)量非常少的時候亡资,可以使用異常檢測法對數(shù)據(jù)中的負(fù)樣例進(jìn)行建模,偏離正常點的數(shù)據(jù)都被認(rèn)為是異常點向叉;當(dāng)負(fù)樣例即異常點數(shù)量非常多的時候锥腻,監(jiān)督學(xué)習(xí)算法可以有效地進(jìn)行學(xué)習(xí),因此母谎,這個時候可以選擇監(jiān)督學(xué)習(xí)的算法進(jìn)行異常點識別瘦黑。
選擇異常算法要使用的功能
在進(jìn)行異常檢測的時候,我們認(rèn)為數(shù)據(jù)的分布符合高斯分布奇唤,然后根據(jù)訓(xùn)練集進(jìn)行參數(shù)估計幸斥,再通過聯(lián)乘進(jìn)行模型構(gòu)建,然后在驗證集中進(jìn)行驗證冻记。但是睡毒,實際上很多特征的分布不是符合高斯分布的,此時我們可以通過變換將其調(diào)整為高斯分布(實際上樣本數(shù)量足夠多的情況下不進(jìn)行調(diào)整也可以冗栗,但是如果進(jìn)行了調(diào)整演顾,模型效果肯定會更好)。調(diào)整的方式有很多隅居,如上圖所示钠至,可以將參數(shù)數(shù)值取對數(shù),進(jìn)行開方等胎源,通過調(diào)節(jié)冪指數(shù)等參數(shù)棉钧,是數(shù)據(jù)的分布趨向于高斯分布。
我們希望的得到的模型在正樣例上數(shù)值較大涕蚤,在負(fù)樣例上數(shù)值較小宪卿。我們可以采取這樣的方法,先進(jìn)行初始模型的建立万栅,在最后分析模型的表現(xiàn)佑钾,當(dāng)模型表現(xiàn)不好的時候在分析可能產(chǎn)生的原因是什么,根據(jù)這些原因再去選擇合適的特征烦粒。一個常見的問題是單一特征的時候休溶,異常點和正常點的額都很大,此時扰她,就可以添加新的特征去進(jìn)行異常點檢測兽掰。
我們可以根據(jù)對問題的判斷,自己構(gòu)造特征徒役。
多變量高斯分布
異常檢測的一種延伸
上圖左上角的綠色點是異常數(shù)據(jù)孽尽,因此通常在CPU負(fù)載較低的時候,內(nèi)存使用應(yīng)該較低忧勿,但是這個點不同泻云。當(dāng)分別考慮CPU負(fù)載和內(nèi)存使用兩個特征的時候艇拍,如右邊兩個坐標(biāo)所示狐蜕,這個異常點并沒有表現(xiàn)出來異常宠纯,從CPU負(fù)載來看,小于該點的值也有很多层释;從內(nèi)存使用來看,大于該點的也有很多廉白。這樣一來使用異常檢測算法就不能識別出這個異常點楣嘁,這是因為進(jìn)行高斯異常檢測的時候,是按照左圖洋紅色線來劃分的,越靠近內(nèi)部圓圈的點越是正常把曼,原理內(nèi)部圓的點越不正常器净。這樣就忽略了不同特征之間的關(guān)系。
為了改進(jìn)這種異常識別算法的不足,就有了改進(jìn)的異常檢測算法,即多變量高斯分布 。
多變量高斯分布在建立模型的時候不在分別將每一個特征的分布看做一個高斯分布光涂,而是整合成一個分布齐佳,分布中的參數(shù)表示樣本的協(xié)方差矩陣。隨著參數(shù)的變化隧土,樣本分布變化如圖:
協(xié)方差矩陣的副對角線上元素的大小表示兩個特征的相關(guān)系數(shù)幕庐,因此瑟由,數(shù)值越大,兩個特征的相關(guān)性越大冤寿,則樣本分布圖如上所示歹苦。同理青伤,相關(guān)系數(shù)為負(fù)的時候,表示兩個特征負(fù)相關(guān)殴瘦,則樣本分布如下所示:
當(dāng)改變均值的時候狠角,分布的峰值會發(fā)生改變,即改變均值就是移動整個分布的中心:
多變量高斯分布的異常檢測
在多元高斯分布中痴施,要估計的參數(shù)就是均值向量和sigmoid函數(shù)擎厢。
在求出參數(shù)以后,可以按照上述公式建立模型辣吃,給定一個新的樣本x,當(dāng)其小于閾值的時候就會被認(rèn)定為異常芬探。
單變量高斯分布其實就是在樣本特征相互獨立的時候的一種特殊的多元高斯分布的情況
在傳統(tǒng)的高斯分布中神得,如果能手工建立相關(guān)特征之間的關(guān)系,捕捉異常關(guān)系偷仿,那么是可以使用傳統(tǒng)的高斯異常檢測的哩簿,如果不能自己識別建立這種關(guān)系,那么就適合使用多元高斯分布酝静,它會自動捕捉特征之間的關(guān)系节榜;在訓(xùn)練集規(guī)模較小的時候使用傳統(tǒng)的高斯分布是可以的,若要使用多元高斯分布别智,那么就要求訓(xùn)練集數(shù)據(jù)量要很大宗苍,訓(xùn)練集數(shù)據(jù)量m要遠(yuǎn)遠(yuǎn)大于特征個數(shù)n,一般m>10n,效果較好薄榛,不然就會出現(xiàn)奇異矩陣讳窟。再優(yōu)點方面,傳統(tǒng)的高斯分布可能計算較為簡單敞恋,而多元高斯分布計算量隨著特征的個數(shù)上升丽啡。
如果在使用多元高斯分布的時候產(chǎn)生了奇異矩陣,可能是存在以下兩方面的問題:一是數(shù)據(jù)量太少硬猫,沒有達(dá)到遠(yuǎn)超過特征數(shù)的要求补箍;另一方面是存在特征冗余,即特征之間存在線性關(guān)系啸蜜。