一然低、基本信息
??題目:A fast and noise resilient cluster-based anomaly detection
??期刊/會議:Pattern Analysis and Applications
??發(fā)表時間:2017年
??引用次數:6
二肌蜻、 論文總結
2.1 研究方向
??基于聚類的異常檢測
2.2 寫作動機
??基于聚類的異常檢測算法中坊萝,很多都是使用歐氏距離超歌,這就默認假設數據是球狀分布奕坟,而這往往不符合真實情況储笑。而且聚類時往往需要提前設定聚類數量和閾值炼列,人工調參比較麻煩。因此作者采用了DBSCAN以適應任意形狀分布的數據
??使用DBSCAN聚類可以適應任意形狀分布的數據赤兴,但是異常檢測時需要在內存中存儲全部的樣本點妖滔,計算復雜度高,不適合大規(guī)耐傲迹或在線處理座舍。因此作者采用了SGMM方法,用高斯混合模型擬合每個類群以節(jié)省存儲空間陨帆。
??樣本中往往含有噪聲曲秉,異常檢測時如果只標記單個樣本點的話采蚀,容易受噪聲影響。因此作者對訓練集和測試集都使用DBSCAN承二,使用一種新的距離度量方式計算訓練集和測試集中高斯混合模型的相似度搏存,將與訓練集中最相似的類群標簽賦給測試集中的類群。
2.3 模型框架
??對訓練集(全是正常樣本)和測試集(含有異常樣本和噪聲數據)都進行DBSCAN聚類矢洲,對聚類后的每個類群進行建立高斯混合模型璧眠,然后交叉計算訓練集和測試集高斯混合模型的相似度,取訓練集中相似度最高的類群標簽賦給測試集中相應的類群读虏。其中在進行高斯混合模型時责静,會選取核心點,如果樣本點落在核心點邊界之外盖桥,就認為是異常點灾螃。(感覺作者在識別異常點方面沒有交代清楚,文章重點放在了高斯混合模型和相似度測量)
2.4 創(chuàng)新之處
??文章創(chuàng)新之處主要有兩點揩徊,是上面提到的寫作動機的后兩點:對聚類后的類群建立高斯混合模型以節(jié)省內存腰鬼;使用新的高斯混合模型相似度度量方式,進行集體打標簽塑荒。
??在建立高斯混合模型時熄赡,為了自動確定高斯模型的數量,作者首先選取類群中的核心點齿税,核心點的數量就是高斯模型的數量彼硫,核心點及其鄰居用于計算該高斯模型的均值和協方差矩陣,鄰居數量的比例是各個高斯模型的權重凌箕。選取核心點的過程如下:
??首先確定半徑R拧篮,對于類群中的每個點統(tǒng)計半徑R內樣本點的數量;做降序排列后牵舱,選取鄰居最多的點作為第一個核心點串绩,刪除該核心點和其鄰居;選取剩下的點中鄰居最多的點作為第二個核心點芜壁,并刪除鄰居礁凡。一直進行下去,直到全部點都被處理完沿盅。
??新的相似度度量方式是基于KL散度的把篓,因為KL散度不是對稱的纫溃,所以作者稍加處理腰涧,使用取平均的方式得到對稱的距離度量方式。