目的:介紹無監(jiān)督學習異常檢測算法巨缘,主要是用高斯分布(正態(tài)分布)數(shù)據(jù)模型
1. Lesson 123 問題動機
????1. 目的:解釋異常檢測的背景也應用場景
????2. 內容:給到一定的數(shù)據(jù)集,無監(jiān)督訓練并建立模型(p(x),高斯分布)鼻听,當p(x)<?時嗡靡,代表異常
????3. 應用場景:交易欺詐冀宴、網(wǎng)站登錄異常李皇、服務器集群監(jiān)控等
2. Lesson 124 高斯分布
????1. 目的:介紹高斯分布(正態(tài)分布)
????2. 內容:
??????1. 實數(shù)集x∈R祟印,如果說x服從均值μ肴沫,方差??2的正太分布,則記為:x~N(μ,??2)蕴忆,其中μ空值曲線的中心颤芬,??^2空值寬度
??????2. 高斯分布公式
??????3. 標準正太分布,μ=0,,??=1
??????4. 均值μ站蝠、方差??^2公式
3. Lesson 125 算法
????1. 目的:介紹如何將高斯分布應用于算法菱魔,以及如何開發(fā)
4. Lesson 126 開發(fā)和評估異常檢測
????1. 目的:評估異常檢測算法
????2. 內容:
??????1. 最好是有正樣本的數(shù)據(jù)集澜倦,并且將正樣本分散到驗證集和測試集中
??????2. 異常檢測本身也是一個非對稱數(shù)據(jù)集聚蝶,在具體評估時使用召回率(R=正確預測分類數(shù)量/實際正樣本數(shù)量,評估覆蓋度)、準確率(P=正確預測分類數(shù)量/預測正樣本數(shù)量,評估準確性)藻治、F值(2(PR)/(P+R) ,F值越大越好)指標進行評估
5. Lesson 127 異常檢測與監(jiān)督學習
????1. 目的:解釋異常檢測和監(jiān)督學習的區(qū)別和不同應用場景
????2. 內容
??????1. 當正樣本數(shù)量極少碘勉,負樣本數(shù)量極多(即非對稱數(shù)據(jù)集)時建議使用異常檢測算法,且正樣本的異常情況不好預測
??????2. 當數(shù)據(jù)集同時包括了大量正負樣本時桩卵,可以使用監(jiān)督學習
6. Lesson 128 選擇要使用的特征
????1. 目的:如何選擇或設計異常檢測算法的特征變量
????2. 內容:
??????1. 首先畫出x的分布圖验靡,看是否服從正太分布,如果不服從雏节,可以用使用log(x+c)等函數(shù)使得x_new服從正太分布
??????2. 誤差分析胜嗓,通過誤差分析找出異常值,并人工檢查看能否發(fā)現(xiàn)新的特征矾屯,比如衍生變量(x1/x2等)
7. Lesson 129 多變量高斯分布
????1. 目的:介紹原始多元分布的延伸兼蕊,多元高斯分布
????2. 內容:
??????1. 存在一種情況是單個獨立特征服從高斯分布,并不異常件蚕,但是組合起來就明顯異常孙技,這個時候就需要用到多變量高斯分布
??????2. 多元高斯分布公式
8. Lesson 130 使用多變量高斯分布的異常檢測
????1.目的:講解多元高斯分布算法公式
????2.內容
??????1.具體公式已經(jīng)放到上圖中