以下內(nèi)容根據(jù)RSA 阿里安全的PPT學(xué)習(xí)得來,如果涉及版權(quán)問題,請與我聯(lián)系诱桂。我立即刪除。
安全數(shù)據(jù)分析中機(jī)器學(xué)習(xí)和統(tǒng)計模型
Machine Learning vs. Statistical Modeling
機(jī)器學(xué)習(xí):依賴數(shù)據(jù)和算法
Machine Learning: Rely on data and algorithms
- 大量加了標(biāo)簽的數(shù)據(jù)Large amount of labeled data
- 特征工程 / 日志嵌入Feature engineering / log embedding
- 合適的學(xué)習(xí)算法 Proper learning algorithms
統(tǒng)計模型:依賴人的經(jīng)驗(yàn)
Statistical Modeling: Rely on human’s experiences
- 查找攻擊行為的共同特征 Find common trait of attack behavior
- 特征工程 Feature engineering
- 合適的統(tǒng)計算法 Proper statistical algorithms
相比起來「機(jī)器學(xué)習(xí)」在攻擊檢測上效果不佳呈昔。
機(jī)器學(xué)習(xí)擅長找到「正常模式」挥等,但是入侵是異常行為。不能簡單認(rèn)為異常數(shù)據(jù)就是非正常的那部分堤尾。
‘大數(shù)據(jù)’不等同于‘大標(biāo)簽(labeled)數(shù)據(jù)’肝劲,無人監(jiān)督學(xué)習(xí)的準(zhǔn)確度和召回率不能支持安全運(yùn)營的應(yīng)用。
很難定義一個合適的功能來判斷是否一個記錄代表入侵沒有郭宝。只有“是或否”不足以做安全分析辞槐。
適合機(jī)器學(xué)習(xí)的場景是一些特定領(lǐng)域,容易積累標(biāo)簽數(shù)據(jù)的那種粘室。比如垃圾郵件榄檬、DGA域名檢測、網(wǎng)絡(luò)爬蟲檢測衔统。
解決辦法:使用統(tǒng)計模型解構(gòu)威脅
Solution: Use Statistical Modeling to Deconstruct Threats
關(guān)鍵點(diǎn):入侵的發(fā)現(xiàn)路徑
入侵通常需要很長時間鹿榜,有多個階段,路經(jīng)多個節(jié)點(diǎn)锦爵。
因此安全數(shù)據(jù)分析的過程如下:
1)數(shù)據(jù)預(yù)處理
去除正常數(shù)據(jù)中的干擾項(xiàng)舱殿。
- 正常行為導(dǎo)向模型:重復(fù)的行為總是正常的
- 過濾出大概率的正常數(shù)據(jù)
- 召回是最重要的指標(biāo)
2)攻擊模型
識別可疑行為。
- 攻擊導(dǎo)向模型:相同類型的攻擊傾向于有同樣的特征
- 檢索更多疑似攻擊行為構(gòu)成異常行為模型
- 精確度是最重要的指標(biāo):假陽性(識別為攻擊但其實(shí)不是真的攻擊)成本最高险掀。比如增加打印機(jī)可能會導(dǎo)致網(wǎng)絡(luò)重新掃描沪袭;一些基于云的服務(wù)可能有心跳檢測;防病毒工具可能使用DNS通道抽樣可疑文件樟氢。
3)告警關(guān)聯(lián)
基于風(fēng)險給告警設(shè)置優(yōu)先級冈绊。
- 基于圖形的路徑發(fā)現(xiàn)和風(fēng)險優(yōu)先排序
- 節(jié)點(diǎn):資產(chǎn)创倔、IP地址、網(wǎng)絡(luò)
- 連線:攻擊關(guān)系焚碌、或者風(fēng)險傳播
- 一對節(jié)點(diǎn)只能有一個連線畦攘,不管有多少告警在他們之間
- 建立完整的攻擊場景
- 不同的攻擊階段
- 資產(chǎn)的網(wǎng)絡(luò)分布
- 風(fēng)險和每個告警的準(zhǔn)確度
- 精確度是最重要的指標(biāo):假陽性成本很高
真實(shí)攻擊要一直保持總結(jié)在100個告警以內(nèi)!(運(yùn)營單天處理能力上限)