敏感數(shù)據(jù)的智能識(shí)別 / 分類

小結(jié)

在用戶隱私數(shù)據(jù)安全
合規(guī)場景中,企業(yè)采集用戶信息或與用戶形成交互狀態(tài)梯嗽,企業(yè)此時(shí)需要滿足各 類隱私合規(guī)要求棒卷。對(duì)于用戶敏感行為的信息采集凤覆,比如 GPS 軌跡压彭、輸入表情以及瀏覽行為,為了降低合規(guī)性風(fēng)險(xiǎn)辱匿,可采取本地化差分技術(shù)?實(shí)現(xiàn)批量用戶行為數(shù)據(jù)的挖掘而不泄露單個(gè)的個(gè)體隱私信息灶泵; 為了更好地滿足用戶出各項(xiàng)數(shù)據(jù)權(quán)利請(qǐng)求與響應(yīng),可采取知識(shí)圖譜技術(shù)补箍,對(duì)個(gè)人信息進(jìn)行治理與可視 化改执。進(jìn)一步地啸蜜,應(yīng)用流程自動(dòng)化技術(shù)可對(duì)用戶數(shù)據(jù)權(quán)利“請(qǐng)求 -響應(yīng)”過程進(jìn)行賦能,一方面可通過 高處理效率從而人工運(yùn)營成本辈挂,另一方面可降低由于響應(yīng)超時(shí)帶來的合規(guī)性風(fēng)險(xiǎn)衬横。我國《個(gè)人信息保護(hù) 法(草案)》賦予個(gè)人包括知情權(quán)、決定權(quán)终蒂、查詢權(quán)蜂林、更正權(quán)、刪除權(quán)等拇泣,同時(shí)指出“個(gè)人信息處理者 應(yīng)當(dāng)建立個(gè)人行使權(quán)利的申請(qǐng)受理和處理機(jī)制”噪叙,而在《個(gè)人信息安全規(guī)范》(GB/T 35273-2020)指 出企業(yè)處理用戶數(shù)據(jù)權(quán)利請(qǐng)求的時(shí)間是 30 天之內(nèi)。隨著我國數(shù)據(jù)安全法規(guī) -標(biāo)準(zhǔn)體系的完善霉翔,可預(yù)計(jì) 國內(nèi)用戶數(shù)據(jù)權(quán)利響應(yīng)自動(dòng)化等隱私合規(guī)技術(shù)與市場正將逐步形成睁蕾。

前沿技術(shù)賦能企業(yè)內(nèi)部數(shù)據(jù)安全治理

本章將聚焦在企業(yè)內(nèi)部數(shù)據(jù)安全治理場景,首先分析其三個(gè)典型的子場景合規(guī)性
要求與安全挑戰(zhàn)债朵, 后續(xù)將從應(yīng)對(duì)的三種前沿技術(shù)子眶,包括敏感數(shù)據(jù)智能識(shí)別、數(shù)據(jù)脫敏風(fēng)險(xiǎn)評(píng)估序芦、用戶實(shí)體行為分析臭杰,進(jìn)行 技術(shù)原理、行業(yè)應(yīng)用芝加、以及未來發(fā)展的介紹與探討硅卢。

數(shù)據(jù)安全場景與挑戰(zhàn)

本節(jié)將分析用戶隱私數(shù)據(jù)安全合規(guī)的三個(gè)子場景面臨的合規(guī)性條款,以及安全挑戰(zhàn)藏杖。

敏感數(shù)據(jù)的智能識(shí)別 / 分類

敏感數(shù)據(jù)識(shí)別與分類是數(shù)據(jù)安全建設(shè)與治理的首要環(huán)節(jié)将塑。如 2.1 節(jié)所述,敏感數(shù)據(jù)來源有三類:? 國家敏感數(shù)據(jù)(也稱重要數(shù)據(jù))蝌麸;? 個(gè)人隱私數(shù)據(jù)点寥;? 企業(yè)敏感數(shù)據(jù)。通過對(duì)這三類敏感數(shù)據(jù)類型的 識(shí)別與分類来吩,企業(yè)更好地實(shí)施敏感數(shù)據(jù)安全管控與保護(hù)敢辩。

  • 合規(guī)條款
  • GDPR:法規(guī)保護(hù)“個(gè)人數(shù)據(jù)”。其定義的“個(gè)人數(shù)據(jù)”范圍十分寬泛(如 1.2 節(jié)分析)弟疆,不僅 包括姓名戚长、年齡、性別等基本個(gè)人信息怠苔,還包括個(gè)人照片同廉、指紋、虹膜、個(gè)人的宗教信仰迫肖,心 理和生理特征信息以及 IP锅劝、Mac、網(wǎng)絡(luò) Cookie 等一系列新增類型(第 4 條)蟆湖。
  • 《網(wǎng)絡(luò)安全法》:法規(guī)保護(hù)的網(wǎng)絡(luò)信息包括兩類:“個(gè)人信息”和“重要數(shù)據(jù)”故爵。對(duì)于“個(gè)人信息”, 它同樣蘊(yùn)含豐富的信息類型隅津,比如個(gè)人照片诬垂、身份證照片和指紋等(第 76 條)。對(duì)于“重要數(shù)據(jù)”饥瓷, 《數(shù)據(jù)安全管理辦法》(征求意見稿)進(jìn)一步給出了示例剥纷, “入未公開的政府信息,大面積人 口呢铆、基因健康、地理蹲缠、礦產(chǎn)資源等”棺克。對(duì)于不同類型的敏感數(shù)據(jù),企業(yè)應(yīng)履行“采取數(shù)據(jù)分類线定、 重要數(shù)據(jù)備份和加密等措施”(第 21 條)娜谊。
  • 問題挑戰(zhàn)

敏感數(shù)據(jù)類型多種多樣,傳統(tǒng)規(guī)則和正則匹配不夠智能斤讥,易出現(xiàn)漏檢纱皆。對(duì)于非結(jié)構(gòu)數(shù)據(jù)的檢測與識(shí)別, 如身份證照片芭商、合同文檔派草,傳統(tǒng)的檢測與識(shí)別方法難以應(yīng)付。

應(yīng)對(duì)技術(shù): 敏感數(shù)據(jù)智能識(shí)別(參見 4.2 節(jié))

脫敏數(shù)據(jù)的殘余風(fēng)險(xiǎn)評(píng)估

雖然數(shù)據(jù)脫敏在企業(yè)得到廣泛應(yīng)用铛楣,但研究發(fā)現(xiàn)脫敏數(shù)據(jù)仍然或多或少存在殘余的隱私風(fēng)險(xiǎn) [20]近迁。因此,需對(duì)脫敏的數(shù)據(jù)進(jìn)行風(fēng)險(xiǎn)評(píng)估與風(fēng)險(xiǎn)管理簸州,確保風(fēng)險(xiǎn)在企業(yè)組織的可控范圍之內(nèi)鉴竭。

  • 合規(guī)條款
  • GDPR:為了應(yīng)對(duì)隱私問題帶來的風(fēng)險(xiǎn)的挑戰(zhàn),GDPR指出數(shù)據(jù)控制者與處理者“應(yīng)當(dāng)執(zhí)行合 的技術(shù)措施和有組織性的措施來保證合理應(yīng)對(duì)風(fēng)險(xiǎn)的安全水平”(第 32 條)岸浑。
  • 《網(wǎng)絡(luò)安全法》:“網(wǎng)絡(luò)運(yùn)營者應(yīng)當(dāng)采取技術(shù)措施和其他必要措施搏存,確保其收集的個(gè)人信息安全, 防止信息泄露矢洲、毀損璧眠、丟失”。即要求企業(yè)采取一定的技術(shù)與管理措施,確保用戶個(gè)人信息與 隱私安全(第 42 條)蛆橡。
  • 問題挑戰(zhàn) 如何在攻擊視角下舌界,對(duì)脫敏數(shù)據(jù)的殘余隱私風(fēng)險(xiǎn)進(jìn)行刻畫。 應(yīng)對(duì)技術(shù): 數(shù)據(jù)脫敏風(fēng)險(xiǎn)評(píng)估(參見 4.3 節(jié))

數(shù)據(jù)操作行為的異常檢測

數(shù)據(jù)庫泰演、大數(shù)據(jù)平臺(tái)等環(huán)境中呻拌,如何檢測與區(qū)分正常和異常操作行為模式,對(duì)數(shù)據(jù)安全的監(jiān)控與 防護(hù)十分關(guān)鍵睦焕。
 合規(guī)條款

同 4.1.2 節(jié)的合規(guī)條款藐握。

!問題挑戰(zhàn)

普通的規(guī)則、閾值無法應(yīng)對(duì)復(fù)雜業(yè)務(wù)帶來的挑戰(zhàn)垃喊。 應(yīng)對(duì)技術(shù): 用戶實(shí)體行為分析 (UEBA)(參見 4.4 節(jié))

敏感數(shù)據(jù)智能識(shí)別

智能敏感數(shù)據(jù)識(shí)別技術(shù)主要應(yīng)用在文本猾普、圖像等非結(jié)構(gòu)化數(shù)據(jù)類型中。智能敏感識(shí)別包括三類智能 算法:基于相似度本谜、非監(jiān)督學(xué)習(xí)和監(jiān)督學(xué)習(xí)初家。

基于相似度算法可準(zhǔn)確檢測以文檔形式存儲(chǔ)的非結(jié)構(gòu)化數(shù)據(jù),例如 Word 與 PowerPoint 文件乌助、PDF 文檔溜在、財(cái)務(wù)、并購文檔他托,以及其他敏感或?qū)S行畔⒁蠢摺J紫龋止せ蛘咄ㄟ^感知算法(例如赏参,SimHash)
取文檔指紋特征志笼,以檢測原始文檔的已檢索部分、草稿或不同版本的受保護(hù)文檔把篓。第二步進(jìn)行敏感文 件的學(xué)習(xí)和訓(xùn)練纫溃,獲得敏感內(nèi)容的文檔時(shí),采用語義分析的技術(shù)進(jìn)行分詞纸俭,出來需要學(xué)習(xí)和訓(xùn)練的敏 感信息文檔的指紋模型皇耗,然后利用同樣的方法對(duì)被測的文檔或內(nèi)容進(jìn)行指紋抓取,將得到的指紋與訓(xùn)練 的指紋進(jìn)行比對(duì)揍很,根據(jù)預(yù)設(shè)的相似度閾值去確認(rèn)被檢測文檔是否為敏感信息文檔郎楼。

基于非監(jiān)督學(xué)習(xí)算法,人工無需打標(biāo)簽窒悔,進(jìn)行特征設(shè)計(jì)與提取呜袁,比如敏感圖像場景提取目標(biāo)關(guān)鍵點(diǎn)、 文檔數(shù)據(jù)根據(jù)語義取特征向量简珠。首先選取 K-means阶界、DBSCAN 等聚類算法其中之一作為訓(xùn)練算法虹钮, 然后將敏感數(shù)據(jù)待分類的數(shù)目賦為聚類“簇”的個(gè)數(shù),將輸入的樣本數(shù)據(jù)進(jìn)行聚類膘融,聚類完成形成不同 “簇”的數(shù)據(jù)集合芙粱,人工對(duì)這些“簇”的部分樣本進(jìn)行分析并確定相應(yīng)“簇”的類別,比如敏感型氧映、非 敏感型春畔。

基于監(jiān)督學(xué)習(xí)算法需收集一定數(shù)量的訓(xùn)練數(shù)據(jù)(比如文檔、圖片)岛都,同時(shí)對(duì)數(shù)據(jù)進(jìn)行人工打標(biāo)簽律姨, 比如敏感 / 非敏感標(biāo)簽(二分類場景)。然后選擇相應(yīng)的監(jiān)督學(xué)習(xí)算法臼疫,比如支持向量機(jī)(SVM)择份、決 策樹、隨機(jī)森林烫堤、神經(jīng)網(wǎng)絡(luò)等荣赶,再對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行模型訓(xùn)練與調(diào)參。訓(xùn)練完成鸽斟,將輸出的模型應(yīng)用在新 的數(shù)據(jù)進(jìn)行智能識(shí)別與預(yù)測讯壶,自動(dòng)化輸出數(shù)據(jù)類型?敏感 / 非敏感數(shù)據(jù)。

在實(shí)際應(yīng)用中湾盗,Securiti.ai [17] 和 BigID [19]公司均宣稱利用機(jī)器學(xué)習(xí)和聚類算法在大規(guī)模數(shù)據(jù)實(shí)現(xiàn)分 類,以自動(dòng)化發(fā)現(xiàn)個(gè)人數(shù)據(jù)以及其他敏感數(shù)據(jù)立轧。但算法的效率格粪、識(shí)別精度以及可擴(kuò)展性仍然是一系列富 有挑戰(zhàn)性的關(guān)鍵問題。

參考資料

綠盟 2020 數(shù)據(jù)安全前沿技術(shù)研究報(bào)告

友情鏈接

GB-T 17901.1-2020 信息技術(shù) 安全技術(shù) 密鑰管理 第1部分:框架

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末氛改,一起剝皮案震驚了整個(gè)濱河市帐萎,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌胜卤,老刑警劉巖疆导,帶你破解...
    沈念sama閱讀 221,695評(píng)論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異葛躏,居然都是意外死亡澈段,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,569評(píng)論 3 399
  • 文/潘曉璐 我一進(jìn)店門舰攒,熙熙樓的掌柜王于貴愁眉苦臉地迎上來败富,“玉大人,你說我怎么就攤上這事摩窃∈薅#” “怎么了?”我有些...
    開封第一講書人閱讀 168,130評(píng)論 0 360
  • 文/不壞的土叔 我叫張陵,是天一觀的道長鹦聪。 經(jīng)常有香客問我账阻,道長,這世上最難降的妖魔是什么泽本? 我笑而不...
    開封第一講書人閱讀 59,648評(píng)論 1 297
  • 正文 為了忘掉前任淘太,我火速辦了婚禮,結(jié)果婚禮上观挎,老公的妹妹穿的比我還像新娘琴儿。我一直安慰自己,他們只是感情好嘁捷,可當(dāng)我...
    茶點(diǎn)故事閱讀 68,655評(píng)論 6 397
  • 文/花漫 我一把揭開白布造成。 她就那樣靜靜地躺著,像睡著了一般雄嚣。 火紅的嫁衣襯著肌膚如雪晒屎。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 52,268評(píng)論 1 309
  • 那天缓升,我揣著相機(jī)與錄音鼓鲁,去河邊找鬼。 笑死港谊,一個(gè)胖子當(dāng)著我的面吹牛骇吭,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播歧寺,決...
    沈念sama閱讀 40,835評(píng)論 3 421
  • 文/蒼蘭香墨 我猛地睜開眼燥狰,長吁一口氣:“原來是場噩夢(mèng)啊……” “哼!你這毒婦竟也來了斜筐?” 一聲冷哼從身側(cè)響起龙致,我...
    開封第一講書人閱讀 39,740評(píng)論 0 276
  • 序言:老撾萬榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎顷链,沒想到半個(gè)月后目代,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 46,286評(píng)論 1 318
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡嗤练,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,375評(píng)論 3 340
  • 正文 我和宋清朗相戀三年榛了,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片潭苞。...
    茶點(diǎn)故事閱讀 40,505評(píng)論 1 352
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡忽冻,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出此疹,到底是詐尸還是另有隱情僧诚,我是刑警寧澤遮婶,帶...
    沈念sama閱讀 36,185評(píng)論 5 350
  • 正文 年R本政府宣布,位于F島的核電站湖笨,受9級(jí)特大地震影響旗扑,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜慈省,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,873評(píng)論 3 333
  • 文/蒙蒙 一臀防、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧边败,春花似錦袱衷、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,357評(píng)論 0 24
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至排截,卻和暖如春嫌蚤,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背断傲。 一陣腳步聲響...
    開封第一講書人閱讀 33,466評(píng)論 1 272
  • 我被黑心中介騙來泰國打工脱吱, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人认罩。 一個(gè)月前我還...
    沈念sama閱讀 48,921評(píng)論 3 376
  • 正文 我出身青樓箱蝠,卻偏偏與公主長得像,于是被迫代替她去往敵國和親垦垂。 傳聞我的和親對(duì)象是個(gè)殘疾皇子抡锈,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,515評(píng)論 2 359

推薦閱讀更多精彩內(nèi)容