數(shù)字化時代鸳玩,如果說哪些信息是最受關(guān)注的,能不能上“熱搜”一定是評價的方法之一演闭。在每天進入“熱搜”的新聞中,有一類事件不僅上熱搜的頻率高颓帝,并且熱搜的名稱格式也高度統(tǒng)一米碰,那就是“某某崩了”或者“某某打不開了”。這里“某某”指那些與我們生活息息相關(guān)的數(shù)字化平臺购城,可能是購物平臺吕座,也可能是信息分享平臺。之所以人們?nèi)绱说年P(guān)注這類事件瘪板,因為這些數(shù)字化平臺已經(jīng)與我們生活緊密結(jié)合吴趴,其用戶規(guī)模龐大,一旦系統(tǒng)出現(xiàn)故障侮攀,勢必會造成一定生活的不便锣枝。比如疫情時代,健康碼已經(jīng)成為人們出門必備的條件兰英,一旦提供健康碼服務(wù)平臺出現(xiàn)故障撇叁,出行將變得寸步難行。
系統(tǒng)安全問題成為威脅企業(yè)正常運行的重大風險
數(shù)字化系統(tǒng)在給我們生活帶來便利的同時畦贸,也提升了他在人們生活中的重要性陨闹,一旦系統(tǒng)出現(xiàn)故障,不僅僅會影響到業(yè)務(wù)的正常運行薄坏,也會影響到用戶的日常生活和體驗趋厉。因此,系統(tǒng)安全問題成為威脅企業(yè)正常運行的重大風險胶坠,其安全穩(wěn)定將變的越來越重要君账。
在此背景下,一方面企業(yè)開始加大系統(tǒng)安全領(lǐng)域的投入涵但,另一方面國家監(jiān)管要求也變得越來越高杈绸。2021年6月10日,第十三屆全國人民代表大會通過了《全國人民代表大會常務(wù)委員會關(guān)于修改[中華人民共和國安全生產(chǎn)法]的決定》矮瘟,自2021年9月1日實施瞳脓。新安全生產(chǎn)法首次提出平臺經(jīng)濟等新興行業(yè)、領(lǐng)域的生產(chǎn)經(jīng)營單位應當根據(jù)本行業(yè)澈侠、領(lǐng)域的特點劫侧,建立健全并落實全員安全生產(chǎn)責任制,加強從業(yè)人員安全生產(chǎn)教育和培訓,履行有關(guān)安全生產(chǎn)義務(wù)烧栋。在工信部和應急管理部印發(fā)《“工業(yè)互聯(lián)網(wǎng)+安全生產(chǎn)”行動計劃(2021-2023年)》中写妥,也提出了要增強工業(yè)安全生產(chǎn)的感知、監(jiān)測审姓、預警珍特、處置和評估能力,加速安全生產(chǎn)從靜態(tài)分析向動態(tài)感知魔吐、事后應急向事前預防扎筒、單點防控向全局聯(lián)防的轉(zhuǎn)變,提升工業(yè)生產(chǎn)本質(zhì)安全水平酬姆。
內(nèi)部風險成為威脅系統(tǒng)安全的主要風險之一
在影響系統(tǒng)穩(wěn)定和安全的原因中嗜桌,按照其發(fā)生的主體,可以分為外部安全和內(nèi)部安全辞色,外部安全指常見由于黑客攻擊骨宠、木馬、DDOS攻擊等原因?qū)е碌南到y(tǒng)安全問題相满,而內(nèi)部安全則是由誤操作层亿、變更故障、程序缺陷雳灵、硬件故障等原因?qū)е碌南到y(tǒng)安全問題棕所。外部安全屬于信息安全的覆蓋域,目前已經(jīng)相對成熟悯辙,而內(nèi)部風險的控制還是薄弱環(huán)節(jié)琳省。
通過對企業(yè)內(nèi)部安全故障原因分析可以發(fā)現(xiàn),其中變更類故障導致的安全問題約占60-70%躲撰,環(huán)境變化類故障(如流量過大)導致的問題約占約15-25%针贬,硬件類故障約占約5-15%。由此可見拢蛋,由于變更風險導致的系統(tǒng)安全問題是威脅系統(tǒng)安全的主要風險之一桦他。
傳統(tǒng)風險控制方法難以解決內(nèi)部風險帶來的系統(tǒng)安全挑戰(zhàn)
傳統(tǒng)變更風險的控制是通過制度規(guī)范、宣貫谆棱、審批等方式來進行控制快压,由于風險控制復雜性,通過傳統(tǒng)方式進行風險管控存在較大挑戰(zhàn)垃瞧,主要表現(xiàn)在:
1)產(chǎn)品更新迭代快蔫劣,僅靠制度和人工審核控制風險難度大。由于目前數(shù)字化產(chǎn)品研發(fā)追求敏捷性个从,產(chǎn)品迭代頻繁脉幢,可能導致系統(tǒng)故障發(fā)生頻繁歪沃,而規(guī)章制度難以深入到產(chǎn)品研發(fā)、運維細節(jié)中嫌松,執(zhí)行難度較大沪曙。通過人工審核、審批的方式成本高萎羔,難以直接量化風險液走,在需要大量審核的場景下,容易忽視風險贾陷。
2)系統(tǒng)安全涉及范圍廣育灸,控制成本高。范圍廣主要體現(xiàn)在數(shù)字化系統(tǒng)和人員范圍廣昵宇,數(shù)字化系統(tǒng)包括重要業(yè)務(wù)系統(tǒng)、相應變更系統(tǒng)(云資源變更儿子、應用變更瓦哎、業(yè)務(wù)變更);人員包括產(chǎn)品柔逼、研發(fā)蒋譬、測試、運維愉适、運營人員等犯助。
3)點狀風險控制方案難以有效控制風險,控制效果差维咸。風險控制是復雜系統(tǒng)工程剂买,控制效果受短板影響明顯,沒有體系化控制手段癌蓖,難有效控制風險發(fā)生瞬哼。
解決方案實踐
系統(tǒng)故障誘因復雜,這導致單點控制很難解決問題租副,需要一個系統(tǒng)化解決方案坐慰。第一屆天貓雙十一,開發(fā)和運維人員需要整夜保障用僧,隨時解決出現(xiàn)的問題结胀,即便這樣,也會出一些意想不到的故障责循。2020年雙十一用戶數(shù)量和銷售規(guī)模與第一屆雙十一對比糟港,已經(jīng)不可同日而語,系統(tǒng)也更加復雜沼死,但雙十一大促系統(tǒng)保障過程卻越來越流暢着逐,保障人數(shù)也在持續(xù)降低,這背后就是一個系統(tǒng)化解決方案。
組織的頂層設(shè)計
組織設(shè)計是指從組織層面設(shè)置專門組織機構(gòu)來負責系統(tǒng)穩(wěn)定和安全耸别,包括最高層安全生產(chǎn)委員會和各個研發(fā)部門穩(wěn)定性負責人健芭。安全生產(chǎn)委員會職能包括負責全局穩(wěn)定性決策、安全生產(chǎn)規(guī)則制定秀姐、整體應急協(xié)同慈迈、安全文化培養(yǎng)、全局管控系統(tǒng)的規(guī)劃與管理省有。當故障發(fā)生時痒留,由相關(guān)人員負責故障應急與統(tǒng)籌,各研發(fā)部門穩(wěn)定性負責人負責各系統(tǒng)風險治理和穩(wěn)定性保障蠢沿,在研發(fā)伸头、運維過程中避免系統(tǒng)故障出現(xiàn)。
事前的風險預防
防患于未然是安全最高能力恤磷。首先野宜,事前風險預防包括事前分析系統(tǒng)各個組成要素、組成要素可能面臨威脅和存在脆弱性河胎,并將分析結(jié)果作為安全治理輸入虎敦。對于威脅原茅,需要制定相應措施避免或減少威脅發(fā)生吭历。對于脆弱性,需要針對性進行鞏固擂橘,比如對于經(jīng)常會導致系統(tǒng)故障的系統(tǒng)變配操作晌区,通過統(tǒng)一的變更平臺集中管理各種變配申請,從而實現(xiàn)對變配操作集中管控通贞。其次朗若,通過最小權(quán)限原則,限制操作人操作權(quán)限昌罩,包括操作時間限制哭懈、操作對象限制和操作范圍限制。另外茎用,每一次的變配操作遣总,系統(tǒng)可以根據(jù)操作人睬罗、操作對象、操作類型等要素旭斥,計算操作過程中存在的風險叹侄,一旦發(fā)現(xiàn)過程中存在確定風險鉴分,則會直接阻斷當前操作;如果是高風險,則會發(fā)起交叉確認流程胚想;如果是低風險弹澎,則會直接放行撑瞧。這種方式袋励,既實現(xiàn)了對風險的實時管控,防止由于人為失誤導致故障熙揍,同時又平衡了研發(fā)效率與安全生產(chǎn)間關(guān)系诈嘿。
事中的實時觀測
快速發(fā)現(xiàn)是避免損失擴大的重要手段。首先,在系統(tǒng)運行過程中淳梦,通過業(yè)務(wù)指標觀測爆袍、應用程序觀測、云資源觀測相結(jié)合的方式弦疮,能夠及時發(fā)現(xiàn)系統(tǒng)存在的問題蜘醋,一旦發(fā)現(xiàn)故障压语,按照事先制定的預案,系統(tǒng)會通知相關(guān)人員進行處理扰才。其次厕怜,基于大數(shù)據(jù)和人工智能算法蕾总,平臺會實時預測相關(guān)指標變化趨勢生百,將故障預警時間再次提前置侍。
事后的快速恢復
盡管事前事中制定了詳盡的方案拦焚,但是還是很難避免故障發(fā)生。一旦故障發(fā)生秕衙,如何快速進行故障恢復就是首要事情据忘。按照故障不同類型搞糕,可以使用故障恢復手段有限流、攔截汉规、熔斷针史、快恢碟狞、降級、擴容频祝、切流脆淹、重啟等未辆。不同恢復方式都需要有相應系統(tǒng)支持和日常演練測試。
故障恢復后兼蜈,安全生產(chǎn)委員會還需要組織相關(guān)人員排查和分析故障原因,制定整改方案歼郭,確定故障責任人辐棒,推進和落實整改方案,防止相同故障再次發(fā)生泰涂。
業(yè)務(wù)系統(tǒng)安全工程
從以上的實踐過程可以看出逼蒙,企業(yè)很難依靠單一手段解決系統(tǒng)故障寄疏,而需要通過系統(tǒng)化的手段,從頂層的組織設(shè)計驳棱、事前的風險分析和策略制定蹈胡、事中的持續(xù)監(jiān)測和預警朋蔫、日常的演練和事后的應急響應等多方面進行控制驯妄。
在傳統(tǒng)行業(yè)中青扔,為了保證生產(chǎn)經(jīng)營活動能夠正常運行翩伪,國家制定了一系列的措施使生產(chǎn)過程在符合規(guī)定的物質(zhì)條件和工作秩序下進行,從而有效消除或控制危險和有害因素凛剥,減少人身傷亡和財產(chǎn)損失犁珠,保障人員安全與健康、設(shè)備和設(shè)施免受損壞犁享、環(huán)境免遭破壞。在建筑桨吊、石油化工视乐、交通運輸磅甩、航空航天等行業(yè),安全生產(chǎn)已相對成熟和完備渣聚,但在互聯(lián)網(wǎng)領(lǐng)域還是空白奕枝。以下圖采礦業(yè)安全生產(chǎn)流程為例瓶堕,我們可以看出安全生產(chǎn)的管理要求已經(jīng)落實到了作業(yè)的各個過程和環(huán)節(jié)。
參考傳統(tǒng)行業(yè)中的安全生產(chǎn)解決方案谭梗,同時結(jié)合阿里巴巴內(nèi)部的最佳實踐激捏,我們提出了業(yè)務(wù)系統(tǒng)安全工程解決方案凄吏,該方案是指導業(yè)務(wù)系統(tǒng)防范故障的安全指南,其目標是通過預防图柏、監(jiān)測預警任连、應急響應等手段随抠,減少業(yè)務(wù)系統(tǒng)故障余佃,保障業(yè)務(wù)系統(tǒng)穩(wěn)定爆土、可用和可靠诸蚕,防范由于業(yè)務(wù)系統(tǒng)故障導致的資產(chǎn)損失和用戶影響背犯。
業(yè)務(wù)系統(tǒng)安全工程框架
由于業(yè)務(wù)系統(tǒng)以及故障原因的復雜性漠魏,單純的從一個或多個點出發(fā)很難解決問題。業(yè)務(wù)系統(tǒng)安全工程以控制論和系統(tǒng)論為指導哪自,以風險控制方法為工具禁熏,形成了自己的實施框架 IPDRI,即識別(identify)胧华、預防(protect)矩动、監(jiān)測(detect)释漆、恢復(recover)和改進(improvement)五個環(huán)節(jié)。從事前、事中享言、事后進行風險的控制渗鬼,形成閉環(huán)的反饋網(wǎng)絡(luò)。
其中差牛,識別包括資產(chǎn)分析、威脅識別脐恩、脆弱性識別等侦讨。預防是為了避免風險的發(fā)生而采取的一定的預防措施。監(jiān)測是監(jiān)測系統(tǒng)和保護措施是否在正常的運行骗污⌒璺蓿恢復是在故障出現(xiàn)時快速的采取措施恢復系統(tǒng)的運行蜡歹。改進是查找故障原因,制定改進方案避免相同故障的再次發(fā)生擅这。
業(yè)務(wù)系統(tǒng)安全工程標準
在此背景下景鼠,阿里云聯(lián)合國家信通院牽頭起草了《基于云計算的數(shù)字化業(yè)務(wù)安全工程標準》,該標準是國內(nèi)首部聚焦于保護系統(tǒng)持續(xù)正常運行的行業(yè)標準溯香。標準核心目標是保護業(yè)務(wù)系統(tǒng)能夠持續(xù)正常運行玫坛,防范由于業(yè)務(wù)系統(tǒng)故障導致資產(chǎn)損失和用戶影響包晰,保證系統(tǒng)可用、穩(wěn)定和可靠勉痴。
標準規(guī)定了企業(yè)實現(xiàn)業(yè)務(wù)系統(tǒng)持續(xù)正常運行需要具備的各項能力树肃,包括組織設(shè)計能力、風險分析與識別能力雏掠、策略與管控能力、監(jiān)測與預警能力以及應急響應能力摧玫。
其中:
· ? ? ? 組織設(shè)計能力規(guī)定企業(yè)應設(shè)立頂層安全生產(chǎn)委員會蚊伞,下轄公司安全生產(chǎn)部門时迫,用技術(shù)手段提升風險控制能力,保障業(yè)務(wù)穩(wěn)定癞揉;打造安全生產(chǎn)文化溺欧,確保人人重視、有持續(xù)性提升姐刁;明確行為準則,用機制保護人壁拉,減少犯錯柏靶,降低損失,以此快速推進穩(wěn)定治理痘昌,大幅收斂公司全局性故障和重大影響故障炬转。
· ? ? ? 風險分析與識別模塊幫助企業(yè)通過對系統(tǒng)脆弱性、業(yè)務(wù)安全生產(chǎn)需求驻啤、系統(tǒng)已發(fā)生故障分析,尋找影響信息系統(tǒng)安全生產(chǎn)的潛在風險街佑。
· ? ? ? 策略與管控模塊是針對已經(jīng)分析發(fā)現(xiàn)的風險制定安全生產(chǎn)管控策略沐旨,通過降低榨婆、預防威脅發(fā)生,提前鞏固谊迄、消除脆弱性等手段預防風險的發(fā)生烟央。
· ? ? ? 觀測與預警模塊是通過業(yè)務(wù)狀態(tài)觀測、云資源狀態(tài)觀測粮呢、大數(shù)據(jù)風險分析與預警以及預警管理等能力啄寡,快速發(fā)現(xiàn)風險哩照。
· ? ? ? 應急響應模塊規(guī)定了企業(yè)縮短故障時間、快速恢復故障應該具備的響應和快恢能力识藤,包括容災演練眯牧、切流学少、限流、降級版确、重啟、攔截侵歇、擴容等能力惕虑。
總結(jié)
系統(tǒng)安全受內(nèi)部和外部雙重影響坟冲,在防止企業(yè)系統(tǒng)受外部影響上健提,信息安全目前相關(guān)理論研究和產(chǎn)品建設(shè)已經(jīng)較為完善私痹。當前系統(tǒng)故障更多原因是由于企業(yè)內(nèi)部問題導致统刮,安全工程成為降低系統(tǒng)故障體系化解決方案。
隨著企業(yè)上云和用云深入暗膜,阿里云混合云安全工程為企業(yè)上好云鞭衩、安全用云提供了全套解決方案醋旦, 內(nèi)容包括:安全工程標準培訓、企業(yè)安全工程標準評測認證(聯(lián)合信通院)钉凌、安全工程產(chǎn)品體系(運維風控等)捂人、業(yè)務(wù)穩(wěn)定性咨詢等產(chǎn)品與服務(wù), 提升云上業(yè)務(wù)的安全可控酸纲。