Apsara Stack 技術(shù)百科 | 數(shù)字化業(yè)務(wù)系統(tǒng)安全工程

數(shù)字化時代鸳玩,如果說哪些信息是最受關(guān)注的,能不能上“熱搜”一定是評價的方法之一演闭。在每天進入“熱搜”的新聞中,有一類事件不僅上熱搜的頻率高颓帝,并且熱搜的名稱格式也高度統(tǒng)一米碰,那就是“某某崩了”或者“某某打不開了”。這里“某某”指那些與我們生活息息相關(guān)的數(shù)字化平臺购城,可能是購物平臺吕座,也可能是信息分享平臺。之所以人們?nèi)绱说年P(guān)注這類事件瘪板,因為這些數(shù)字化平臺已經(jīng)與我們生活緊密結(jié)合吴趴,其用戶規(guī)模龐大,一旦系統(tǒng)出現(xiàn)故障侮攀,勢必會造成一定生活的不便锣枝。比如疫情時代,健康碼已經(jīng)成為人們出門必備的條件兰英,一旦提供健康碼服務(wù)平臺出現(xiàn)故障撇叁,出行將變得寸步難行。


系統(tǒng)安全問題成為威脅企業(yè)正常運行的重大風險

數(shù)字化系統(tǒng)在給我們生活帶來便利的同時畦贸,也提升了他在人們生活中的重要性陨闹,一旦系統(tǒng)出現(xiàn)故障,不僅僅會影響到業(yè)務(wù)的正常運行薄坏,也會影響到用戶的日常生活和體驗趋厉。因此,系統(tǒng)安全問題成為威脅企業(yè)正常運行的重大風險胶坠,其安全穩(wěn)定將變的越來越重要君账。

在此背景下,一方面企業(yè)開始加大系統(tǒng)安全領(lǐng)域的投入涵但,另一方面國家監(jiān)管要求也變得越來越高杈绸。2021年6月10日,第十三屆全國人民代表大會通過了《全國人民代表大會常務(wù)委員會關(guān)于修改[中華人民共和國安全生產(chǎn)法]的決定》矮瘟,自2021年9月1日實施瞳脓。新安全生產(chǎn)法首次提出平臺經(jīng)濟等新興行業(yè)、領(lǐng)域的生產(chǎn)經(jīng)營單位應當根據(jù)本行業(yè)澈侠、領(lǐng)域的特點劫侧,建立健全并落實全員安全生產(chǎn)責任制,加強從業(yè)人員安全生產(chǎn)教育和培訓,履行有關(guān)安全生產(chǎn)義務(wù)烧栋。在工信部和應急管理部印發(fā)《“工業(yè)互聯(lián)網(wǎng)+安全生產(chǎn)”行動計劃(2021-2023年)》中写妥,也提出了要增強工業(yè)安全生產(chǎn)的感知、監(jiān)測审姓、預警珍特、處置和評估能力,加速安全生產(chǎn)從靜態(tài)分析向動態(tài)感知魔吐、事后應急向事前預防扎筒、單點防控向全局聯(lián)防的轉(zhuǎn)變,提升工業(yè)生產(chǎn)本質(zhì)安全水平酬姆。


內(nèi)部風險成為威脅系統(tǒng)安全的主要風險之一

在影響系統(tǒng)穩(wěn)定和安全的原因中嗜桌,按照其發(fā)生的主體,可以分為外部安全和內(nèi)部安全辞色,外部安全指常見由于黑客攻擊骨宠、木馬、DDOS攻擊等原因?qū)е碌南到y(tǒng)安全問題相满,而內(nèi)部安全則是由誤操作层亿、變更故障、程序缺陷雳灵、硬件故障等原因?qū)е碌南到y(tǒng)安全問題棕所。外部安全屬于信息安全的覆蓋域,目前已經(jīng)相對成熟悯辙,而內(nèi)部風險的控制還是薄弱環(huán)節(jié)琳省。

通過對企業(yè)內(nèi)部安全故障原因分析可以發(fā)現(xiàn),其中變更類故障導致的安全問題約占60-70%躲撰,環(huán)境變化類故障(如流量過大)導致的問題約占約15-25%针贬,硬件類故障約占約5-15%。由此可見拢蛋,由于變更風險導致的系統(tǒng)安全問題是威脅系統(tǒng)安全的主要風險之一桦他。


傳統(tǒng)風險控制方法難以解決內(nèi)部風險帶來的系統(tǒng)安全挑戰(zhàn)

傳統(tǒng)變更風險的控制是通過制度規(guī)范、宣貫谆棱、審批等方式來進行控制快压,由于風險控制復雜性,通過傳統(tǒng)方式進行風險管控存在較大挑戰(zhàn)垃瞧,主要表現(xiàn)在:

1)產(chǎn)品更新迭代快蔫劣,僅靠制度和人工審核控制風險難度大。由于目前數(shù)字化產(chǎn)品研發(fā)追求敏捷性个从,產(chǎn)品迭代頻繁脉幢,可能導致系統(tǒng)故障發(fā)生頻繁歪沃,而規(guī)章制度難以深入到產(chǎn)品研發(fā)、運維細節(jié)中嫌松,執(zhí)行難度較大沪曙。通過人工審核、審批的方式成本高萎羔,難以直接量化風險液走,在需要大量審核的場景下,容易忽視風險贾陷。

2)系統(tǒng)安全涉及范圍廣育灸,控制成本高。范圍廣主要體現(xiàn)在數(shù)字化系統(tǒng)和人員范圍廣昵宇,數(shù)字化系統(tǒng)包括重要業(yè)務(wù)系統(tǒng)、相應變更系統(tǒng)(云資源變更儿子、應用變更瓦哎、業(yè)務(wù)變更);人員包括產(chǎn)品柔逼、研發(fā)蒋譬、測試、運維愉适、運營人員等犯助。

3)點狀風險控制方案難以有效控制風險,控制效果差维咸。風險控制是復雜系統(tǒng)工程剂买,控制效果受短板影響明顯,沒有體系化控制手段癌蓖,難有效控制風險發(fā)生瞬哼。


解決方案實踐

系統(tǒng)故障誘因復雜,這導致單點控制很難解決問題租副,需要一個系統(tǒng)化解決方案坐慰。第一屆天貓雙十一,開發(fā)和運維人員需要整夜保障用僧,隨時解決出現(xiàn)的問題结胀,即便這樣,也會出一些意想不到的故障责循。2020年雙十一用戶數(shù)量和銷售規(guī)模與第一屆雙十一對比糟港,已經(jīng)不可同日而語,系統(tǒng)也更加復雜沼死,但雙十一大促系統(tǒng)保障過程卻越來越流暢着逐,保障人數(shù)也在持續(xù)降低,這背后就是一個系統(tǒng)化解決方案。


組織的頂層設(shè)計

組織設(shè)計是指從組織層面設(shè)置專門組織機構(gòu)來負責系統(tǒng)穩(wěn)定和安全耸别,包括最高層安全生產(chǎn)委員會和各個研發(fā)部門穩(wěn)定性負責人健芭。安全生產(chǎn)委員會職能包括負責全局穩(wěn)定性決策、安全生產(chǎn)規(guī)則制定秀姐、整體應急協(xié)同慈迈、安全文化培養(yǎng)、全局管控系統(tǒng)的規(guī)劃與管理省有。當故障發(fā)生時痒留,由相關(guān)人員負責故障應急與統(tǒng)籌,各研發(fā)部門穩(wěn)定性負責人負責各系統(tǒng)風險治理和穩(wěn)定性保障蠢沿,在研發(fā)伸头、運維過程中避免系統(tǒng)故障出現(xiàn)。


事前的風險預防

防患于未然是安全最高能力恤磷。首先野宜,事前風險預防包括事前分析系統(tǒng)各個組成要素、組成要素可能面臨威脅和存在脆弱性河胎,并將分析結(jié)果作為安全治理輸入虎敦。對于威脅原茅,需要制定相應措施避免或減少威脅發(fā)生吭历。對于脆弱性,需要針對性進行鞏固擂橘,比如對于經(jīng)常會導致系統(tǒng)故障的系統(tǒng)變配操作晌区,通過統(tǒng)一的變更平臺集中管理各種變配申請,從而實現(xiàn)對變配操作集中管控通贞。其次朗若,通過最小權(quán)限原則,限制操作人操作權(quán)限昌罩,包括操作時間限制哭懈、操作對象限制和操作范圍限制。另外茎用,每一次的變配操作遣总,系統(tǒng)可以根據(jù)操作人睬罗、操作對象、操作類型等要素旭斥,計算操作過程中存在的風險叹侄,一旦發(fā)現(xiàn)過程中存在確定風險鉴分,則會直接阻斷當前操作;如果是高風險,則會發(fā)起交叉確認流程胚想;如果是低風險弹澎,則會直接放行撑瞧。這種方式袋励,既實現(xiàn)了對風險的實時管控,防止由于人為失誤導致故障熙揍,同時又平衡了研發(fā)效率與安全生產(chǎn)間關(guān)系诈嘿。


事中的實時觀測

快速發(fā)現(xiàn)是避免損失擴大的重要手段。首先,在系統(tǒng)運行過程中淳梦,通過業(yè)務(wù)指標觀測爆袍、應用程序觀測、云資源觀測相結(jié)合的方式弦疮,能夠及時發(fā)現(xiàn)系統(tǒng)存在的問題蜘醋,一旦發(fā)現(xiàn)故障压语,按照事先制定的預案,系統(tǒng)會通知相關(guān)人員進行處理扰才。其次厕怜,基于大數(shù)據(jù)和人工智能算法蕾总,平臺會實時預測相關(guān)指標變化趨勢生百,將故障預警時間再次提前置侍。


事后的快速恢復

盡管事前事中制定了詳盡的方案拦焚,但是還是很難避免故障發(fā)生。一旦故障發(fā)生秕衙,如何快速進行故障恢復就是首要事情据忘。按照故障不同類型搞糕,可以使用故障恢復手段有限流、攔截汉规、熔斷针史、快恢碟狞、降級、擴容频祝、切流脆淹、重啟等未辆。不同恢復方式都需要有相應系統(tǒng)支持和日常演練測試。

故障恢復后兼蜈,安全生產(chǎn)委員會還需要組織相關(guān)人員排查和分析故障原因,制定整改方案歼郭,確定故障責任人辐棒,推進和落實整改方案,防止相同故障再次發(fā)生泰涂。


業(yè)務(wù)系統(tǒng)安全工程

從以上的實踐過程可以看出逼蒙,企業(yè)很難依靠單一手段解決系統(tǒng)故障寄疏,而需要通過系統(tǒng)化的手段,從頂層的組織設(shè)計驳棱、事前的風險分析和策略制定蹈胡、事中的持續(xù)監(jiān)測和預警朋蔫、日常的演練和事后的應急響應等多方面進行控制驯妄。

在傳統(tǒng)行業(yè)中青扔,為了保證生產(chǎn)經(jīng)營活動能夠正常運行翩伪,國家制定了一系列的措施使生產(chǎn)過程在符合規(guī)定的物質(zhì)條件和工作秩序下進行,從而有效消除或控制危險和有害因素凛剥,減少人身傷亡和財產(chǎn)損失犁珠,保障人員安全與健康、設(shè)備和設(shè)施免受損壞犁享、環(huán)境免遭破壞。在建筑桨吊、石油化工视乐、交通運輸磅甩、航空航天等行業(yè),安全生產(chǎn)已相對成熟和完備渣聚,但在互聯(lián)網(wǎng)領(lǐng)域還是空白奕枝。以下圖采礦業(yè)安全生產(chǎn)流程為例瓶堕,我們可以看出安全生產(chǎn)的管理要求已經(jīng)落實到了作業(yè)的各個過程和環(huán)節(jié)。

參考傳統(tǒng)行業(yè)中的安全生產(chǎn)解決方案谭梗,同時結(jié)合阿里巴巴內(nèi)部的最佳實踐激捏,我們提出了業(yè)務(wù)系統(tǒng)安全工程解決方案凄吏,該方案是指導業(yè)務(wù)系統(tǒng)防范故障的安全指南,其目標是通過預防图柏、監(jiān)測預警任连、應急響應等手段随抠,減少業(yè)務(wù)系統(tǒng)故障余佃,保障業(yè)務(wù)系統(tǒng)穩(wěn)定爆土、可用和可靠诸蚕,防范由于業(yè)務(wù)系統(tǒng)故障導致的資產(chǎn)損失和用戶影響背犯。


業(yè)務(wù)系統(tǒng)安全工程框架

由于業(yè)務(wù)系統(tǒng)以及故障原因的復雜性漠魏,單純的從一個或多個點出發(fā)很難解決問題。業(yè)務(wù)系統(tǒng)安全工程以控制論和系統(tǒng)論為指導哪自,以風險控制方法為工具禁熏,形成了自己的實施框架 IPDRI,即識別(identify)胧华、預防(protect)矩动、監(jiān)測(detect)释漆、恢復(recover)和改進(improvement)五個環(huán)節(jié)。從事前、事中享言、事后進行風險的控制渗鬼,形成閉環(huán)的反饋網(wǎng)絡(luò)。



其中差牛,識別包括資產(chǎn)分析、威脅識別脐恩、脆弱性識別等侦讨。預防是為了避免風險的發(fā)生而采取的一定的預防措施。監(jiān)測是監(jiān)測系統(tǒng)和保護措施是否在正常的運行骗污⌒璺蓿恢復是在故障出現(xiàn)時快速的采取措施恢復系統(tǒng)的運行蜡歹。改進是查找故障原因,制定改進方案避免相同故障的再次發(fā)生擅这。


業(yè)務(wù)系統(tǒng)安全工程標準

在此背景下景鼠,阿里云聯(lián)合國家信通院牽頭起草了《基于云計算的數(shù)字化業(yè)務(wù)安全工程標準》,該標準是國內(nèi)首部聚焦于保護系統(tǒng)持續(xù)正常運行的行業(yè)標準溯香。標準核心目標是保護業(yè)務(wù)系統(tǒng)能夠持續(xù)正常運行玫坛,防范由于業(yè)務(wù)系統(tǒng)故障導致資產(chǎn)損失和用戶影響包晰,保證系統(tǒng)可用、穩(wěn)定和可靠勉痴。


標準規(guī)定了企業(yè)實現(xiàn)業(yè)務(wù)系統(tǒng)持續(xù)正常運行需要具備的各項能力树肃,包括組織設(shè)計能力、風險分析與識別能力雏掠、策略與管控能力、監(jiān)測與預警能力以及應急響應能力摧玫。


其中:

· ? ? ? 組織設(shè)計能力規(guī)定企業(yè)應設(shè)立頂層安全生產(chǎn)委員會蚊伞,下轄公司安全生產(chǎn)部門时迫,用技術(shù)手段提升風險控制能力,保障業(yè)務(wù)穩(wěn)定癞揉;打造安全生產(chǎn)文化溺欧,確保人人重視、有持續(xù)性提升姐刁;明確行為準則,用機制保護人壁拉,減少犯錯柏靶,降低損失,以此快速推進穩(wěn)定治理痘昌,大幅收斂公司全局性故障和重大影響故障炬转。

· ? ? ? 風險分析與識別模塊幫助企業(yè)通過對系統(tǒng)脆弱性、業(yè)務(wù)安全生產(chǎn)需求驻啤、系統(tǒng)已發(fā)生故障分析,尋找影響信息系統(tǒng)安全生產(chǎn)的潛在風險街佑。

· ? ? ? 策略與管控模塊是針對已經(jīng)分析發(fā)現(xiàn)的風險制定安全生產(chǎn)管控策略沐旨,通過降低榨婆、預防威脅發(fā)生,提前鞏固谊迄、消除脆弱性等手段預防風險的發(fā)生烟央。

· ? ? ? 觀測與預警模塊是通過業(yè)務(wù)狀態(tài)觀測、云資源狀態(tài)觀測粮呢、大數(shù)據(jù)風險分析與預警以及預警管理等能力啄寡,快速發(fā)現(xiàn)風險哩照。

· ? ? ? 應急響應模塊規(guī)定了企業(yè)縮短故障時間、快速恢復故障應該具備的響應和快恢能力识藤,包括容災演練眯牧、切流学少、限流、降級版确、重啟、攔截侵歇、擴容等能力惕虑。


總結(jié)

系統(tǒng)安全受內(nèi)部和外部雙重影響坟冲,在防止企業(yè)系統(tǒng)受外部影響上健提,信息安全目前相關(guān)理論研究和產(chǎn)品建設(shè)已經(jīng)較為完善私痹。當前系統(tǒng)故障更多原因是由于企業(yè)內(nèi)部問題導致统刮,安全工程成為降低系統(tǒng)故障體系化解決方案。

隨著企業(yè)上云和用云深入暗膜,阿里云混合云安全工程為企業(yè)上好云鞭衩、安全用云提供了全套解決方案醋旦, 內(nèi)容包括:安全工程標準培訓、企業(yè)安全工程標準評測認證(聯(lián)合信通院)钉凌、安全工程產(chǎn)品體系(運維風控等)捂人、業(yè)務(wù)穩(wěn)定性咨詢等產(chǎn)品與服務(wù), 提升云上業(yè)務(wù)的安全可控酸纲。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末瑟匆,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子疾嗅,更是在濱河造成了極大的恐慌冕象,老刑警劉巖,帶你破解...
    沈念sama閱讀 222,729評論 6 517
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件论悴,死亡現(xiàn)場離奇詭異,居然都是意外死亡啊片,警方通過查閱死者的電腦和手機玖像,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 95,226評論 3 399
  • 文/潘曉璐 我一進店門捐寥,熙熙樓的掌柜王于貴愁眉苦臉地迎上來握恳,“玉大人捺僻,你說我怎么就攤上這事匕坯。” “怎么了锹雏?”我有些...
    開封第一講書人閱讀 169,461評論 0 362
  • 文/不壞的土叔 我叫張陵礁遵,是天一觀的道長采记。 經(jīng)常有香客問我唧龄,道長,這世上最難降的妖魔是什么掖鱼? 我笑而不...
    開封第一講書人閱讀 60,135評論 1 300
  • 正文 為了忘掉前任戏挡,我火速辦了婚禮晨仑,結(jié)果婚禮上拆檬,老公的妹妹穿的比我還像新娘竟贯。我一直安慰自己屑那,他們只是感情好,可當我...
    茶點故事閱讀 69,130評論 6 398
  • 文/花漫 我一把揭開白布持际。 她就那樣靜靜地躺著蜘欲,像睡著了一般姥份。 火紅的嫁衣襯著肌膚如雪年碘。 梳的紋絲不亂的頭發(fā)上屿衅,一...
    開封第一講書人閱讀 52,736評論 1 312
  • 那天傲诵,我揣著相機與錄音,去河邊找鬼悟衩。 笑死,一個胖子當著我的面吹牛座泳,可吹牛的內(nèi)容都是我干的挑势。 我是一名探鬼主播潮饱,決...
    沈念sama閱讀 41,179評論 3 422
  • 文/蒼蘭香墨 我猛地睜開眼诫给,長吁一口氣:“原來是場噩夢啊……” “哼香拉!你這毒婦竟也來了啦扬?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 40,124評論 0 277
  • 序言:老撾萬榮一對情侶失蹤凫碌,失蹤者是張志新(化名)和其女友劉穎扑毡,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體盛险,經(jīng)...
    沈念sama閱讀 46,657評論 1 320
  • 正文 獨居荒郊野嶺守林人離奇死亡瞄摊,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 38,723評論 3 342
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了苦掘。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片换帜。...
    茶點故事閱讀 40,872評論 1 353
  • 序言:一個原本活蹦亂跳的男人離奇死亡挺邀,死狀恐怖泣矛,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情换淆,我是刑警寧澤讯屈,帶...
    沈念sama閱讀 36,533評論 5 351
  • 正文 年R本政府宣布躁愿,位于F島的核電站来候,受9級特大地震影響性芬,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜俊庇,卻給世界環(huán)境...
    茶點故事閱讀 42,213評論 3 336
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧姓惑,春花似錦、人聲如沸唯沮。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,700評論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽佳恬。三九已至,卻和暖如春倾剿,著一層夾襖步出監(jiān)牢的瞬間前痘,已是汗流浹背坯癣。 一陣腳步聲響...
    開封第一講書人閱讀 33,819評論 1 274
  • 我被黑心中介騙來泰國打工芝硬, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人陪拘。 一個月前我還...
    沈念sama閱讀 49,304評論 3 379
  • 正文 我出身青樓摄乒,卻偏偏與公主長得像,于是被迫代替她去往敵國和親拭荤。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 45,876評論 2 361

推薦閱讀更多精彩內(nèi)容

  • 安全工程專業(yè)的快速發(fā)展大大加速了我國安全工程學科建設(shè)和安全工程專業(yè)技術(shù)人員的培養(yǎng)。全國已形成了較為完整的學士填硕、碩士...
    心理疏導閱讀 282評論 0 1
  • 信息安全工程的概念 概念 口令 安全協(xié)議 中間人攻擊 訪問控制 訪問控制原理 : 訪問控制是在身份認證的基礎(chǔ)之上绣版,...
    IMzhushang閱讀 1,701評論 0 3
  • 16宿命:用概率思維提高你的勝算 以前的我是風險厭惡者韩脏,不喜歡去冒險杭朱,但是人生放棄了冒險送浊,也就放棄了無數(shù)的可能闭树。 ...
    yichen大刀閱讀 6,059評論 0 4
  • 公元:2019年11月28日19時42分農(nóng)歷:二零一九年 十一月 初三日 戌時干支:己亥乙亥己巳甲戌當月節(jié)氣:立冬...
    石放閱讀 6,889評論 0 2
  • 昨天考過了阿里規(guī)范昼接,心里舒坦了好多漂辐,敲代碼也猶如神助哈扮。早早完成工作回家嘍
    常亞星閱讀 3,042評論 0 1