谷歌SRE比對(duì)其它行業(yè)的可靠性設(shè)計(jì)的最佳實(shí)踐寞缝,分為四個(gè)部分:
一、準(zhǔn)備和災(zāi)備測(cè)試
SRE文化是永遠(yuǎn)警覺(jué)和持續(xù)質(zhì)問(wèn):什么有可能會(huì)出錯(cuò)滩届?在處理問(wèn)題的時(shí)候被啼,我們能采取什么樣的措施來(lái)防止事態(tài)擴(kuò)大化或者數(shù)據(jù)丟失棠枉?
災(zāi)備測(cè)試的原因是:1.確保系統(tǒng)按照我們所想的工作泡挺;2.找到預(yù)料之外的的系統(tǒng)弱點(diǎn);3.找到使系統(tǒng)更強(qiáng)壯的方法來(lái)預(yù)防不可控的斷供娄猫。
其它行業(yè)的災(zāi)備測(cè)試策略包括:
1.組織不斷強(qiáng)調(diào)質(zhì)量
制造業(yè):核能源、軍用飛行器勘伺、鐵路信號(hào)工業(yè)
2.關(guān)注細(xì)節(jié)
美國(guó)海軍:執(zhí)行小任務(wù)時(shí)的高度警覺(jué)意識(shí)褂删,如潤(rùn)滑油維護(hù),一個(gè)很小的疏忽或失誤都可能帶來(lái)極大的影響屯阀。系統(tǒng)高度內(nèi)聯(lián),一個(gè)區(qū)域的事故會(huì)影響多個(gè)相關(guān)的部件钦无。核海軍聚焦日常維護(hù)盖袭,確保小問(wèn)題不出現(xiàn)雪球效應(yīng)。
3. 容量變動(dòng)
電信行業(yè):受到不可預(yù)期的事件如自然災(zāi)害或可預(yù)見(jiàn)的事件如奧運(yùn)會(huì)影響鳄虱,絕對(duì)容量受限制。通過(guò)移動(dòng)電信辦公室來(lái)解決系統(tǒng)容量過(guò)載問(wèn)題决记。
4.仿真和現(xiàn)場(chǎng)演練
航空行業(yè)的事故演練
電信行業(yè)的颶風(fēng)和其它極端天氣演練
美國(guó)海軍的“假如”思考練習(xí)和現(xiàn)場(chǎng)演練
救生員的溺水演練
5.訓(xùn)練和證明
都認(rèn)為非常有必要
6.聚焦具體的需求收集和設(shè)計(jì)
醫(yī)療:眼外科手術(shù)機(jī)器設(shè)計(jì)要注意防呆
7.深度和廣度防御
核能業(yè):對(duì)失敗和事故的0容忍
二倍踪、.事后文化
正確的和預(yù)防性的措施是大家熟知的聚焦問(wèn)題根因來(lái)提高可靠性的概念,為了避免問(wèn)題再現(xiàn)建车,如下評(píng)估很重要:
a.發(fā)生了什么?
b.響應(yīng)的有效性
c.下次處理會(huì)有什么不同
d.采取什么措施才能確保下次發(fā)生相同的事故
這些活動(dòng)不是針對(duì)個(gè)人的往枷,也不是為了責(zé)罰,而是作為組織層面要了解出了什么錯(cuò)誤错洁,確保這個(gè)問(wèn)題不再發(fā)生。事后文化可以讓事故在整個(gè)SRE團(tuán)隊(duì)內(nèi)獲得收益描睦。//重點(diǎn)在分析导而,不在懲罰。
救生員行業(yè):救生員的腳一旦下水今艺,就要提交報(bào)告。
三撵彻、自動(dòng)化和減少操作成本
谷歌的SRE對(duì)重復(fù)性的工作忍受度很低实牡。
核海軍:潛水艇上的工作是由一系列信任的人來(lái)管理的,而不是一個(gè)人创坞。他們也同時(shí)考慮到自動(dòng)化和電腦更新太快,很容易導(dǎo)致一個(gè)不可修復(fù)的失誤偎谁。當(dāng)你和核反應(yīng)堆打交道的時(shí)候纲堵,快不是最關(guān)鍵的,慢而穩(wěn)定的方式更重要婉支。
財(cái)產(chǎn)交易行業(yè):電腦執(zhí)行速度很快澜建,若任務(wù)不正確,造成的損失非常大何之。
制造業(yè):自動(dòng)化來(lái)追求效率和成本咽筋。
核工業(yè):植物需要在30分鐘內(nèi)對(duì)給定的環(huán)境做出反應(yīng),自動(dòng)化非常有必要。
航空業(yè):自動(dòng)化的前提是安排人監(jiān)控虱痕。
醫(yī)療業(yè):自動(dòng)化很好的減少了激光眼睛手術(shù)的使用失誤辐赞。
四、結(jié)構(gòu)和理性的選擇決定
數(shù)據(jù)必須是嚴(yán)謹(jǐn)?shù)南煳瑘F(tuán)隊(duì)在做決定前必須滿足以下條件:
1. 決定的基礎(chǔ)是考慮到了將來(lái)的情況才被同意的,而不是基于過(guò)去的事實(shí)夹囚。
2. 決定的輸入必須清晰
3. 任何假設(shè)的狀態(tài)都是明確的
4. 數(shù)據(jù)驅(qū)動(dòng)的決策必須要得到房間內(nèi)大多數(shù)高級(jí)工程師的同意
電信業(yè)&核工業(yè):所有的決定都是在“if ?it works now, don't change it”思維方式下做的邀窃。很多行業(yè)在問(wèn)題解決上嚴(yán)重依賴于操作指導(dǎo)和手冊(cè)。其它行業(yè)也采取清晰的數(shù)據(jù)驅(qū)動(dòng)方式來(lái)做決定敲茄。但有些行業(yè)(如財(cái)產(chǎn)交易)把決策制定劃分到在更好的管理風(fēng)險(xiǎn)這類:?jiǎn)栴}一旦發(fā)生山析,先關(guān)閉機(jī)器堰燎。沒(méi)有交易雖然不賺錢笋轨,但是至少不在損失錢。
總結(jié):行業(yè)調(diào)查表明仅讽,谷歌在軟件更新的要求上比其它行業(yè)要更高钾挟。
重點(diǎn):谷歌通過(guò)其它行業(yè)的可靠性理解創(chuàng)造出自己的可靠性文化:在規(guī)模、復(fù)雜度掺出、變化速度和可靠性之間尋求到平衡的一個(gè)復(fù)雜公式汤锨。