15章 事后總結:從失敗中學習
事后總結包括該事故所造成的影響械哟,為緩解該事故的措施朵栖、事故的根本原因饵隙,以及防止未來問題重現(xiàn)的后續(xù)任務。
需要書寫事后總結的標準:
1.永不可見的宕機時間或者服務質量降級程度達到一定標準
2 任何類型數(shù)據(jù)丟失
3.on-cal工程師需要人工介入的事故
4.問題解決耗時超過一定限制
5.監(jiān)控問題(預示著問題由工程師發(fā)現(xiàn)琉兜,而非報警系統(tǒng))
原則:對事不對人,不抱怨毙玻,不指責豌蟋。
最佳實踐:避免指責,提供建設性意見桑滩。
協(xié)作和知識共享:
事后總結工作流程的每一步都包括團隊協(xié)作和知識共享梧疲。
優(yōu)先選擇以下功能:
1.實時協(xié)作。---使寫作過程可以很快收集數(shù)據(jù)和想法运准。
2.開放評論系統(tǒng)-使大家可以參與進來幌氮,提供解決方案,以及提高事故細節(jié)覆蓋程度
3.郵件通知--可以在文檔中給其他用戶發(fā)消息胁澳,或者引入其他人來共同填寫文檔该互。
內部發(fā)布->正式評審->發(fā)布
1.關鍵的災難數(shù)據(jù)是否已經(jīng)被收集并保存起來了?
2.本次事故的影響評估是否完整?
3.造成事故的根源是否足夠深入
- 文檔中記錄的任務優(yōu)先級是否合理韭畸,能否及時解決根源問題宇智。
5.這次事故處理的過程是否共享給所有部門。
最佳實踐:所有的時候總結都需要評審胰丁。
建立事后總結文化:
Google通過高級管理層的主動參與協(xié)作和評審環(huán)節(jié)來不斷加強內部事后總結文化随橘,但是有工程師自主驅動,效果會更好锦庸。
組織活動形式:
1.本月最佳事后總結机蔗。--每周新聞郵件
2.google 事后總結小組--本小組共享與內部和外部事后總結。
3.事后總結閱讀俱樂部甘萧。
4.命運之輪萝嘁。--剛加入的sre需要參加,角色扮演幔嗦。
面對投入與產(chǎn)出質疑酿愧,可采用策略:
1.逐漸引入。
2.確保對有效的書面總結提供獎勵和慶祝邀泉。
3.鼓勵公司高級管理層認可和參與其中嬉挡。
最佳實踐:公開獎勵做正確事的人。
最佳實踐:收集關于事后總結有效性的反饋汇恤。
事故總結小組:---對事不對人庞钢。
協(xié)調內部各種部門的事后總結流程.建立事故總結模板,用流程管理工具自動化數(shù)據(jù)收集因谎,以及自動化元數(shù)據(jù)收集一般進行趨勢分析基括。
將最佳實踐共享給不同產(chǎn)品部門。