事故報(bào)告撰寫
一篇事故總結(jié)是一次事故的書面記錄,包括該事故造成的影響,為緩解該事故采取的措施,事故的根本原因襟己,以及防止未來問題重現(xiàn)的后續(xù)任務(wù)。
事故總結(jié)的條件
- 用戶可見的宕機(jī)時(shí)間或者服務(wù)質(zhì)量降級(jí)程度到達(dá)一定標(biāo)準(zhǔn)牍陌。
- 任何類型的數(shù)據(jù)丟失擎浴。
- on-call 工程師需要人工介入的事故(包括回滾,切換用戶流量等)
- 問題解決耗時(shí)超過一定限制
- 監(jiān)控問題(預(yù)示著問題是由人工發(fā)現(xiàn)的毒涧,而非報(bào)警系統(tǒng))
事故報(bào)告對(duì)事不對(duì)人贮预,是為了提出服務(wù)如何如何能夠獲得進(jìn)步。避免職責(zé)契讲,提供建設(shè)性意見仿吞。
協(xié)作和知識(shí)共享
事故報(bào)告使用公司的模板。
評(píng)審條件如下幾項(xiàng):
- 關(guān)鍵的災(zāi)難數(shù)據(jù)是否已經(jīng)被收集并保存起來了怀泊?
- 本次事故的影響評(píng)估是否完整茫藏?
- 造成事故的根源問題是否足夠深入误趴?
- 文檔中記錄的任務(wù)優(yōu)先級(jí)是否合理霹琼,能否及時(shí)解決了根源問題?
- 這次事故處理的過程是否共享給了所有相關(guān)部門?
所有的事故總結(jié)都需要評(píng)審枣申。未經(jīng)評(píng)審的事后總結(jié)還不如不寫售葡。事故報(bào)告寫完要舉行評(píng)審會(huì)議。會(huì)議上注意著重著重解決目前文檔中的疑問和評(píng)論忠藤,收集相關(guān)的想法挟伙,將文檔完成。
以上內(nèi)容編抄自《SRE Google 運(yùn)維解密》
第十五章 事后總結(jié):從失敗中學(xué)習(xí)
模孩。省略了一些內(nèi)容尖阔。喜歡的可買書看。
我們是怎么做的
書中附錄D是總結(jié)示范(模板)榨咐。我們模板大致類似介却。分為如下幾項(xiàng):
1.參與開發(fā)人員
2.影響時(shí)間和范圍
3.問題現(xiàn)象及處理步驟
4.根本原因的分析和定位
5.后續(xù)任務(wù)
也就是要明確責(zé)任人,記錄事故發(fā)生及其處理恢復(fù)的時(shí)間块茁。問題現(xiàn)象(運(yùn)維監(jiān)控圖或者程序bug)及處理步驟的記錄齿坷,回顧起來也能幫你優(yōu)化你的處理方式。最重要的是原因的分析和定位数焊。這個(gè)才是有參考價(jià)值的永淌。讓你成長(zhǎng)也避免下次再犯。后續(xù)任務(wù)就是根據(jù)業(yè)務(wù)做些優(yōu)化或者組內(nèi)學(xué)習(xí)或者其他有促進(jìn)的學(xué)習(xí)或改善的事情佩耳。