穩(wěn)定性建設(shè)實(shí)踐

本文介紹了穩(wěn)定性建設(shè)實(shí)踐相關(guān)的內(nèi)容纵竖。介紹了穩(wěn)定性保障組織建設(shè)漠烧,交付流程的穩(wěn)定性保障,線上穩(wěn)定性保障的措施磨确,研發(fā)效能的提升沽甥,團(tuán)隊(duì)建設(shè)等方面的內(nèi)容。介紹了簡化復(fù)雜的事情乏奥,標(biāo)準(zhǔn)化簡單的事情摆舟,流程化標(biāo)準(zhǔn)的事情,自動(dòng)化流程的事情的重要性邓了。同時(shí)也提到了推動(dòng)落地的方法和向上管理恨诱、橫向協(xié)作的重要性。

1骗炉、職責(zé)

所在組織結(jié)構(gòu):團(tuán)隊(duì)成員40人左右照宝,業(yè)務(wù)特點(diǎn):有大量老服務(wù)、流量波動(dòng)大(峰值集中在中午和傍晚)句葵、流量不可預(yù)測(cè)厕鹃。

背景:以業(yè)務(wù)發(fā)展為主,對(duì)穩(wěn)定性關(guān)注較少乍丈,各項(xiàng)目使用的規(guī)范和工具不一致剂碴,近兩年平臺(tái)出了幾次事故,開始重視穩(wěn)定性建設(shè)轻专,成立穩(wěn)定性保障小組忆矛,推動(dòng)穩(wěn)定性工作。

穩(wěn)定性小組的組成:


image.png
  • 穩(wěn)定性保障小組:各團(tuán)隊(duì)抽調(diào)人力成立的一個(gè)虛擬小組请垛,負(fù)責(zé)團(tuán)隊(duì)內(nèi)部的任務(wù)推動(dòng)
  • QA:負(fù)責(zé)上線前各流程的規(guī)范及檢查催训,負(fù)責(zé)流水線建設(shè)、事故定責(zé)
  • SRE:負(fù)責(zé)線上問題的跟進(jìn)
  • Leader:本部門內(nèi)的穩(wěn)定性工作負(fù)責(zé)人
  • 安全生產(chǎn)委員會(huì):負(fù)責(zé)事業(yè)部內(nèi)安全生產(chǎn)相關(guān)規(guī)范宗收、配合公司級(jí)事項(xiàng)推動(dòng)漫拭、協(xié)調(diào)外部資源

職責(zé)

穩(wěn)定性保障小組這個(gè)名稱其實(shí)不是特別準(zhǔn)確,后續(xù)又承接了很多其他的橫向推動(dòng)的任務(wù)混稽,主要包括三大塊:

  • 穩(wěn)定性保證:分為上線前保障和線上保障
  • 研發(fā)效能:規(guī)范制定嫂侍、流水線建設(shè)、環(huán)境建設(shè)等
  • 降本增效:提升資源利用率

時(shí)間分配

  • 組長:50%左右
  • 穩(wěn)定性保障小組成員:10%左右

2荚坞、交付流程穩(wěn)定性保障

整體流程圖:


image.png

(1)方案設(shè)計(jì)規(guī)范

超過3PD的需求需要寫方案文檔同步到小組群,超過10pd的需求需要小組內(nèi)評(píng)審菲盾。

(2)代碼規(guī)范

禁止提交master分支【強(qiáng)制】

分支規(guī)范【強(qiáng)制】

參考:Commit Log規(guī)范

(3)流水線建設(shè)

  1. 靜態(tài)代碼檢查

    團(tuán)隊(duì)之前沒有靜態(tài)代碼檢查颓影,存量代碼中存在大量的待解決問題,卡控應(yīng)先卡控增量代碼懒鉴,然后逐步提升全量卡控比例诡挂;

  2. 單元測(cè)試

    大部分代碼沒有單測(cè)碎浇,且很多跑不通過的單測(cè)。治理過程:(a).修復(fù)跑不過的單測(cè)璃俗;(b).流水線檢查單測(cè)必須跑通過笨篷;(c).引入單測(cè)規(guī)范姻成;(d).卡控增量代碼覆蓋率、單測(cè)必須有assert;(e). 卡控全量覆蓋率

  3. Git治理

  • master分支權(quán)限治理:只有組長有master權(quán)限
  • merge卡控:流水線跑通過才能merge
  • merge卡控:不能merge自己提的pr悯蝉,必須有至少有2個(gè)人review通過才能merge
  • merge后自動(dòng)打tag,并用此tag發(fā)布線上

(4)上線規(guī)范

  1. 工具: 上線變更平臺(tái)

    每次發(fā)布愧旦、配置變更跌造、數(shù)據(jù)變更都需要使用上線變更平臺(tái)發(fā)起申請(qǐng)單,并通過二層審批

  2. 上線記錄到checklist文檔

  • 需求:PRD间聊、任務(wù)地址攒盈、需求發(fā)起人
  • 代碼PR地址
  • 配置項(xiàng)
  • 上線順序、依賴
  • 上線檢查截圖
  • 回滾方案

(5)交付流程觀測(cè)指標(biāo)

  1. 代碼量
  2. 靜態(tài)代碼達(dá)標(biāo)率:有問題的代碼量/所有代碼量
  3. 靜態(tài)代碼Blocker, Critical數(shù)量
  4. 單測(cè)通過率:治理過程中的臨時(shí)指標(biāo)
  5. 單元測(cè)試新增覆蓋率:merge到master時(shí)統(tǒng)計(jì)新增代碼
  6. 單元測(cè)試全量覆蓋率:定時(shí)統(tǒng)計(jì)
  7. 千行代碼bug率:QA測(cè)出的bug數(shù)/代碼行數(shù)
  8. 回滾次數(shù)

3哎榴、線上穩(wěn)定性保障

image.png

(1)事故預(yù)防

1. 運(yùn)維基礎(chǔ)能力建設(shè)

a.上下游機(jī)器配置平衡

b. 負(fù)載均衡

  • RPC服務(wù)流量均衡:RPC流量路由策略設(shè)置成同城市優(yōu)先分組型豁,對(duì)性能要求高的可以設(shè)置成同機(jī)房優(yōu)先
  • DB流量均衡:Mysql、Redis尚蝌、MQ跨城市嚴(yán)格隔離迎变,大流量同機(jī)房優(yōu)先

c. 機(jī)器利用率:治理資源利用率太多的應(yīng)用,及時(shí)擴(kuò)容

d. 彈性伸縮容接入(基于K8S)【核心服務(wù)強(qiáng)制】

檢查機(jī)制:基礎(chǔ)數(shù)據(jù)通過大盤報(bào)表查看驼壶,各平臺(tái)零散數(shù)據(jù)通過爬蟲爬數(shù)據(jù)氏豌,再輸出報(bào)表

2. 服務(wù)治理

a. 服務(wù)提供者治理:C端必須有接口限流

b. 依賴資源治理:C端核心依賴必須有熔斷、降級(jí) 【強(qiáng)制】

  • 治理MQ热凹、Redis等資源QPS泵喘、容量情況
  • DB治理:禁止跨業(yè)務(wù)引用 【強(qiáng)制】
  • 慢查詢治理

c. 風(fēng)險(xiǎn)治理:公司基建,風(fēng)控推動(dòng)等

d. 報(bào)警治理:P0+P1報(bào)警般妙,每個(gè)問題都必須跟進(jìn)纪铺,如無必要報(bào)警,調(diào)整報(bào)警策略 【強(qiáng)制】

檢查機(jī)制:規(guī)范+周會(huì)同步

3. 系統(tǒng)能力預(yù)估

a.壓測(cè) 【強(qiáng)制】

公司工具:Trace鏈路追蹤碟渺、Mock工具鲜锚、影子表工具等

穩(wěn)定性小組做的事:
  • 以上幾種能力的接入:劃分核心服務(wù)、核心接口苫拍、讀寫分類芜繁,上下游通過確認(rèn)等;
  • 組織壓測(cè)绒极,壓測(cè)后有壓測(cè)報(bào)告

b. 故障演練【強(qiáng)制】 工具:故障演練平臺(tái)

  • 上下游限流骏令、降級(jí)演練
  • fullgc、cpu100%垄提、宕機(jī)等演練
  • 報(bào)警SOP演練
  • 業(yè)務(wù)開關(guān)演練

4. 業(yè)務(wù)梳理及風(fēng)險(xiǎn)排查

梳理穩(wěn)定性問題榔袋,包含以下幾部分:

a. 核心服務(wù)穩(wěn)定性梳理:代碼走查周拐、風(fēng)控接入等

b. 線上線下行為不一致治理:代碼里有大量ifelse不同環(huán)境走不同邏輯

c. 資損專項(xiàng)治理:接口冪等、對(duì)賬等

(2)事故發(fā)現(xiàn)&排查

1.原則:可觀測(cè)性(Observability)

image.png

2. 工具

    a. Metric:跨服務(wù)調(diào)用鏈路追蹤

        基礎(chǔ)組件:上層中間件支持如RPC框架凰兑、HTTP客戶端服務(wù)端妥粟、MQ、定時(shí)任務(wù)框架等吏够。如果沒有鏈路標(biāo)識(shí)勾给,則自動(dòng)添加鏈路標(biāo)識(shí)

    b. 日志

        通過監(jiān)聽slf4j日志,上報(bào)到日志中心并通過**ES+Kibana**提供查詢能力

    c. 指標(biāo)

        后端指標(biāo)統(tǒng)計(jì)稿饰、大盤建設(shè)锦秒、報(bào)警(閾值報(bào)警+智能報(bào)警)、前端指標(biāo)統(tǒng)計(jì)等喉镰。

        常見的指標(biāo)類型有:
  • Count:用來記錄一件事發(fā)生的次數(shù)旅择,只有數(shù)量
  • Micros:記錄一段代碼的執(zhí)行時(shí)間和次數(shù),有平均耗時(shí)侣姆、TP90生真、TP99、TP999捺宗、最大柱蟀、最小耗時(shí)、次數(shù)等詳細(xì)信息

3. 多維度監(jiān)控蚜厉、報(bào)警

a. 監(jiān)控

監(jiān)控建設(shè)金字塔:

image.png

基礎(chǔ)平臺(tái)監(jiān)控长已、中間件監(jiān)控:公司基礎(chǔ)組件自動(dòng)上報(bào)

應(yīng)用監(jiān)控:公司基礎(chǔ)組件自動(dòng)上報(bào),比如接口粒度QPS昼牛、響應(yīng)時(shí)間术瓮、JVM信息等

業(yè)務(wù)監(jiān)控:需要后端業(yè)務(wù)RD手動(dòng)打點(diǎn)上報(bào)

用戶體驗(yàn):需要前端手動(dòng)打點(diǎn)上報(bào)

b. 報(bào)警

基礎(chǔ)平臺(tái)、中間件贰健、應(yīng)用指標(biāo)會(huì)自動(dòng)配置報(bào)警胞四,但是很多時(shí)候不合理,需要RD手動(dòng)配置報(bào)警伶椿。

c. 大盤

聚合多個(gè)指標(biāo)辜伟,可以做一些簡單的數(shù)值運(yùn)算,形成1個(gè)大盤脊另。

d. 穩(wěn)定性小組做的事:規(guī)范化(可報(bào)警导狡、可看、可查)偎痛、自動(dòng)化(減少人工成本)

指標(biāo)可追溯:指標(biāo)和日志Tag綁定:重要業(yè)務(wù)指標(biāo)烘豌,都要有相應(yīng)日志;且ES中Tag需是索引字段看彼;

指標(biāo)的治理:(解決的問題:單個(gè)指標(biāo)是1個(gè)點(diǎn)廊佩,指標(biāo)多了離散化嚴(yán)重)
  • 平級(jí)指標(biāo):比如串聯(lián)調(diào)用中的多個(gè)步驟,使用枚舉表示
  • 錯(cuò)誤碼:一種特殊的指標(biāo)靖榕,用于給前端的返回值标锄,用枚舉表示

4. 線上問題發(fā)現(xiàn)

節(jié)假日巡檢

  1. 機(jī)器容量評(píng)估
  2. 業(yè)務(wù)運(yùn)行情況
  3. 應(yīng)用能力評(píng)估:QPS、響應(yīng)時(shí)間茁计、當(dāng)前壓力達(dá)到峰值能力百分比
  4. 下游依賴情況

(3)事故處理

1. 處理原則

問題處理原則:先止損料皇、再修復(fù)

問題通報(bào):根因分析平臺(tái)自動(dòng)拉群,及時(shí)通報(bào)問題星压,評(píng)估并周知影響范圍践剂、持續(xù)時(shí)間、處理進(jìn)度等

2. 處理方案SOP

  1. 自動(dòng)部分
    1. 降級(jí)
    2. 限流
    3. 重試
  2. 人工介入流程 【強(qiáng)制】
    1. 判斷是否正在上線導(dǎo)致故障:回滾娜膘、禁用已發(fā)布機(jī)器
    2. 判斷是否是有流量大導(dǎo)致的報(bào)警:擴(kuò)容
    3. 及時(shí)通報(bào)業(yè)務(wù)方及上游

(4)事故復(fù)盤

1. 事故復(fù)盤COE

復(fù)盤包含以下幾點(diǎn):問題原因逊脯、處理時(shí)間線、經(jīng)驗(yàn)教訓(xùn)竣贪、改進(jìn)計(jì)劃等军洼,拉QA、SRE演怎、相關(guān)業(yè)務(wù)方一起復(fù)盤 【強(qiáng)制】

2. TODO及跟進(jìn)

明確問題處理時(shí)間匕争,盡快處理,及時(shí)更新狀態(tài)

(5)線上觀測(cè)指標(biāo)

  1. S4及以上事故數(shù)

  2. S9事故數(shù)

  3. 漏洞數(shù)量:先知風(fēng)險(xiǎn)平臺(tái)自動(dòng)掃描

  4. 報(bào)警量

  5. 報(bào)警響應(yīng)率

  6. 接口性能達(dá)標(biāo)率:SLA

  7. 服務(wù)可靠性指標(biāo):SLO(Service Level Objective)

    SLA口徑:統(tǒng)計(jì)團(tuán)隊(duì)所有服務(wù)所有接口的200返回判斷是否正常爷耀,

問題:a. 大部分服務(wù)使用錯(cuò)誤碼代替HTTP狀態(tài)碼甘桑、b. 流量小但重要接口出現(xiàn)異常影響不了整體指標(biāo)、c. 長耗時(shí)接口被統(tǒng)計(jì)成正常

方案:SLO指標(biāo)建設(shè)歹叮,建設(shè)多個(gè)SLI指標(biāo)并劃分權(quán)重跑杭,對(duì)應(yīng)重要接口的相應(yīng)狀態(tài)(根據(jù)狀態(tài)碼+HTTP狀態(tài)判斷)、接口承諾TP99響應(yīng)時(shí)間

4盗胀、研發(fā)效能

(1)項(xiàng)目管理:

推動(dòng)需求生命周期都走研發(fā)流程管理平臺(tái)艘蹋,比如ONES。

(2)研發(fā)提效

1. 基礎(chǔ)庫建設(shè)

建設(shè)各種基礎(chǔ)utils票灰,如JSON序列化女阀、時(shí)間轉(zhuǎn)換工具等;

2. 規(guī)范建設(shè)

框架規(guī)范屑迂、模塊劃分規(guī)范浸策、分層規(guī)范、編碼規(guī)范等惹盼;

3. 本地開發(fā)

a. 服務(wù)改造庸汗,不支持本地開發(fā)的原因:

  • 容器配置依賴:各類agent、配置文件手报,方案:在本地也安裝一遍
  • 下游依賴:要求本地網(wǎng)絡(luò)可以連接測(cè)試環(huán)境資源
  • 編譯方式:dev環(huán)境和測(cè)試環(huán)境保持一致
  • 環(huán)境不一致:線上是Linux蚯舱,本地是Mac

b. 工具

  • 熱部署:JRebel等

c. 面臨的挑戰(zhàn):

  • 本地電腦太卡:解決方案:云IDE改化、IDEA遠(yuǎn)程開發(fā);或控制微服務(wù)的粒度

4. 環(huán)境建設(shè)

測(cè)試環(huán)境泳道治理:主要是主干泳道治理枉昏,如RD不能手動(dòng)操作的主干泳道陈肛,主干泳道根據(jù)master分支更新自動(dòng)發(fā)布等

線上仿真環(huán)境:

  • 無真實(shí)流量環(huán)境:使用線上數(shù)據(jù)庫和下游,無線上真實(shí)流量兄裂,用于上線前的線上環(huán)境驗(yàn)證句旱;
  • 有真實(shí)流量環(huán)境:nginx配置小流量,驗(yàn)證線上真實(shí)流量場(chǎng)景晰奖;

5谈撒、降本增效

推動(dòng)策略包含:

a. 手段1-下機(jī)器

數(shù)據(jù)報(bào)表建設(shè):按組織結(jié)構(gòu)選擇所有服務(wù)資源利用率報(bào)表,未達(dá)標(biāo)報(bào)表

立目標(biāo):deadline匾南,每周目標(biāo)

數(shù)據(jù)播報(bào):大群每天定時(shí)播報(bào)各組資源利用率

b. 手段2-彈性伸縮

彈性伸縮規(guī)則:

  • 定時(shí)
  • 根據(jù)指標(biāo):QPS啃匿、CPU利用率等

服務(wù)彈性伸縮注意事項(xiàng),不適合彈性伸縮的場(chǎng)景:

  • 瞬時(shí)流量波動(dòng)較大的服務(wù)
  • 有狀態(tài)服務(wù):比如TCP長連接服務(wù)午衰、有本地存儲(chǔ)服務(wù)

c. 手段3-服務(wù)改造

  1. 性能優(yōu)化:業(yè)務(wù)層面立宜、JVM層面等
  2. 服務(wù)合并部署:多個(gè)微服務(wù)代碼合并成一個(gè)
  3. 有狀態(tài)服務(wù)改造成無狀態(tài)服務(wù):比如有的服務(wù)依賴了基于本地磁盤的隊(duì)列,改成了MQ隊(duì)列
  4. 日志改造:有服務(wù)排查日志依賴本地磁盤日志臊岸,把業(yè)務(wù)重要日志改為日志中心存儲(chǔ)(基于ES)
  5. 新工具嘗試:serverless等

6橙数、團(tuán)隊(duì)建設(shè)

(1)會(huì)議

  1. 穩(wěn)定性保障小組周會(huì):查看報(bào)警、錯(cuò)誤日志帅戒、風(fēng)險(xiǎn)等灯帮,回顧上周的工作,確定本周TODO
  2. 周會(huì):回顧穩(wěn)定性周指標(biāo)逻住,同步

(2)宣講

推動(dòng)的每件事情都會(huì)進(jìn)行宣講

(3)考試

規(guī)范考試

SOP考試

線上操作規(guī)范考試等

(4)權(quán)限卡控

新人入職N個(gè)月內(nèi)不允許上線

考試的通過后才自動(dòng)開通線上發(fā)布權(quán)限

總結(jié)

穩(wěn)定性事情涉及的事項(xiàng)钟哥、團(tuán)隊(duì)、服務(wù)非常多瞎访,Case By Case的治理腻贰,很容易沒有重點(diǎn)且效果不好,要有方法論來全局規(guī)劃扒秸、推動(dòng)落地播演。

1、原則

復(fù)雜的事情簡單化伴奥,簡單的事情標(biāo)準(zhǔn)化写烤,標(biāo)準(zhǔn)的事情流程化,流程的事情自動(dòng)化拾徙。

image.png

(1)復(fù)雜的事情簡單化

簡化常用的方法:任務(wù)拆分洲炊,復(fù)用(比如:框架的復(fù)用、設(shè)計(jì)模式的復(fù)用等)

(2)簡單的事情標(biāo)準(zhǔn)化

分兩部分:操作流程(SOP)、團(tuán)隊(duì)規(guī)范暂衡、術(shù)語標(biāo)準(zhǔn)化询微、數(shù)據(jù)口徑標(biāo)準(zhǔn)等;

(3)標(biāo)準(zhǔn)的事情流程化

落地有相應(yīng)輔助工具狂巢,比如有了ORM框架規(guī)范拓提,需要基本的代碼生成工具;

(4)流程的事情自動(dòng)化

完全避免人工操作隧膘,比如各種數(shù)據(jù)統(tǒng)計(jì)、任務(wù)進(jìn)度報(bào)表等

(5)實(shí)踐分享:單元測(cè)試建設(shè)

治理之前:單測(cè)全憑RD自驅(qū)寺惫,單測(cè)不完善疹吃、單測(cè)跑不過、單測(cè)框架多西雀、流水線沒配置單測(cè)

a. 簡單化:任務(wù)拆分
  • 歷史債務(wù)治理:單測(cè)跑通過是基礎(chǔ)萨驶。又可以拆分為:流水線配置單測(cè)、Git Merge卡控艇肴、流水線通過比例大盤

  • 引入新規(guī)范:Junit5腔呜、powermock、testablemock

  • 推動(dòng)增量代碼單測(cè)覆蓋率:逐步提升卡控標(biāo)準(zhǔn):20% 40% 60%再悼,最終達(dá)到80%

  • 推動(dòng)全量代碼單測(cè)覆蓋率

    b. 標(biāo)準(zhǔn)化:規(guī)范+模版+數(shù)據(jù)口徑

  • 流水線標(biāo)準(zhǔn)化:通過配置流水線模版核畴,逐步統(tǒng)一各服務(wù)流水線

  • 單測(cè)規(guī)范:工具規(guī)范化

  • 數(shù)據(jù)指標(biāo)口徑標(biāo)準(zhǔn):比如如何定義增量代碼覆蓋率? 我們最終采用的是merge前最后一次提交時(shí)對(duì)應(yīng)的單測(cè)數(shù)據(jù)

    c. 流程化:

  • 單測(cè)示例代碼:建立單測(cè)示例代碼庫冲九,常用的場(chǎng)景都能找到對(duì)應(yīng)case谤草,降低學(xué)習(xí)成本

  • 原因分析,保障單測(cè)流程順利執(zhí)行:對(duì)于單測(cè)覆蓋率不達(dá)標(biāo)的場(chǎng)景莺奸,可根據(jù)分支名丑孩、push記錄找到具體哪一行沒跑通過、沒覆蓋到

  • 意外流程:對(duì)于緊急修復(fù)漏洞場(chǎng)景灭贷,可以不通過單測(cè)卡控直接merge(需審批)

    d. 自動(dòng)化

  • 流水線自動(dòng)化: 代碼push温学、創(chuàng)建pr都會(huì)自動(dòng)觸發(fā)流水線,流水線打通Git Merge功能

  • 流水線配置自動(dòng)化:團(tuán)隊(duì)卡控要配置到流水線甚疟,沒有工具仗岖,自建腳本完成配置,比如:單測(cè)必須開啟古拴、單測(cè)覆蓋率箩帚、單測(cè)必須有asset語句等

  • 數(shù)據(jù)采集自動(dòng)化:自動(dòng)采集各團(tuán)隊(duì)、倉庫的單測(cè)數(shù)據(jù)黄痪,形成多維度報(bào)表

2紧帕、推動(dòng)落地

image.png

(1)自身:主觀能動(dòng)性

穩(wěn)定性保證工作沒有終點(diǎn),是項(xiàng)系統(tǒng)的工程,從模糊的目標(biāo)到方法再到落地有很大的差距是嗜。 不僅僅是學(xué)習(xí)業(yè)界相關(guān)經(jīng)驗(yàn)或者采用公司的工具愈案,需要發(fā)揮主觀能動(dòng)性全面深入思考,找到符合團(tuán)隊(duì)的最佳實(shí)踐鹅搪,深入一線才能更順利的推動(dòng)落地站绪。

需要承擔(dān)大量非本職能的工作,不要自我設(shè)限:比如數(shù)據(jù)指標(biāo)建設(shè)丽柿、大盤建設(shè)恢准、自動(dòng)腳本開發(fā)等。

(2)向下推動(dòng)

為治理效果負(fù)責(zé)甫题,不能只當(dāng)傳聲筒馁筐,可以通過以下幾方面保障事情推動(dòng):

  1. 任務(wù)拆解:收到的任務(wù)都是模糊的,比如規(guī)范坠非、提升某指標(biāo)等敏沉,一線RD缺少的具體操作步驟,需要對(duì)任務(wù)進(jìn)行拆解并宣導(dǎo)炎码,做到可理解盟迟、可落地、可觀測(cè)的程度潦闲;

  2. 任務(wù)分配:明確負(fù)責(zé)人及時(shí)間點(diǎn)

  3. 任務(wù)執(zhí)行:建立SOP攒菠、工具等,有衡量標(biāo)準(zhǔn)矫钓,觀測(cè)手段要尔,及獎(jiǎng)懲制度;對(duì)下分配任務(wù)一定要有相關(guān)的進(jìn)度觀測(cè)工具新娜;

(3)向上管理

向上管理很重要:

  1. 任務(wù)范圍廣:穩(wěn)定性工作不只是Leader分配下來的任務(wù)赵辕,還有很多自驅(qū)的事情;
  2. 工作難以量化:不是所有事情都能用數(shù)據(jù)量化概龄,也不能簡單用沒有事故就認(rèn)為穩(wěn)定性做得好还惠,盡量做到匯報(bào)可量化;

需要Leader支持的:

  1. 給予幫助:穩(wěn)定性治理人員權(quán)限不夠私杜,有時(shí)需要借助Leader的幫助蚕键,如通宵緊急修復(fù)漏洞、對(duì)穩(wěn)定性提高重視的宣導(dǎo)等衰粹;
  2. 給予信任:穩(wěn)定性工作成果不好量化锣光,且不會(huì)帶來業(yè)務(wù)價(jià)值。需要Leader給予足夠的信任铝耻;

(4)橫向協(xié)作

穩(wěn)定性的事情QA誊爹、SRE蹬刷、其他橫向穩(wěn)定性小組等保持了良好的溝通協(xié)作,保障事情順利推動(dòng):

  1. 輔助:比如經(jīng)驗(yàn)參考频丘、規(guī)范工具借鑒等办成;還可以一起推動(dòng)改變老板的一些決策等;
  2. 協(xié)助:比如SRE服務(wù)器資源協(xié)調(diào)搂漠、QA流水線治理迂卢、自動(dòng)化建設(shè)等;
  3. 貢獻(xiàn):將做的好的推廣給更多團(tuán)隊(duì)桐汤,比如單測(cè)經(jīng)驗(yàn)分享而克、指標(biāo)大盤、自動(dòng)化工具等怔毛;

本文鏈接:穩(wěn)定性建設(shè)實(shí)踐

作者簡介:木小豐拍摇,快手架構(gòu)師,專注分享軟件研發(fā)實(shí)踐馆截、架構(gòu)思考。

更多精彩文章:

高效能團(tuán)隊(duì)的Java研發(fā)規(guī)范(進(jìn)階版)

錯(cuò)誤碼設(shè)計(jì)思考
從MVC到DDD的架構(gòu)演進(jìn)

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末蜂莉,一起剝皮案震驚了整個(gè)濱河市蜡娶,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌映穗,老刑警劉巖窖张,帶你破解...
    沈念sama閱讀 211,561評(píng)論 6 492
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異蚁滋,居然都是意外死亡宿接,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,218評(píng)論 3 385
  • 文/潘曉璐 我一進(jìn)店門辕录,熙熙樓的掌柜王于貴愁眉苦臉地迎上來睦霎,“玉大人,你說我怎么就攤上這事走诞「迸” “怎么了?”我有些...
    開封第一講書人閱讀 157,162評(píng)論 0 348
  • 文/不壞的土叔 我叫張陵蚣旱,是天一觀的道長碑幅。 經(jīng)常有香客問我,道長塞绿,這世上最難降的妖魔是什么沟涨? 我笑而不...
    開封第一講書人閱讀 56,470評(píng)論 1 283
  • 正文 為了忘掉前任,我火速辦了婚禮异吻,結(jié)果婚禮上裹赴,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好篮昧,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,550評(píng)論 6 385
  • 文/花漫 我一把揭開白布赋荆。 她就那樣靜靜地躺著,像睡著了一般懊昨。 火紅的嫁衣襯著肌膚如雪窄潭。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,806評(píng)論 1 290
  • 那天酵颁,我揣著相機(jī)與錄音嫉你,去河邊找鬼。 笑死躏惋,一個(gè)胖子當(dāng)著我的面吹牛幽污,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播簿姨,決...
    沈念sama閱讀 38,951評(píng)論 3 407
  • 文/蒼蘭香墨 我猛地睜開眼距误,長吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來了扁位?” 一聲冷哼從身側(cè)響起准潭,我...
    開封第一講書人閱讀 37,712評(píng)論 0 266
  • 序言:老撾萬榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎域仇,沒想到半個(gè)月后刑然,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 44,166評(píng)論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡暇务,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,510評(píng)論 2 327
  • 正文 我和宋清朗相戀三年泼掠,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片垦细。...
    茶點(diǎn)故事閱讀 38,643評(píng)論 1 340
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡择镇,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出括改,到底是詐尸還是另有隱情沐鼠,我是刑警寧澤,帶...
    沈念sama閱讀 34,306評(píng)論 4 330
  • 正文 年R本政府宣布叹谁,位于F島的核電站饲梭,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏焰檩。R本人自食惡果不足惜憔涉,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,930評(píng)論 3 313
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望析苫。 院中可真熱鬧兜叨,春花似錦穿扳、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,745評(píng)論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至跪但,卻和暖如春履羞,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背屡久。 一陣腳步聲響...
    開封第一講書人閱讀 31,983評(píng)論 1 266
  • 我被黑心中介騙來泰國打工忆首, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人被环。 一個(gè)月前我還...
    沈念sama閱讀 46,351評(píng)論 2 360
  • 正文 我出身青樓糙及,卻偏偏與公主長得像,于是被迫代替她去往敵國和親筛欢。 傳聞我的和親對(duì)象是個(gè)殘疾皇子浸锨,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,509評(píng)論 2 348

推薦閱讀更多精彩內(nèi)容