SRE Google運(yùn)維解密閱讀與摘錄

SRE Google運(yùn)維解密閱讀與摘錄第一部分概覽

序言

SRE Site Reliability Engineering 站點(diǎn)可靠性工程師
SRE是工程師。SRE使用計(jì)算機(jī)科學(xué)和軟件工程手段來設(shè)計(jì)和研發(fā)大型忘苛、分布式計(jì)算機(jī)軟件系統(tǒng)蝉娜。
SRE的關(guān)注焦點(diǎn)在于可靠性。
因?yàn)榭煽啃允侨绱酥匾伲虼薙RE專注于對其復(fù)雜的軟件系統(tǒng)架構(gòu)設(shè)計(jì)召川、運(yùn)維流程的不斷優(yōu)化。
SRE的主要工作是運(yùn)維在分布式集群管理系統(tǒng)上運(yùn)行的具體業(yè)務(wù)服務(wù)胸遇。

第一章介紹

DevOps 這個(gè)名詞的核心思想是近早將IT相關(guān)技術(shù)與產(chǎn)品設(shè)計(jì)和開發(fā)過程結(jié)合起來荧呐，著重強(qiáng)調(diào)自動化而不是人工操作，以及利用軟件工程手段執(zhí)行運(yùn)維任務(wù)等纸镊。

SRE團(tuán)隊(duì)職責(zé)：可用性改進(jìn) 延遲優(yōu)化性能優(yōu)化效率優(yōu)化變更管理監(jiān)控緊急事務(wù)處理以及容量規(guī)劃與管理

Google SRE 核心方法論：
確保長期關(guān)注研發(fā)工作
Google 將SRE團(tuán)隊(duì)的運(yùn)維工作現(xiàn)在在50%內(nèi)倍阐。

在保障服務(wù)SLO的前提下最大化迭代速度
產(chǎn)品研發(fā)部門和SRE之間可以通過消除組織架構(gòu)沖突來構(gòu)建良好的合作關(guān)系。在企業(yè)中逗威，最重要的矛盾就是迭代創(chuàng)新的速度與產(chǎn)品穩(wěn)定程度之間的矛盾峰搪。正如上文所說，其表現(xiàn)形式可能是間接的庵楷。在SRE模型中罢艾，我們選擇正面面對這種矛盾，使用的工具是錯(cuò)誤預(yù)算尽纽。

通過引進(jìn) “錯(cuò)誤預(yù)算”的概念咐蚯，我們解決了研發(fā)團(tuán)隊(duì)和SRE團(tuán)隊(duì)之間的組織架構(gòu)沖突。SRE團(tuán)隊(duì)的目標(biāo)不再是 “零事故運(yùn)行” 弄贿，SRE團(tuán)隊(duì)和產(chǎn)品研發(fā)團(tuán)隊(duì)目標(biāo)一致春锋，都是在保障業(yè)務(wù)服務(wù)可靠性需求的同時(shí)盡可能加快功能上線速度。

監(jiān)控系統(tǒng)
監(jiān)控系統(tǒng)是SRE團(tuán)隊(duì)監(jiān)控服務(wù)質(zhì)量和可用性的一個(gè)重要手段差凹。

應(yīng)急事件處理
可靠性是 MTTF（平均失敗時(shí)間）和 MTTR（平均恢復(fù)時(shí)間）的函數(shù)期奔。

變更管理
SRE的經(jīng)驗(yàn)告訴我們，大概70%的生產(chǎn)事故由某種部署的變更而觸發(fā)危尿。

需求預(yù)測和容量規(guī)劃
需求預(yù)測和容量規(guī)劃簡單來說就是保障一個(gè)業(yè)務(wù)有足夠的容量和冗余度去服務(wù)預(yù)測中的未來需求呐萌。

資源部署
資源的部署（provisinging）是變更管理與容量規(guī)劃的結(jié)合物。

效率與性能
高效利用各種資源是任何贏利性服務(wù)都要關(guān)心的谊娇。

第二章 Google生產(chǎn)環(huán)境：SRE視角

硬件

管理物理服務(wù)器的系統(tǒng)管理軟件

管理物理服務(wù)器
Borg 是一個(gè)分布式集群操作系統(tǒng)肺孤。其與 Apache Mesos 類似，Borg 負(fù)責(zé)在集群層面管理任務(wù)的編排工作。

存儲
1 D 是一個(gè)文件服務(wù)器赠堵，幾乎運(yùn)行在整個(gè)集群的所有物理服務(wù)器上小渊。
2 D服務(wù)的上一層被稱之為 Colossus，Colossus建立了一個(gè)覆蓋了整個(gè)集群的文件系統(tǒng)茫叭。
3 構(gòu)建與 Colossus 之上酬屉，有幾個(gè)類似數(shù)據(jù)庫的服務(wù)可供選擇：
a Bigtable 是一個(gè)NoSSQL數(shù)據(jù)庫。
b Spanner 是可以提供SQL接口以及滿足一致性要求的全球數(shù)據(jù)庫揍愁。
c 另外幾種數(shù)據(jù)庫系統(tǒng)呐萨，例如 Blobstore也可用。

網(wǎng)絡(luò)
GSLB 全球負(fù)載均衡系統(tǒng)

其他系統(tǒng)軟件

分布式鎖服務(wù)
Chubby 集群鎖服務(wù)提供一個(gè)與文件系統(tǒng)類似的API用來操作鎖莽囤。

監(jiān)控與警報(bào)系統(tǒng)

監(jiān)控系統(tǒng)是服務(wù)運(yùn)維中不可或缺的部分

軟件基礎(chǔ)設(shè)施

Stubby 所有的 Google 服務(wù)之前都使用遠(yuǎn)程調(diào)用（RPC）通信垛吗。
Protocol Buffer 是 Google RPC 的傳輸格式，通常簡寫為 Protobuf烁登，與 Apache Thrift 類似怯屉。

研發(fā)環(huán)境

SRE Google運(yùn)維解密閱讀與摘錄第二部分指導(dǎo)思想

第3章擁抱風(fēng)險(xiǎn)

SRE 旨在尋求快速創(chuàng)新和高效的服務(wù)運(yùn)營業(yè)務(wù)之間的風(fēng)險(xiǎn)的平衡。
管理服務(wù)的可靠性主要在于管理風(fēng)險(xiǎn)饵沧，而且管理風(fēng)險(xiǎn)的成本可能很高

第4章服務(wù)質(zhì)量目標(biāo)

SLI是指服務(wù)質(zhì)量指標(biāo)（indicator）——該服務(wù)的某項(xiàng)服務(wù)質(zhì)量的一個(gè)具體量化指標(biāo)锨络。大部分服務(wù)都將請求延遲——處理請求所消耗的實(shí)踐——作為一個(gè)關(guān)鍵的SLI。
可用性（availability）是另外一個(gè)SRE重視的SLI狼牺，代表服務(wù)可用時(shí)間的百分比羡儿。

第5章減少瑣事

第6章分布式系統(tǒng)的監(jiān)控

監(jiān)控系統(tǒng)中最重要的一點(diǎn)就是整個(gè)“生產(chǎn)故障，人工處理緊急警報(bào)是钥，簡單定位和深入調(diào)試”過程必須要保持非常簡單掠归，必須能被團(tuán)隊(duì)中任何一個(gè)人所理解。
4個(gè)黃金指標(biāo) 延遲流量錯(cuò)誤飽和度

第7章 Google的自動化系統(tǒng)的演進(jìn)

自動化的演進(jìn)遵循以下路徑
1 沒有自動化
2 外部維護(hù)的系統(tǒng)特定的自動化系統(tǒng)
3 外部維護(hù)的通用的自動化系統(tǒng)
4 內(nèi)部維護(hù)的系統(tǒng)特定的自動化
5 不需要任何自動化的系統(tǒng)

第8章發(fā)布工程

發(fā)布工程是Google內(nèi)部的一項(xiàng)具體工作悄泥。發(fā)布工程與產(chǎn)品研發(fā)部門的軟件工程師（SWE）虏冻，以及SRE一起定義發(fā)布軟件過程中的全部步驟——包括軟件是如何存儲于源代碼倉庫中的，構(gòu)建時(shí)是如何執(zhí)行編譯的弹囚，如何測試厨相、打包，最終進(jìn)行部署的鸥鹉。

第9章簡單化
一個(gè)對SRE管理系統(tǒng)的方法不錯(cuò)的總結(jié)是：“我們的工作最終是在系統(tǒng)的靈活性和穩(wěn)定性上維持平衡蛮穿。”

SRE Google運(yùn)維解密閱讀與摘錄第三部分具體實(shí)踐

第10章基于實(shí)踐序列數(shù)據(jù)進(jìn)行有效報(bào)警
第11章 on-call 輪值
第12章有效的故障排查手段
第13章緊急事件響應(yīng)
第14章緊急事故管理
第15章事后總結(jié)：從失敗中學(xué)習(xí)
第16章跟蹤故障
第17章測試可靠性
第18章 SRE 部門中的軟件工程實(shí)踐
第19章前端服務(wù)器的負(fù)載均衡
第20章數(shù)據(jù)中心內(nèi)部的負(fù)載均衡系統(tǒng)
第21章應(yīng)對過載
第22章處理連鎖故障
第23章管理關(guān)鍵狀態(tài)：利用分布式共識來提高可靠性
第24章分布式周期性任務(wù)系統(tǒng)
第25章數(shù)據(jù)處理流水線
第26章數(shù)據(jù)完整性：讀寫一致
第27章可靠地進(jìn)行產(chǎn)品的大規(guī)模發(fā)布

SRE Google運(yùn)維解密閱讀與摘錄第四部分管理

第28章迅速培養(yǎng) SRE 加入on-call
第29章處理中斷性任務(wù)
第30章通過嵌入 SRE 的方式幫助團(tuán)隊(duì)從運(yùn)維過載中恢復(fù)
第31章 SRE 與其他團(tuán)隊(duì)的溝通與協(xié)作

第32章 SRE 參與模式的演進(jìn)歷程

典型服務(wù)的生命周期：設(shè)計(jì) 構(gòu)建和實(shí)現(xiàn) 發(fā)布運(yùn)維退役

SRE會考量該服務(wù)的幾個(gè)方面：
系統(tǒng)的體系結(jié)構(gòu)和跨服務(wù)依賴
指標(biāo)的選擇毁渗、度量和監(jiān)控
緊急事件處理
容量規(guī)劃
變更管理
性能：可用性践磅、延遲和資源效率

SRE Google運(yùn)維解密閱讀與摘錄第五部分結(jié)束語

第33章其他行業(yè)的實(shí)踐經(jīng)驗(yàn)

內(nèi)容來自 SRE Google運(yùn)維解密，Betsy Beyer灸异，孫宇聰府适，2016-11

最后編輯于：2017.12.06 07:52:56

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末幻碱，一起剝皮案震驚了整個(gè)濱河市，隨后出現(xiàn)的幾起案子细溅，更是在濱河造成了極大的恐慌，老刑警劉巖儡嘶，帶你破解...
沈念sama閱讀 206,311評論 6贊 481
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件喇聊，死亡現(xiàn)場離奇詭異，居然都是意外死亡蹦狂，警方通過查閱死者的電腦和手機(jī)誓篱，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 88,339評論 2贊 382
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來凯楔，“玉大人窜骄，你說我怎么就攤上這事“谕停” “怎么了邻遏？”我有些...
開封第一講書人閱讀 152,671評論 0贊 342
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長虐骑。經(jīng)常有香客問我准验，道長，這世上最難降的妖魔是什么廷没？我笑而不...
開封第一講書人閱讀 55,252評論 1贊 279
?港島之戀（遺憾婚禮）
正文為了忘掉前任糊饱，我火速辦了婚禮，結(jié)果婚禮上颠黎，老公的妹妹穿的比我還像新娘另锋。我一直安慰自己，他們只是感情好狭归，可當(dāng)我...
茶點(diǎn)故事閱讀 64,253評論 5贊 371
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布夭坪。她就那樣靜靜地躺著，像睡著了一般过椎。火紅的嫁衣襯著肌膚如雪台舱。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 49,031評論 1贊 285
城市分裂傳說
那天潭流，我揣著相機(jī)與錄音竞惋，去河邊找鬼。笑死灰嫉，一個(gè)胖子當(dāng)著我的面吹牛拆宛，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播讼撒，決...
沈念sama閱讀 38,340評論 3贊 399
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼浑厚，長吁一口氣：“原來是場噩夢啊……” “哼股耽！你這毒婦竟也來了？” 一聲冷哼從身側(cè)響起钳幅，我...
開封第一講書人閱讀 36,973評論 0贊 259
萬榮殺人案實(shí)錄
序言：老撾萬榮一對情侶失蹤物蝙，失蹤者是張志新（化名）和其女友劉穎，沒想到半個(gè)月后敢艰，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體诬乞，經(jīng)...
沈念sama閱讀 43,466評論 1贊 300
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 35,937評論 2贊 323
?白月光啟示錄
正文我和宋清朗相戀三年钠导，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了震嫉。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點(diǎn)故事閱讀 38,039評論 1贊 333
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡牡属，死狀恐怖票堵，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情逮栅，我是刑警寧澤悴势，帶...
沈念sama閱讀 33,701評論 4贊 323
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站措伐，受9級特大地震影響瞳浦，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜废士，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 39,254評論 3贊 307
男人毒藥：我在死后第九天來索命
文/蒙蒙一叫潦、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧官硝，春花似錦矗蕊、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 30,259評論 0贊 19
一樁弒父案傻咖，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至岖研，卻和暖如春卿操，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背孙援。一陣腳步聲響...
開封第一講書人閱讀 31,485評論 1贊 262
情欲美人皮
我被黑心中介騙來泰國打工害淤，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留，地道東北人拓售。一個(gè)月前我還...
沈念sama閱讀 45,497評論 2贊 354
代替公主和親
正文我出身青樓窥摄，卻偏偏與公主長得像，于是被迫代替她去往敵國和親础淤。傳聞我的和親對象是個(gè)殘疾皇子崭放，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 42,786評論 2贊 345

SRE Google運(yùn)維解密 閱讀與摘錄

SRE Google運(yùn)維解密 閱讀與摘錄 第一部分概覽

序言

第一章 介紹

第二章 Google生產(chǎn)環(huán)境：SRE視角

管理物理服務(wù)器的系統(tǒng)管理軟件

其他系統(tǒng)軟件

監(jiān)控與警報(bào)系統(tǒng)

軟件基礎(chǔ)設(shè)施

研發(fā)環(huán)境

SRE Google運(yùn)維解密 閱讀與摘錄 第二部分指導(dǎo)思想

第3章 擁抱風(fēng)險(xiǎn)

第4章 服務(wù)質(zhì)量目標(biāo)

第5章 減少瑣事

第6章 分布式系統(tǒng)的監(jiān)控