2018 年十大云宕機(jī)事故盤(pán)點(diǎn)：主流無(wú)一幸免！

2018 年十大云宕機(jī)事故盤(pán)點(diǎn)：主流無(wú)一幸免蕉朵！

根據(jù) IDC 今年 7 月份發(fā)布的《中國(guó)公有云服務(wù)市場(chǎng)半年度跟蹤報(bào)告》顯示崔涂，阿里云的市場(chǎng)占有率已過(guò) 45%，騰訊云達(dá)到 10%始衅。在全球市場(chǎng)冷蚂，根據(jù) Gartner 最新數(shù)據(jù)顯示，亞馬遜 AWS 占全球份額的 51.8%汛闸；微軟 Azure 位列第二位蝙茶，占比 13.3%；阿里云位列第三位诸老，占比 4.6%隆夯；谷歌 Cloud 云服務(wù)占比 3.3%；隨后是 IBM别伏，占比 1.9%蹄衷。可見(jiàn)厘肮，這幾大主流云供應(yīng)商占據(jù)全球絕大部分市場(chǎng)愧口，一旦云服務(wù)出現(xiàn)宕機(jī)，受影響的企業(yè)將不計(jì)其數(shù)类茂。

2018 年耍属，云計(jì)算市場(chǎng)不僅發(fā)展迅速，而且問(wèn)題不斷巩检。云供應(yīng)商與開(kāi)源社區(qū)的矛盾不斷升級(jí)厚骗，主流云廠商均未逃過(guò)宕機(jī)事件，更有甚者一年出現(xiàn)多次服務(wù)宕機(jī)兢哭，導(dǎo)致企業(yè)對(duì)公有云的信心持續(xù)走低领舰。本文總結(jié)了 2018 年前十大云宕機(jī)事故，歡迎各位補(bǔ)充經(jīng)歷過(guò)的云服務(wù)至暗時(shí)刻。

1提揍、谷歌云自動(dòng)化失效導(dǎo)致宕機(jī) ?1 月 18 日

事故詳情：2018 年 1 月 18 日，谷歌云自動(dòng)化機(jī)制失效煮仇，導(dǎo)致其 us-central1 和 europe-west3 兩大可用區(qū)中的計(jì)算引擎停運(yùn) 93 分鐘劳跃。谷歌對(duì)此的回應(yīng)是“網(wǎng)絡(luò)編程失效”導(dǎo)致 Autoscaler（自動(dòng)擴(kuò)展器）服務(wù)無(wú)法正常運(yùn)行，該服務(wù)失效意味著新的虛擬機(jī)或剛遷移的虛擬機(jī)無(wú)法與其他可用區(qū)虛擬機(jī)聯(lián)系浙垫。

補(bǔ)救措施：工程團(tuán)隊(duì)手動(dòng)切換到替換任務(wù)刨仑，以恢復(fù)數(shù)據(jù)持久層正常運(yùn)行。

宕機(jī)時(shí)間：93 分鐘

事件后續(xù)：谷歌承諾夹姥，未來(lái)如果配置數(shù)據(jù)過(guò)時(shí)杉武，谷歌將停止虛擬機(jī)遷移，數(shù)據(jù)持久層會(huì)在長(zhǎng)時(shí)間運(yùn)行進(jìn)程期間重新解析對(duì)等體（peer）辙售，以便故障發(fā)生時(shí)迅速切換到替換任務(wù)轻抱。

2、AWS 宕機(jī)致部分 Alexa 失聲 ?3 月 2 日

事故詳情：2018 年 3 月 2 日凌晨旦部，依賴 AWS 服務(wù)的部分 Alexa 開(kāi)始出現(xiàn)失聲問(wèn)題祈搜，該智能音箱的紅色指示燈不停閃爍表明服務(wù)出現(xiàn)中斷，Alexa 也一直發(fā)出系統(tǒng)內(nèi)置道歉聲士八。隨后幾小時(shí)內(nèi)容燕，Alexa 又接到了成千上萬(wàn)封投訴。據(jù)了解婚度，Alexa 這一故障源于亞馬遜 AWS 的網(wǎng)絡(luò)服務(wù)出現(xiàn)問(wèn)題蘸秘，其他依賴 AWS 作為骨干網(wǎng)的應(yīng)用在當(dāng)天也受到了影響，包括軟件開(kāi)發(fā)公司 Atlassian蝗茁，云通訊公司 Twilio 等醋虏。

補(bǔ)救措施：亞馬遜 AWS 的在線支持團(tuán)隊(duì)對(duì)此進(jìn)行了修復(fù)

宕機(jī)時(shí)間：數(shù)小時(shí)（因事發(fā)凌晨，未在第一時(shí)間發(fā)酵）

事件后續(xù)：亞馬遜 AWS 未對(duì)此故障進(jìn)行詳細(xì)說(shuō)明哮翘，只透露與網(wǎng)絡(luò)連接有關(guān)灰粮。

3、AWS 北弗吉尼亞地區(qū)數(shù)據(jù)中心出現(xiàn)硬件問(wèn)題 ?5 月 31 日

事故詳情：2018 年 5 月 31 日忍坷，因北弗吉尼亞地區(qū)的數(shù)據(jù)中心出現(xiàn)硬件故障粘舟，AWS 再次出現(xiàn)連接問(wèn)題。在此事故中佩研，AWS 的核心 EC2 服務(wù)柑肴，Workspaces 虛擬桌面服務(wù)以及 Redshift 數(shù)據(jù)倉(cāng)庫(kù)服務(wù)均受到影響。

補(bǔ)救措施：人為修復(fù)

宕機(jī)時(shí)長(zhǎng)：30 分鐘左右

事件后續(xù)：亞馬遜公司 S3 的副總裁兼總經(jīng)理 Mai-Lan Tomsen Bukovec 近日接受采訪表示旬薯，亞馬遜從未見(jiàn)過(guò)數(shù)據(jù)中心崩潰晰骑。這意味著，過(guò)去的每一次事故都未曾導(dǎo)致整個(gè)數(shù)據(jù)中心的崩潰，AWS 也在系統(tǒng)設(shè)計(jì)層面進(jìn)行了改進(jìn)以防止此類事故發(fā)生硕舆。

4秽荞、微軟 Azure 愛(ài)爾蘭數(shù)據(jù)中心宕機(jī) ?6 月 17 日

事故詳情：2018 年 6 月 17 日至 18 日，因愛(ài)爾蘭數(shù)據(jù)中心的恒溫系統(tǒng)出現(xiàn)問(wèn)題抚官，微軟 Azure 被高溫影響導(dǎo)致存儲(chǔ)和網(wǎng)絡(luò)中斷扬跋。

宕機(jī)時(shí)間：5 小時(shí)以上

5、阿里云故障 ?6 月 27 日

事故詳情：2018 年 6 月 27 日 16:21 左右凌节，阿里云出現(xiàn)重大技術(shù)故障钦听，16:50 分開(kāi)始陸續(xù)恢復(fù)，官方給出的故障時(shí)間為 30 分鐘左右倍奢，恢復(fù)時(shí)間大概花費(fèi)一小時(shí)朴上。經(jīng)過(guò)技術(shù)復(fù)盤(pán)，阿里給出的故障原因?yàn)楣こ處焾F(tuán)隊(duì)上線自動(dòng)化運(yùn)維新功能時(shí)卒煞，執(zhí)行了一項(xiàng)變更驗(yàn)證操作痪宰，該操作在測(cè)試環(huán)境中未發(fā)生問(wèn)題，上線后觸發(fā)未知 bug畔裕。

補(bǔ)救措施：人工介入酵镜，定位并解決問(wèn)題

宕機(jī)時(shí)間：30 分鐘，恢復(fù)時(shí)間花費(fèi)一小時(shí)左右

事件后續(xù)：本次事故被定義為 S1 級(jí)別柴钻，即核心業(yè)務(wù)重要功能不可用淮韭，影響部分用戶，造成一定損失贴届。阿里云發(fā)布官方聲明靠粪，表示“對(duì)于這次故障，沒(méi)有借口毫蚓，我們不能也不該出現(xiàn)這樣的失誤占键！我們將認(rèn)真復(fù)盤(pán)改進(jìn)自動(dòng)化運(yùn)維技術(shù)和發(fā)布驗(yàn)證流程，敬畏每一行代碼元潘，敬畏每一份托付畔乙。”

6翩概、騰訊云云硬盤(pán)故障 ?7 月 20 日

事故詳情：2018 年 8 月 5 日牲距，北京清博數(shù)控科技有限公司（以下簡(jiǎn)稱“前沿?cái)?shù)控”）在官方微博發(fā)布了一篇題為《騰訊云給一家創(chuàng)業(yè)公司帶來(lái)的災(zāi)難》的博文，文中表明钥庇，2018 年 7 月 20 日牍鞠，騰訊云云硬盤(pán)發(fā)生故障（騰訊云后期給出的事故原因說(shuō)明），導(dǎo)致該公司存放的數(shù)據(jù)全部丟失评姨，并且不能恢復(fù)难述，這是該創(chuàng)業(yè)公司近千萬(wàn)元級(jí)的平臺(tái)數(shù)據(jù)，包括經(jīng)過(guò)長(zhǎng)期推廣導(dǎo)流積累起來(lái)的精準(zhǔn)注冊(cè)用戶以及內(nèi)容數(shù)據(jù)。

補(bǔ)救措施：騰訊云表示胁后，監(jiān)控到異常后第一時(shí)間向用戶告知了故障狀態(tài)店读，并立即組織文件系統(tǒng)專家并聯(lián)合廠商技術(shù)專家嘗試修復(fù)數(shù)據(jù)。但經(jīng)過(guò)多方努力攀芯，最終仍有部分?jǐn)?shù)據(jù)完整性校驗(yàn)失敗屯断。

事件后續(xù)：騰訊云提出“賠償 + 補(bǔ)償”方案，并承諾會(huì)繼續(xù)與“前沿?cái)?shù)控”保持溝通敲才，幫助其進(jìn)行業(yè)務(wù)恢復(fù)裹纳。

7择葡、騰訊云宕機(jī) ?7 月 24 日

事故詳情：2018 年 7 月 24 日紧武，用戶登錄騰訊云時(shí)反復(fù)出現(xiàn)超時(shí)、退出等情況敏储，即便更換運(yùn)營(yíng)商阻星，結(jié)果也一樣。隨后已添，騰訊云發(fā)布通知稱初步確定是運(yùn)營(yíng)商光纜中斷妥箕，運(yùn)營(yíng)商已經(jīng)找到斷點(diǎn)，正在連線中更舞，主要受影響的為廣州區(qū)域部分用戶畦幢。

補(bǔ)救措施：運(yùn)營(yíng)商第一時(shí)間介入搶修

宕機(jī)時(shí)間：宕機(jī)時(shí)間不明，恢復(fù)時(shí)間花費(fèi) 30 至 40 分鐘

8缆蝉、亞馬遜 AWS 故障 Prime Day

事故詳情：Prime Day 是亞馬遜在全球范圍內(nèi)啟動(dòng)的為期 36 小時(shí)的會(huì)員促銷活動(dòng)宇葱，活動(dòng)剛開(kāi)始，亞馬遜網(wǎng)站及 App 就同時(shí)發(fā)生嚴(yán)重宕機(jī)刊头，不光電子商務(wù)業(yè)務(wù)受損黍瞧，亞馬遜的其他產(chǎn)品和服務(wù)都受到了不同程度的影響。亞馬遜對(duì)此給出的解釋是 AWS 管理控制臺(tái)出現(xiàn)全球性問(wèn)題原杂。

宕機(jī)時(shí)間：故障持續(xù)了將近 6 小時(shí)

事件后續(xù)：AWS 發(fā)言人表示印颤，間歇性的 AWS 管理控制臺(tái)問(wèn)題并未對(duì)亞馬遜的消費(fèi)者業(yè)務(wù)產(chǎn)生任何有意義的影響。

9穿肄、微軟云 Azure 數(shù)據(jù)中心遭雷劈宕機(jī) ?9 月 4 日

事故詳情：9 月 4 日上午年局，微軟 Azure 美國(guó)中南區(qū)數(shù)據(jù)中心附近發(fā)生雷擊在內(nèi)的惡劣天氣，影響冷卻系統(tǒng)的電壓咸产，導(dǎo)致多個(gè) Azure 服務(wù)出現(xiàn)連接問(wèn)題某宪，客戶難以訪問(wèn)存儲(chǔ)在該區(qū)數(shù)據(jù)中心的資源。受影響的服務(wù)包括 Office365锐朴、Active Directory兴喂、Visual Studio Online、Visual Studio Team Services 等。

補(bǔ)救措施：9 月 5 日上午衣迷，微軟工程師已恢復(fù)數(shù)據(jù)中心的電力和大多數(shù)網(wǎng)絡(luò)設(shè)備畏鼓，其他服務(wù)也在陸續(xù)恢復(fù)中。

宕機(jī)時(shí)間：超過(guò) 24 小時(shí)

10壶谒、谷歌公有云下的 Kubernetes 服務(wù)（GKE）宕機(jī) ?11 月 9 日

事故詳情：11 月 9 日云矫，谷歌公有云上提供的 Kubernetes 服務(wù)（GKE）節(jié)點(diǎn)池建置功能出現(xiàn)異常，維運(yùn)人員無(wú)法透過(guò) Cloud Console UI 建立新節(jié)點(diǎn)汗菜。

補(bǔ)救措施：谷歌派工程團(tuán)隊(duì)調(diào)查故障原因让禀，并開(kāi)始著手維修。谷歌表示陨界，受影響的企業(yè)用戶可以先改為使用 GCP 內(nèi)建的 gcloud command巡揍，建置新 Kubernetes 節(jié)點(diǎn)。

宕機(jī)時(shí)間：接近 19 小時(shí)

在過(guò)去幾年菌瘪，云供應(yīng)商還發(fā)生過(guò)數(shù)起大大小小的故障腮敌，隨著越來(lái)越多的企業(yè)和政府機(jī)構(gòu)將數(shù)據(jù)上云，即便只是一個(gè)小小的宕機(jī)都可能引發(fā)很大的災(zāi)難俏扩。即便是提供 99.9% 可靠性的阿里云糜工，那 0.1% 的宕機(jī)還是發(fā)生了，因此企業(yè)不僅要建立完善的災(zāi)備保障體系录淡，還應(yīng)該對(duì)災(zāi)備系統(tǒng)進(jìn)行定期演練以防故障發(fā)生造成損失捌木。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個(gè)濱河市嫉戚，隨后出現(xiàn)的幾起案子刨裆，更是在濱河造成了極大的恐慌，老刑警劉巖彼水，帶你破解...
沈念sama閱讀 212,383評(píng)論 6贊 493
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件崔拥，死亡現(xiàn)場(chǎng)離奇詭異，居然都是意外死亡凤覆，警方通過(guò)查閱死者的電腦和手機(jī)链瓦，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 90,522評(píng)論 3贊 385
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門(mén)，熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)盯桦，“玉大人慈俯，你說(shuō)我怎么就攤上這事∮德停” “怎么了贴膘？”我有些...
開(kāi)封第一講書(shū)人閱讀 157,852評(píng)論 0贊 348
道士緝兇錄：失蹤的賣(mài)姜人
文/不壞的土叔我叫張陵，是天一觀的道長(zhǎng)略号。經(jīng)常有香客問(wèn)我刑峡，道長(zhǎng)洋闽，這世上最難降的妖魔是什么？我笑而不...
開(kāi)封第一講書(shū)人閱讀 56,621評(píng)論 1贊 284
?港島之戀（遺憾婚禮）
正文為了忘掉前任突梦，我火速辦了婚禮诫舅，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘宫患。我一直安慰自己刊懈，他們只是感情好，可當(dāng)我...
茶點(diǎn)故事閱讀 65,741評(píng)論 6贊 386
惡毒庶女頂嫁案：這布局不是一般人想出來(lái)的
文/花漫我一把揭開(kāi)白布娃闲。她就那樣靜靜地躺著虚汛，像睡著了一般。火紅的嫁衣襯著肌膚如雪皇帮。梳的紋絲不亂的頭發(fā)上卷哩，一...
開(kāi)封第一講書(shū)人閱讀 49,929評(píng)論 1贊 290
城市分裂傳說(shuō)
那天，我揣著相機(jī)與錄音玲献，去河邊找鬼殉疼。笑死梯浪，一個(gè)胖子當(dāng)著我的面吹牛捌年，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播挂洛，決...
沈念sama閱讀 39,076評(píng)論 3贊 410
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開(kāi)眼礼预，長(zhǎng)吁一口氣：“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼！你這毒婦竟也來(lái)了虏劲？” 一聲冷哼從身側(cè)響起托酸，我...
開(kāi)封第一講書(shū)人閱讀 37,803評(píng)論 0贊 268
萬(wàn)榮殺人案實(shí)錄
序言：老撾萬(wàn)榮一對(duì)情侶失蹤，失蹤者是張志新（化名）和其女友劉穎柒巫，沒(méi)想到半個(gè)月后励堡，有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 44,265評(píng)論 1贊 303
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡堡掏，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 36,582評(píng)論 2贊 327
?白月光啟示錄
正文我和宋清朗相戀三年应结，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片泉唁。...
茶點(diǎn)故事閱讀 38,716評(píng)論 1贊 341
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡鹅龄，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出亭畜，到底是詐尸還是另有隱情扮休，我是刑警寧澤，帶...
沈念sama閱讀 34,395評(píng)論 4贊 333
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布拴鸵，位于F島的核電站玷坠，受9級(jí)特大地震影響蜗搔，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜八堡，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 40,039評(píng)論 3贊 316
男人毒藥：我在死后第九天來(lái)索命
文/蒙蒙一碍扔、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧秕重，春花似錦不同、人聲如沸。這莊子的主人今日做“春日...
開(kāi)封第一講書(shū)人閱讀 30,798評(píng)論 0贊 21
一樁弒父案二拐，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)。三九已至凳兵，卻和暖如春百新，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背庐扫。一陣腳步聲響...
開(kāi)封第一講書(shū)人閱讀 32,027評(píng)論 1贊 266
情欲美人皮
我被黑心中介騙來(lái)泰國(guó)打工饭望，沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留，地道東北人形庭。一個(gè)月前我還...
沈念sama閱讀 46,488評(píng)論 2贊 361
代替公主和親
正文我出身青樓铅辞，卻偏偏與公主長(zhǎng)得像，于是被迫代替她去往敵國(guó)和親萨醒。傳聞我的和親對(duì)象是個(gè)殘疾皇子斟珊，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 43,612評(píng)論 2贊 350

2018 年十大云宕機(jī)事故盤(pán)點(diǎn)：主流無(wú)一幸免这敬！

2018 年十大云宕機(jī)事故盤(pán)點(diǎn)：主流無(wú)一幸免！

推薦閱讀更多精彩內(nèi)容