2018 年十大云宕機(jī)事故盤(pán)點(diǎn):主流無(wú)一幸免蕉朵!
根據(jù) IDC 今年 7 月份發(fā)布的《中國(guó)公有云服務(wù)市場(chǎng)半年度跟蹤報(bào)告》顯示崔涂,阿里云的市場(chǎng)占有率已過(guò) 45%,騰訊云達(dá)到 10%始衅。在全球市場(chǎng)冷蚂,根據(jù) Gartner 最新數(shù)據(jù)顯示,亞馬遜 AWS 占全球份額的 51.8%汛闸;微軟 Azure 位列第二位蝙茶,占比 13.3%;阿里云位列第三位诸老,占比 4.6%隆夯;谷歌 Cloud 云服務(wù)占比 3.3%;隨后是 IBM别伏,占比 1.9%蹄衷。可見(jiàn)厘肮,這幾大主流云供應(yīng)商占據(jù)全球絕大部分市場(chǎng)愧口,一旦云服務(wù)出現(xiàn)宕機(jī),受影響的企業(yè)將不計(jì)其數(shù)类茂。
2018 年耍属,云計(jì)算市場(chǎng)不僅發(fā)展迅速,而且問(wèn)題不斷巩检。云供應(yīng)商與開(kāi)源社區(qū)的矛盾不斷升級(jí)厚骗,主流云廠商均未逃過(guò)宕機(jī)事件,更有甚者一年出現(xiàn)多次服務(wù)宕機(jī)兢哭,導(dǎo)致企業(yè)對(duì)公有云的信心持續(xù)走低领舰。本文總結(jié)了 2018 年前十大云宕機(jī)事故,歡迎各位補(bǔ)充經(jīng)歷過(guò)的云服務(wù)至暗時(shí)刻。
1提揍、谷歌云自動(dòng)化失效導(dǎo)致宕機(jī) ?1 月 18 日
事故詳情:2018 年 1 月 18 日,谷歌云自動(dòng)化機(jī)制失效煮仇,導(dǎo)致其 us-central1 和 europe-west3 兩大可用區(qū)中的計(jì)算引擎停運(yùn) 93 分鐘劳跃。谷歌對(duì)此的回應(yīng)是“網(wǎng)絡(luò)編程失效”導(dǎo)致 Autoscaler(自動(dòng)擴(kuò)展器)服務(wù)無(wú)法正常運(yùn)行,該服務(wù)失效意味著新的虛擬機(jī)或剛遷移的虛擬機(jī)無(wú)法與其他可用區(qū)虛擬機(jī)聯(lián)系浙垫。
補(bǔ)救措施:工程團(tuán)隊(duì)手動(dòng)切換到替換任務(wù)刨仑,以恢復(fù)數(shù)據(jù)持久層正常運(yùn)行。
宕機(jī)時(shí)間:93 分鐘
事件后續(xù):谷歌承諾夹姥,未來(lái)如果配置數(shù)據(jù)過(guò)時(shí)杉武,谷歌將停止虛擬機(jī)遷移,數(shù)據(jù)持久層會(huì)在長(zhǎng)時(shí)間運(yùn)行進(jìn)程期間重新解析對(duì)等體(peer)辙售,以便故障發(fā)生時(shí)迅速切換到替換任務(wù)轻抱。
2、AWS 宕機(jī)致部分 Alexa 失聲 ?3 月 2 日
事故詳情:2018 年 3 月 2 日凌晨旦部,依賴 AWS 服務(wù)的部分 Alexa 開(kāi)始出現(xiàn)失聲問(wèn)題祈搜,該智能音箱的紅色指示燈不停閃爍表明服務(wù)出現(xiàn)中斷,Alexa 也一直發(fā)出系統(tǒng)內(nèi)置道歉聲士八。隨后幾小時(shí)內(nèi)容燕,Alexa 又接到了成千上萬(wàn)封投訴。據(jù)了解婚度,Alexa 這一故障源于亞馬遜 AWS 的網(wǎng)絡(luò)服務(wù)出現(xiàn)問(wèn)題蘸秘,其他依賴 AWS 作為骨干網(wǎng)的應(yīng)用在當(dāng)天也受到了影響,包括軟件開(kāi)發(fā)公司 Atlassian蝗茁,云通訊公司 Twilio 等醋虏。
補(bǔ)救措施:亞馬遜 AWS 的在線支持團(tuán)隊(duì)對(duì)此進(jìn)行了修復(fù)
宕機(jī)時(shí)間:數(shù)小時(shí)(因事發(fā)凌晨,未在第一時(shí)間發(fā)酵)
事件后續(xù):亞馬遜 AWS 未對(duì)此故障進(jìn)行詳細(xì)說(shuō)明哮翘,只透露與網(wǎng)絡(luò)連接有關(guān)灰粮。
3、AWS 北弗吉尼亞地區(qū)數(shù)據(jù)中心出現(xiàn)硬件問(wèn)題 ?5 月 31 日
事故詳情:2018 年 5 月 31 日忍坷,因北弗吉尼亞地區(qū)的數(shù)據(jù)中心出現(xiàn)硬件故障粘舟,AWS 再次出現(xiàn)連接問(wèn)題。在此事故中佩研,AWS 的核心 EC2 服務(wù)柑肴,Workspaces 虛擬桌面服務(wù)以及 Redshift 數(shù)據(jù)倉(cāng)庫(kù)服務(wù)均受到影響。
補(bǔ)救措施:人為修復(fù)
宕機(jī)時(shí)長(zhǎng):30 分鐘左右
事件后續(xù):亞馬遜公司 S3 的副總裁兼總經(jīng)理 Mai-Lan Tomsen Bukovec 近日接受采訪表示旬薯,亞馬遜從未見(jiàn)過(guò)數(shù)據(jù)中心崩潰晰骑。這意味著,過(guò)去的每一次事故都未曾導(dǎo)致整個(gè)數(shù)據(jù)中心的崩潰,AWS 也在系統(tǒng)設(shè)計(jì)層面進(jìn)行了改進(jìn)以防止此類事故發(fā)生硕舆。
4秽荞、微軟 Azure 愛(ài)爾蘭數(shù)據(jù)中心宕機(jī) ?6 月 17 日
事故詳情:2018 年 6 月 17 日至 18 日,因愛(ài)爾蘭數(shù)據(jù)中心的恒溫系統(tǒng)出現(xiàn)問(wèn)題抚官,微軟 Azure 被高溫影響導(dǎo)致存儲(chǔ)和網(wǎng)絡(luò)中斷扬跋。
宕機(jī)時(shí)間:5 小時(shí)以上
5、阿里云故障 ?6 月 27 日
事故詳情:2018 年 6 月 27 日 16:21 左右凌节,阿里云出現(xiàn)重大技術(shù)故障钦听,16:50 分開(kāi)始陸續(xù)恢復(fù),官方給出的故障時(shí)間為 30 分鐘左右倍奢,恢復(fù)時(shí)間大概花費(fèi)一小時(shí)朴上。經(jīng)過(guò)技術(shù)復(fù)盤(pán),阿里給出的故障原因?yàn)楣こ處焾F(tuán)隊(duì)上線自動(dòng)化運(yùn)維新功能時(shí)卒煞,執(zhí)行了一項(xiàng)變更驗(yàn)證操作痪宰,該操作在測(cè)試環(huán)境中未發(fā)生問(wèn)題,上線后觸發(fā)未知 bug畔裕。
補(bǔ)救措施:人工介入酵镜,定位并解決問(wèn)題
宕機(jī)時(shí)間:30 分鐘,恢復(fù)時(shí)間花費(fèi)一小時(shí)左右
事件后續(xù):本次事故被定義為 S1 級(jí)別柴钻,即核心業(yè)務(wù)重要功能不可用淮韭,影響部分用戶,造成一定損失贴届。阿里云發(fā)布官方聲明靠粪,表示“對(duì)于這次故障,沒(méi)有借口毫蚓,我們不能也不該出現(xiàn)這樣的失誤占键!我們將認(rèn)真復(fù)盤(pán)改進(jìn)自動(dòng)化運(yùn)維技術(shù)和發(fā)布驗(yàn)證流程,敬畏每一行代碼元潘,敬畏每一份托付畔乙。”
6翩概、騰訊云云硬盤(pán)故障 ?7 月 20 日
事故詳情:2018 年 8 月 5 日牲距,北京清博數(shù)控科技有限公司(以下簡(jiǎn)稱“前沿?cái)?shù)控”)在官方微博發(fā)布了一篇題為《騰訊云給一家創(chuàng)業(yè)公司帶來(lái)的災(zāi)難》的博文,文中表明钥庇,2018 年 7 月 20 日牍鞠,騰訊云云硬盤(pán)發(fā)生故障(騰訊云后期給出的事故原因說(shuō)明),導(dǎo)致該公司存放的數(shù)據(jù)全部丟失评姨,并且不能恢復(fù)难述,這是該創(chuàng)業(yè)公司近千萬(wàn)元級(jí)的平臺(tái)數(shù)據(jù),包括經(jīng)過(guò)長(zhǎng)期推廣導(dǎo)流積累起來(lái)的精準(zhǔn)注冊(cè)用戶以及內(nèi)容數(shù)據(jù)。
補(bǔ)救措施:騰訊云表示胁后,監(jiān)控到異常后第一時(shí)間向用戶告知了故障狀態(tài)店读,并立即組織文件系統(tǒng)專家并聯(lián)合廠商技術(shù)專家嘗試修復(fù)數(shù)據(jù)。但經(jīng)過(guò)多方努力攀芯,最終仍有部分?jǐn)?shù)據(jù)完整性校驗(yàn)失敗屯断。
事件后續(xù):騰訊云提出“賠償 + 補(bǔ)償”方案,并承諾會(huì)繼續(xù)與“前沿?cái)?shù)控”保持溝通敲才,幫助其進(jìn)行業(yè)務(wù)恢復(fù)裹纳。
7择葡、騰訊云宕機(jī) ?7 月 24 日
事故詳情:2018 年 7 月 24 日紧武,用戶登錄騰訊云時(shí)反復(fù)出現(xiàn)超時(shí)、退出等情況敏储,即便更換運(yùn)營(yíng)商阻星,結(jié)果也一樣。隨后已添,騰訊云發(fā)布通知稱初步確定是運(yùn)營(yíng)商光纜中斷妥箕,運(yùn)營(yíng)商已經(jīng)找到斷點(diǎn),正在連線中更舞,主要受影響的為廣州區(qū)域部分用戶畦幢。
補(bǔ)救措施:運(yùn)營(yíng)商第一時(shí)間介入搶修
宕機(jī)時(shí)間:宕機(jī)時(shí)間不明,恢復(fù)時(shí)間花費(fèi) 30 至 40 分鐘
8缆蝉、亞馬遜 AWS 故障 Prime Day
事故詳情:Prime Day 是亞馬遜在全球范圍內(nèi)啟動(dòng)的為期 36 小時(shí)的會(huì)員促銷活動(dòng)宇葱,活動(dòng)剛開(kāi)始,亞馬遜網(wǎng)站及 App 就同時(shí)發(fā)生嚴(yán)重宕機(jī)刊头,不光電子商務(wù)業(yè)務(wù)受損黍瞧,亞馬遜的其他產(chǎn)品和服務(wù)都受到了不同程度的影響。亞馬遜對(duì)此給出的解釋是 AWS 管理控制臺(tái)出現(xiàn)全球性問(wèn)題原杂。
宕機(jī)時(shí)間:故障持續(xù)了將近 6 小時(shí)
事件后續(xù):AWS 發(fā)言人表示印颤,間歇性的 AWS 管理控制臺(tái)問(wèn)題并未對(duì)亞馬遜的消費(fèi)者業(yè)務(wù)產(chǎn)生任何有意義的影響。
9穿肄、微軟云 Azure 數(shù)據(jù)中心遭雷劈宕機(jī) ?9 月 4 日
事故詳情:9 月 4 日上午年局,微軟 Azure 美國(guó)中南區(qū)數(shù)據(jù)中心附近發(fā)生雷擊在內(nèi)的惡劣天氣,影響冷卻系統(tǒng)的電壓咸产,導(dǎo)致多個(gè) Azure 服務(wù)出現(xiàn)連接問(wèn)題某宪,客戶難以訪問(wèn)存儲(chǔ)在該區(qū)數(shù)據(jù)中心的資源。受影響的服務(wù)包括 Office365锐朴、Active Directory兴喂、Visual Studio Online、Visual Studio Team Services 等。
補(bǔ)救措施:9 月 5 日上午衣迷,微軟工程師已恢復(fù)數(shù)據(jù)中心的電力和大多數(shù)網(wǎng)絡(luò)設(shè)備畏鼓,其他服務(wù)也在陸續(xù)恢復(fù)中。
宕機(jī)時(shí)間:超過(guò) 24 小時(shí)
10壶谒、谷歌公有云下的 Kubernetes 服務(wù)(GKE)宕機(jī) ?11 月 9 日
事故詳情:11 月 9 日云矫,谷歌公有云上提供的 Kubernetes 服務(wù)(GKE)節(jié)點(diǎn)池建置功能出現(xiàn)異常,維運(yùn)人員無(wú)法透過(guò) Cloud Console UI 建立新節(jié)點(diǎn)汗菜。
補(bǔ)救措施:谷歌派工程團(tuán)隊(duì)調(diào)查故障原因让禀,并開(kāi)始著手維修。谷歌表示陨界,受影響的企業(yè)用戶可以先改為使用 GCP 內(nèi)建的 gcloud command巡揍,建置新 Kubernetes 節(jié)點(diǎn)。
宕機(jī)時(shí)間:接近 19 小時(shí)
在過(guò)去幾年菌瘪,云供應(yīng)商還發(fā)生過(guò)數(shù)起大大小小的故障腮敌,隨著越來(lái)越多的企業(yè)和政府機(jī)構(gòu)將數(shù)據(jù)上云,即便只是一個(gè)小小的宕機(jī)都可能引發(fā)很大的災(zāi)難俏扩。即便是提供 99.9% 可靠性的阿里云糜工,那 0.1% 的宕機(jī)還是發(fā)生了,因此企業(yè)不僅要建立完善的災(zāi)備保障體系录淡,還應(yīng)該對(duì)災(zāi)備系統(tǒng)進(jìn)行定期演練以防故障發(fā)生造成損失捌木。