處在IT互聯(lián)網行業(yè)盒犹,我對騰訊云盤故障事件的關注度很高权悟,已經連續(xù)在公眾號推送兩篇文章解析磁盤靜默錯誤缰揪,云盤備份機制陨享、安全備份方法等,但是依然有朋友在問
“我們公司的系統(tǒng)在騰訊云上钝腺,會不會有事芭坠谩?”
“我的備份做的對不對啊艳狐,會不會有問題定硝?”
“騰訊云都掛了,阿里云是不是也會掛毫目?”早上起來蔬啡,室友(某司行政)一臉朦朧的對我說:“ 我們公司上云了诲侮,不會丟數(shù)據吧?”
至此,我覺得有必要再專門寫一篇關于云災備的文章禁悠,讓大家更好的了解了云上災備的機制博个,對自身災備結構有更清晰、更客觀的認識绽慈。
一、災備保護的什么辈毯?
對于各行各業(yè)而言坝疼,用戶數(shù)據、系統(tǒng)數(shù)據均是企業(yè)最核心谆沃、最重要的財富钝凶,但以下種種原因,都可能給數(shù)據帶來不可逆轉的損壞唁影。只有完善的災備方案耕陷,才能最終保障數(shù)據安全、業(yè)務連續(xù)性夭咬。
image.png
隨著互聯(lián)網市場的蓬勃發(fā)展啃炸,及用戶對數(shù)據重視程度的日益提高,據智研數(shù)據中心統(tǒng)計數(shù)據卓舵,災備行業(yè)的市場規(guī)模已達百億規(guī)模南用,且預計會逐年持續(xù)增長。
fig_02
二掏湾、什么是災備裹虫?
災備是容災和備份的簡稱。災備方案=容災方案+備份方案融击。
- 容災的定義:指在相隔較遠的兩地(同城或者異地)建立兩套或多套功能相同的IT系統(tǒng)筑公,互相之間可以進行健康狀態(tài)監(jiān)視和功能切換。當一處系統(tǒng)因意外(天災尊浪、人禍)停止工作時匣屡,整個應用系統(tǒng)可以切換到另一處,使得該系統(tǒng)功能可以繼續(xù)正常工作拇涤。側重數(shù)據同步和系統(tǒng)持續(xù)可用捣作。
- 備份的定義:指用戶為應用系統(tǒng)產生的重要數(shù)據(或者原有的重要數(shù)據信息)制作一份或者多份拷貝,以增強數(shù)據的安全鹅士。側重數(shù)據的備份和保存券躁。
三、災備的兩個關鍵技術指標
RTO:RecoveryTime Object,恢復時間目標也拜。指災難發(fā)生后以舒,從IT系統(tǒng)宕機導致業(yè)務停頓之刻開始,到IT系統(tǒng)恢復至可以支持各部門運作慢哈,業(yè)務恢復運營之時蔓钟,此兩點之間的時間段稱為RTO。
RTO是反映業(yè)務恢復及時性的指標岸军,體現(xiàn)了企業(yè)能容忍的IT系統(tǒng)最長恢復時間奋刽。設目標RTO值設定的越小瓦侮,代表對容災系統(tǒng)的恢復能力要求越強艰赞,但企業(yè)投資也越高。
RPO:Recovery Point Object肚吏,恢復點目標方妖。指災難發(fā)生后,容災系統(tǒng)進行數(shù)據恢復罚攀,恢復得來的數(shù)據所對應的時間點稱為RPO党觅。
RPO是反映數(shù)據丟失量的指標,體現(xiàn)了企業(yè)能容忍的最大數(shù)據丟失量的指標斋泄。目標RPO值設定的越小杯瞻,代表企業(yè)允許的數(shù)據丟失越少,企業(yè)損失越小炫掐。
設計災備方案的核心是:幫助客戶平衡RTO/RPO的需求和客戶經濟能力魁莉,找到最佳的實現(xiàn)技術和手段,適合的才是最好的募胃。
四旗唁、備份的分類
分類方式 | 分類 |
---|---|
按照備份內容 | 操作系統(tǒng)備份、數(shù)據備份 |
按照備份數(shù)據量 | 全量備份痹束、增量備份检疫、差異備份 |
按照備份形式 (主要針對數(shù)據庫) |
物理備份、邏輯備份 |
按照備份時數(shù)據庫是否啟動 (主要針對數(shù)據庫) |
冷備份祷嘶、熱備份 |
按照備份介質 | 磁帶備份屎媳、磁盤備份 |
為了大家更輕松的理解這些分類,下面我詳細解釋下冷備论巍、熱備烛谊,增量備份和差異備份的差異:
分類 | 優(yōu)點 | 缺點 |
---|---|---|
冷備 | 將數(shù)據以隔離的方式來保存, 備份數(shù)據不受原數(shù)據的影響环壤; 解決了硬件故障晒来、人為誤操作。 |
數(shù)據恢復慢 |
熱備(又稱冗余) | 搭建冗余的環(huán)境郑现,數(shù)據完全一致; 恢復速度快湃崩,瞬間恢復荧降。 |
只能解決硬件故障, 不能解決人為誤操作 |
分類 | 定義 |
---|---|
全量備份 | 備份所有數(shù)據 |
增量備份 | 針對上一次備份所作的增量備份(上一次的備份可以是全備攒读,可以是增備) |
差異備份 | 針對上一次的全備份所做的增量備份 |
五朵诫、云產品的災備特性
以下講解以阿里云為例,其他云平臺會有些許不同薄扁,大家可自行查閱官方文檔剪返。
ECS備份
備份類型 | 災備級別 |
---|---|
云磁盤三副本數(shù)據備份 | 解決底層硬件級別的故障,防范單點故障 |
快照/鏡像 | 解決誤操作邓梅,網絡攻擊等人為故障引起的數(shù)據損壞 |
SLB容災(高可用)
SLB負載均衡 災備分類 |
災備級別 |
---|---|
單可用區(qū)+單可用區(qū)SLB | 是集群級別的災備脱盲,防范了單點故障; 不具備機房級別的災備能力和跨地域(城市)級別的容災能力日缨。 |
多可用區(qū)ECS+主備可用區(qū)SLB(是單個實例) | 集群級別的災備+機房級別的災備,防范了單個機房斷電等意外災難钱反; 不具備跨地域(城市)級別的災備能力 |
多區(qū)域+跨地域多SLB實例+智能解析 | 結合云解析(全球負載均衡版),實現(xiàn)多線路智能解析和跨地域容災匣距。 |
RDS容災(高可用)
RDS數(shù)據庫 災備分類 |
災備級別 |
---|---|
高可用版+單可用區(qū) | 集群級別的災備面哥,防范了單點故障 |
高可用版+多可用區(qū) | 集群級別的災備+機房級別的災備,防范了單個機房斷電毅待、火災等意外災難 |
高可用版+災備實例 | 集群級別的容災+機房級別的容災+跨地域(城市)級別的容災 |
數(shù)據庫(含RDS)備份
數(shù)據庫備份分類 | 備份方式 | 優(yōu)缺點 |
---|---|---|
傳統(tǒng)冷備 | 本地備份:將備份集拷貝到本機其他盤尚卫、其他機器; 異地容災:用戶在其他地區(qū)自行搭建備份機房尸红。 |
本地備份:無法抵御地震吱涉、臺風等自然災害; 異地備份:前期投入很大 |
阿里云DBS冷備 | 同城:DBS地域和備份源數(shù)據庫相同驶乾; 異地:DBS地域和備份源數(shù)據庫不同 |
可按量付費成本低邑飒;可將本地IDC數(shù)據庫、其他云數(shù)據庫级乐、ECS自建數(shù)據庫和RDS數(shù)據庫備份到OSS疙咸;異地備份更簡單 |
六、幾種常見的災備架構
1风科、用云搭建異地容災中心
本地物理機房為主數(shù)據中心撒轮,僅將數(shù)據備份到云端。
2贼穆、基于公共云的同城災備
將全部系統(tǒng)遷移上云题山,并部署在同一個地域的兩個不同可用區(qū)中,實現(xiàn)系統(tǒng)的同城災備故痊。
3顶瞳、基于公共云的異地災備
將全部系統(tǒng)遷移上云,并部署在兩個不同的地域中,實現(xiàn)跨地域災備慨菱。
4焰络、結合公共云同城災備和異地災備
如:兩地三中心,
七符喝、分析幾起嚴重的數(shù)據丟失事故
爐石傳說故障
2017年1月18日闪彼,由網易代理的暴雪旗下卡牌類游戲《爐石傳說》遭遇了重大故障,從1月17日凌晨1點開始開始維護协饲,直到1月18日下午18點才完成畏腕。
而更為可怕的是,《爐石傳說》的數(shù)據并沒有恢復茉稠,備份數(shù)據庫也出現(xiàn)了故障描馅,因此這款游戲的玩家被迫回檔到1月14日15點20分。
案例分析:高可用沒做好战惊,導致實際RTO很長流昏;
數(shù)據備份方案設計不完善扎即,應充分考慮同機房不同機器+異地備份等方式吞获,避免備庫一起損壞。
Gitlab數(shù)據庫被刪除
2017年2月1日谚鄙,GitLab 一位身處荷蘭的疲憊系統(tǒng)管理員在進行數(shù)據庫復制過程中不小心在一臺錯誤的服務器上刪除了一個目錄各拷,他刪除了一個包含 300GB 實時產品數(shù)據的文件夾,在取消 rm -rf 刪除命令后該文件夾只剩下 4.5GB 數(shù)據闷营。并且最近的數(shù)據還是在6小時前備份的烤黍。
GitLab.com號稱有五重備份機制:常規(guī)備份(24小時做一次)、自動同步傻盟、LVM快照(24小時做一次)速蕊、Azure備份(只對 NFS 啟用,對數(shù)據庫無效)娘赴、S3備份规哲。這次事故發(fā)生時,所有備份全部無效诽表!
案例分析:備份方案設計多么重要唉锌!周期性的災難恢復演練(驗證備份的有效性)多么重要!
騰訊云盤故障,致用戶數(shù)據完全丟失
騰訊稱該故障緣起于因磁盤靜默錯誤導致的單副本數(shù)據錯誤竿奏,再加上騰訊運維人員在數(shù)據遷移過程中的兩次不規(guī)范的操作袄简,導致云盤的三副本安全機制失效,并最終導致數(shù)據完整性受損泛啸。
案例分析:單一的數(shù)據備份方式可能造成不可逆轉的損失绿语;多種備份方式結合使用,可最大概率的降低風險。