數(shù)據(jù)中心宕機(jī)事故頻發(fā) 運(yùn)維很重要

近日,某IDC服務(wù)商機(jī)房宕機(jī)直接導(dǎo)致某商業(yè)銀行業(yè)務(wù)中斷,據(jù)了解昏鹃,此次宕機(jī)事故的原因是:機(jī)房內(nèi)電力負(fù)載過高息尺,造成配電柜開關(guān)跳閘蝗柔,供電中斷,空調(diào)停止運(yùn)行,生產(chǎn)機(jī)房溫度升高導(dǎo)致的設(shè)備宕機(jī)。

其實(shí)蹲坷,類似的事件不是第一次發(fā)生了,之前中國信息通信研究院的專家就針對數(shù)據(jù)中心機(jī)房故障的原因作出過總結(jié)邑飒,專家們表示循签,數(shù)據(jù)中心機(jī)房故障多發(fā)的原因關(guān)鍵還是在運(yùn)維管理上,所謂“三分技術(shù)幸乒,七分管理”懦底,數(shù)據(jù)中心的故障大多來自人禍

結(jié)合事件原因及之前案例罕扎,我們不難分析,導(dǎo)致此次事故的很大一部分原因也是“運(yùn)維管理不到位”丐重。

首先腔召,在建設(shè)數(shù)據(jù)中心之前沒有對負(fù)載做出充分的預(yù)估,導(dǎo)致電閘配置不能滿足負(fù)載的需要扮惦;

其次臀蛛,在發(fā)生事故之后,應(yīng)急處置能力不足,導(dǎo)致不能及時(shí)的解決突發(fā)事件浊仆;

另外客峭,機(jī)房制冷方面僅依賴空調(diào)制冷,沒有設(shè)置高溫應(yīng)急措施抡柿,導(dǎo)致機(jī)房持續(xù)高溫舔琅。

頻繁的數(shù)據(jù)中心故障和宕機(jī)事故表明,某些數(shù)據(jù)中心在一味滿足客戶個(gè)性化需求的同時(shí)洲劣,忽略了自身運(yùn)維管理能力的提升备蚓,導(dǎo)致數(shù)據(jù)中心可靠性降低,從而發(fā)生此類事件囱稽。

在運(yùn)維過程中郊尝,數(shù)據(jù)中心其實(shí)面臨著諸多的挑戰(zhàn):

比如數(shù)據(jù)中心的運(yùn)營費(fèi)用,這就要求在建立數(shù)據(jù)中心之前战惊,進(jìn)行預(yù)算和規(guī)劃流昏;又比如能源成本上升,這可以通過使用新技術(shù)緩解吞获,例如虛擬化和云主機(jī)托管况凉,可以大大降低能源成本;再比如維護(hù)和冷卻要求衫哥,數(shù)據(jù)中心設(shè)施和組件需要在適合的溫度下全天不間斷的工作茎刚,這需要完善的冷卻系統(tǒng),以保持所需的溫度撤逢。

除此以外膛锭,數(shù)據(jù)中心還面臨著溝通融合、基礎(chǔ)設(shè)施要求蚊荣、缺乏資源初狰、服務(wù)器效率、數(shù)據(jù)中心安全互例、網(wǎng)絡(luò)阻塞等挑戰(zhàn)奢入。但是,數(shù)據(jù)中心最不愿意見到的事情莫過于斷電媳叨,這將會給運(yùn)維人員帶來很多的麻煩腥光。近來,不少公司因?yàn)閿?shù)據(jù)中心的電力中斷而備受困擾糊秆,比如美國達(dá)美航空公司數(shù)據(jù)中心的電力中斷武福,造成高達(dá)1.5億美元的經(jīng)濟(jì)損失,又比如美國“超級碗”賽場斷電痘番,耽誤賽事日程捉片。

那么平痰,是什么原因?qū)е聰嚯娔兀坎僮鲉T的誤操作伍纫、停電宗雇,也有可能是服務(wù)器負(fù)載過重,從而導(dǎo)致系統(tǒng)崩潰莹规。

雖然數(shù)據(jù)中心斷電是非常嚴(yán)重的問題赔蒲,但是我們還是希望有相關(guān)的解決方案。在這里访惜,我們需要確定幾個(gè)問題嘹履。

跟隨數(shù)據(jù)中心的變化,電力系統(tǒng)進(jìn)行升級

可以說數(shù)據(jù)中心的不同階段债热,對電力需求也在不停的變化砾嫉,比如增加服務(wù)器或者交換機(jī)都有可能對電力產(chǎn)生巨大的需求,所以及時(shí)掌握數(shù)據(jù)中心在這一時(shí)間段對電力的需求窒篱,變得十分重要焕刮。

此外,還需要對數(shù)據(jù)中心的供電進(jìn)行合理的評估墙杯,以免數(shù)據(jù)中心超載配并,供電不足造成停電的狀況。

知道所有互連設(shè)備和系統(tǒng)的一切情況

對于數(shù)據(jù)中心運(yùn)營至關(guān)重要的是高镐,需要電力鏈記錄在一起溉旋,從進(jìn)入建筑物的電力,再通過UPS嫉髓、PDU/提供給所有的機(jī)架設(shè)備观腊。這意味著數(shù)據(jù)中心運(yùn)營需要知道哪些與電力相關(guān)的設(shè)備,以及設(shè)備各自的相互依賴關(guān)系算行。這可以讓數(shù)據(jù)中心運(yùn)營了解某些設(shè)備故障或脫機(jī)維護(hù)時(shí)的潛在影響梧油。此外,還應(yīng)該了解每個(gè)電源鏈設(shè)備的狀態(tài)州邢。

可以通過采用數(shù)據(jù)中心基礎(chǔ)架構(gòu)管理(DCIM)實(shí)現(xiàn)對電源管理儡陨。DCIM使數(shù)據(jù)中心運(yùn)營能夠以最高的效率運(yùn)行數(shù)據(jù)中心,同時(shí)允許所有相關(guān)人員改進(jìn)整體運(yùn)營情況量淌,并識別漏洞骗村,從而保持電源鏈的安全。部署的DCIM還可以讓數(shù)據(jù)中心運(yùn)營全面了解自己的產(chǎn)品呀枢,通過共享實(shí)時(shí)數(shù)據(jù)和易于理解的圖表叙身,消除IT和設(shè)施之間的通信孤島。

確保電源系統(tǒng)沒有受到攻擊或威脅

數(shù)據(jù)中心是通過網(wǎng)絡(luò)進(jìn)行連接硫狞,當(dāng)然除了基架中包含的終端和訪問點(diǎn)之外,很多渠道可能會成為破壞數(shù)據(jù)中心的途徑,所以保護(hù)這些渠道免受破壞残吩,成為數(shù)據(jù)中心建設(shè)需要考慮的問題财忽。

在這里,網(wǎng)絡(luò)攻擊成為一種可能性泣侮,很多黑客可能不直接破壞供電系統(tǒng)即彪,而是通過網(wǎng)絡(luò)進(jìn)入到數(shù)據(jù)中心,以達(dá)到破壞數(shù)據(jù)中心供電的目的活尊。此外隶校,我們不應(yīng)該只防止通過網(wǎng)絡(luò)手段對數(shù)據(jù)中心進(jìn)行破壞的黑客,還應(yīng)該防止內(nèi)部人員的破壞蛹锰,有些工作人員因?yàn)樽陨斫?jīng)驗(yàn)不足深胳,一個(gè)小小的錯(cuò)誤,有可能導(dǎo)致數(shù)據(jù)中心供電的中斷铜犬。

所以舞终,為了防止通過以上手段進(jìn)行破壞的行為,建立運(yùn)維文檔和流程控制變得十分重要癣猾。在這里敛劝,采用更多的硬件不是防止災(zāi)難性停電的最佳選擇,不妨采用軟件層面的管理纷宇,來的更加穩(wěn)妥一些夸盟。

不妨多模擬故障安全測試,做好完整的災(zāi)難恢復(fù)計(jì)劃

數(shù)據(jù)中心在運(yùn)營過程中像捶,難免會出一些故障上陕,所謂有備而無患,在真正出bug的狀況下作岖,之前遇到過或者曾經(jīng)模擬了出錯(cuò)的場景唆垃,才更有經(jīng)驗(yàn)去應(yīng)對故障。在這里痘儡,我們建議在不影響業(yè)務(wù)環(huán)境的情況下對數(shù)據(jù)中心進(jìn)行斷電測試辕万,使用虛擬的開關(guān)設(shè)備,將允許數(shù)據(jù)中心運(yùn)營商可以應(yīng)對最壞的情況沉删,并對其進(jìn)行恢復(fù)渐尿。

數(shù)據(jù)中心工作人員總是假設(shè)他們的電源供應(yīng)鏈和電源備份系統(tǒng)是萬無一失的,但是如果沒有故障安全測試矾瑰,會認(rèn)為面臨什么樣的結(jié)果?電源故障模擬使數(shù)據(jù)中心運(yùn)營商可能找到缺乏冗余的設(shè)施砖茸,并發(fā)現(xiàn)單點(diǎn)故障。但是殴穴,這需要文檔進(jìn)行記錄凉夯。因此货葬,數(shù)據(jù)中心運(yùn)營商在災(zāi)難性的電源故障之前,建立斷電測試機(jī)制并記錄其恢復(fù)過程劲够。

數(shù)據(jù)中心建設(shè)應(yīng)該實(shí)時(shí)監(jiān)控操作

對數(shù)據(jù)中心進(jìn)行實(shí)時(shí)監(jiān)控操作震桶,是以防萬一的做法,所以數(shù)據(jù)中心運(yùn)營商必須知道設(shè)備都被放在哪里征绎,以及使用了多少電能蹲姐。雖然對于不斷增加基礎(chǔ)架構(gòu)的數(shù)據(jù)中心來說,這很困難人柿,也有可能對電池容量和電源分配產(chǎn)生巨大的影響柴墩,但是注意所有移動部件的唯一方法就是單一視圖,這種整體視圖具有實(shí)時(shí)監(jiān)控和警報(bào)的功能凫岖,使數(shù)據(jù)中心運(yùn)營商能夠減輕風(fēng)險(xiǎn)江咳,并進(jìn)行更改以避免災(zāi)難發(fā)生。

寫在最后

數(shù)據(jù)中心一旦斷電隘截,造成的經(jīng)濟(jì)損失不可估量扎阶,不妨從上述的這些方法做起,對數(shù)據(jù)中心每個(gè)環(huán)節(jié)進(jìn)行防護(hù)婶芭,這樣才能更好地對數(shù)據(jù)中心進(jìn)行運(yùn)維东臀。

ServiceHot ITSOM 平臺

持續(xù)免費(fèi)試用中>>>

www.itsmcn.com

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市犀农,隨后出現(xiàn)的幾起案子惰赋,更是在濱河造成了極大的恐慌,老刑警劉巖呵哨,帶你破解...
    沈念sama閱讀 206,214評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件赁濒,死亡現(xiàn)場離奇詭異,居然都是意外死亡孟害,警方通過查閱死者的電腦和手機(jī)拒炎,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,307評論 2 382
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來挨务,“玉大人击你,你說我怎么就攤上這事』驯” “怎么了丁侄?”我有些...
    開封第一講書人閱讀 152,543評論 0 341
  • 文/不壞的土叔 我叫張陵,是天一觀的道長朝巫。 經(jīng)常有香客問我鸿摇,道長,這世上最難降的妖魔是什么劈猿? 我笑而不...
    開封第一講書人閱讀 55,221評論 1 279
  • 正文 為了忘掉前任拙吉,我火速辦了婚禮潮孽,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘庐镐。我一直安慰自己恩商,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,224評論 5 371
  • 文/花漫 我一把揭開白布必逆。 她就那樣靜靜地躺著,像睡著了一般揽乱。 火紅的嫁衣襯著肌膚如雪名眉。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,007評論 1 284
  • 那天凰棉,我揣著相機(jī)與錄音损拢,去河邊找鬼。 笑死撒犀,一個(gè)胖子當(dāng)著我的面吹牛福压,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播或舞,決...
    沈念sama閱讀 38,313評論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼荆姆,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了映凳?” 一聲冷哼從身側(cè)響起胆筒,我...
    開封第一講書人閱讀 36,956評論 0 259
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎诈豌,沒想到半個(gè)月后仆救,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 43,441評論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡矫渔,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 35,925評論 2 323
  • 正文 我和宋清朗相戀三年彤蔽,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片庙洼。...
    茶點(diǎn)故事閱讀 38,018評論 1 333
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡顿痪,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出送膳,到底是詐尸還是另有隱情员魏,我是刑警寧澤,帶...
    沈念sama閱讀 33,685評論 4 322
  • 正文 年R本政府宣布叠聋,位于F島的核電站撕阎,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏碌补。R本人自食惡果不足惜虏束,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,234評論 3 307
  • 文/蒙蒙 一棉饶、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧镇匀,春花似錦照藻、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,240評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至晰韵,卻和暖如春发乔,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背雪猪。 一陣腳步聲響...
    開封第一講書人閱讀 31,464評論 1 261
  • 我被黑心中介騙來泰國打工栏尚, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人只恨。 一個(gè)月前我還...
    沈念sama閱讀 45,467評論 2 352
  • 正文 我出身青樓译仗,卻偏偏與公主長得像,于是被迫代替她去往敵國和親官觅。 傳聞我的和親對象是個(gè)殘疾皇子纵菌,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,762評論 2 345

推薦閱讀更多精彩內(nèi)容

  • 在云計(jì)算和大數(shù)據(jù)遍地開花的今天产艾,很多個(gè)人及企業(yè)級客戶對自己的數(shù)據(jù)存放環(huán)境并沒有一個(gè)很直觀的認(rèn)識,包括電商從業(yè)者(云...
    耿彪閱讀 773評論 1 4
  • A. 問答題 1. 簡述運(yùn)維工作中專業(yè)巡視的內(nèi)容及周期滑绒。 答:運(yùn)維工作中專業(yè)巡視的內(nèi)容及周期如下: 1) 專業(yè)巡視...
    tomding閱讀 3,103評論 0 2
  • 最近不知道怎么了疑故,怎會忽然閃現(xiàn)什么事婚姻杠览,什么是好的婚姻萬一遇到錯(cuò)的人步入了錯(cuò)的婚姻。 我的思想不是很前衛(wèi)纵势,也不是...
    尼采悸閱讀 219評論 0 0
  • 最近每天重復(fù)著一樣的事情踱阿,早起,食堂钦铁,圖書館软舌,宿舍,這樣讓我沒有一丁點(diǎn)熱情牛曹,混沌脆弱佛点。所以盡管時(shí)間緊迫,考研在即...
    CHeng心的閱讀 4,079評論 58 92
  • 文/蔥蔥 街上的冰糖葫蘆在寒風(fēng)中微笑著 我買下一串沉在歲月里的酸甜 味蕾跌進(jìn)時(shí)間的漩渦 身邊的人和事都回到從前 2...
    蔥蔥_閱讀 485評論 22 20