硬件故障預(yù)測

最近在做光模塊的故障預(yù)測,所以對硬件設(shè)備的故障做了點微小的調(diào)研资厉,為了不辜負我這幾天的辛苦看論文,還是打算對這幾篇論文和目前自己的看法做個記錄诀豁。

光模塊故障原因

  1. 光模塊的光口收到污染和損傷窥妇,導(dǎo)致光鏈路損耗加大活翩,以至于光纖鏈路不通纱新。光口長期暴露在環(huán)境中致使灰塵進入而受污染、模塊連接的光纖端面被污染導(dǎo)致光口污染以及尾纖的光接頭端面使用不當(dāng)被損這三種情況都會使光受到污染

  2. 光模塊受到ESD損傷遇汞,即『靜電放電』或者『靜電擊穿』空入。靜電會引起灰塵吸附族檬,改變線路間的阻抗,影響SFP光模塊的功能與壽命埋凯。ESD是不可避免白对,一個非乘δ眨快的過程沉颂,ESD可以產(chǎn)生幾十Kv/m甚至更大的強電磁脈沖铸屉。

可以粗略的認為原因一是緩慢的彻坛,有跡可循的一個過程帆赢,原因二是突發(fā)的故障椰于,不可預(yù)測仪搔。

光模塊的故障情況分析

通過給出的數(shù)據(jù),對故障前后一天內(nèi)的指標(biāo)變化情況做了統(tǒng)計偏陪,發(fā)現(xiàn)大部分的故障在故障前監(jiān)測的相關(guān)指標(biāo)都沒有明顯波動笛谦,只有小部分故障在異常前出現(xiàn)了較大的波動昌阿,但是波動的情況也并不相同懦冰。并且主要波動的指標(biāo)占少數(shù)刷钢,其他指標(biāo)并不對異常敏感。

相關(guān)論文

目前硬件故障預(yù)測伴澄,看到較多的還是對硬盤做相關(guān)的故障預(yù)測非凌,因為硬盤故障的情況較多且涉及的指標(biāo)也較多茬祷,可以分析的空間比較大诱桂。但是由于硬件的指標(biāo)變化并不規(guī)律,所以我認為用深度學(xué)習(xí)的方法來預(yù)測數(shù)據(jù)或者進行分類可能并不可取。所以現(xiàn)在用的方法大多是傳統(tǒng)機器學(xué)習(xí)SVM最盅、Rank-sum和HMM等方法,還有統(tǒng)計學(xué)相關(guān)的模型咏删。

Failure prediction using machine learning and time series in optical network

這篇是17年發(fā)表在OE期刊上的一篇論文督函,OE是光學(xué)方面中不溜的期刊吧辰狡,質(zhì)量上還是有灌水的嫌疑垄分。不過光學(xué)這個方向算是挺冷門的了薄湿,聽說挺好發(fā)論文……
這篇論文用的方法還是挺直白的,研究光網(wǎng)絡(luò)下設(shè)備的故障預(yù)測段标。用二指數(shù)平滑方法(DES)對數(shù)據(jù)進行擬合并作出預(yù)測逼庞,然后用SVM來判斷預(yù)測的數(shù)據(jù)是否是故障的瞻赶。

模型沒有什么亮點璧南,我覺得數(shù)據(jù)的擬合上可能還能更近一步做些更貼合的預(yù)測司倚。對我有些啟發(fā)的是在指標(biāo)數(shù)據(jù)的處理上篓像,以天為單位员辩,對每個指標(biāo)都講其當(dāng)天的最大值盒粮,最小值和均值納入特征維度中。雖然不知道為什么這樣做奠滑,但是直觀來講直接豐富了數(shù)據(jù)的特征維度呀

最后實驗也并沒有做對比實驗(可能是之前并沒有這方面的工作…卒)丹皱,對他提出的方法做了正確率的測試妒穴,根據(jù)當(dāng)天的數(shù)據(jù)預(yù)測第二天的故障情況,正確率能達到90%以上摊崭。對此我覺得肥腸驚人and有點不相信
實驗結(jié)果
A Two-Step Parametric Method for Failure Prediction in Hard Disk Drives

這篇是14年IEEE TII上的一篇論文讼油,聽說TII被ACM列為三類會議…但是應(yīng)該還是誤判為多。
論文做的是預(yù)測硬件驅(qū)動的故障呢簸≈希基于統(tǒng)計學(xué)建立模型,定為TSP模型,主要的參數(shù)是異常閾值和故障閾值。
異常閾值的獲却悍妗:通過統(tǒng)計得到正常樣本之間的曼哈頓距離分布呐萌,根據(jù)三西格瑪定律,超過均值3個方差的數(shù)據(jù)就認為是異常的數(shù)據(jù)
故障閾值:建立代價函數(shù)法褥,通過優(yōu)化代價函數(shù)獲得最優(yōu)的故障閾值(當(dāng)然還有一些其他的參數(shù))
模型的流程分兩步走:

  1. 使用滑動窗口判斷當(dāng)前窗口是否有數(shù)據(jù)點超過異常閾值,如果有的話進入故障判斷
  2. 統(tǒng)計當(dāng)前窗口有多少個數(shù)據(jù)點是異常的莽囤,并根據(jù)計算得出的值代入計算GLRT(似然比檢驗)饵沧,如果GLRT大于故障閾值,則定義為24小時候設(shè)備會出現(xiàn)異常,則報警


    流程圖

數(shù)據(jù)的處理上也有點兒意思弹囚,除了真實數(shù)據(jù)之外,他們還認為硬盤驅(qū)動的數(shù)值變化符合韋伯分布,所以用韋伯分布生成了一批數(shù)據(jù),一半是正常的數(shù)據(jù),一半是異常數(shù)據(jù)。
在實驗上凯楔,他們用ROC曲線來衡量模型的優(yōu)劣。并和SVM,Ranksum和HMM等方法做了對比,得到TSP模型的正確率和計算性能都優(yōu)于傳統(tǒng)方法狭归。

Predicting Disk Replacement towards Reliable Data Centers

這篇論文16年發(fā)表在KDD上室梅,質(zhì)量可以認為是過關(guān)的嗓奢,他們做的是預(yù)測硬盤的替換敢艰。由于硬盤故障帶來的損失比較大,所以預(yù)測硬盤故障的時間措伐,并且提前一天對故障作出判斷短蜕,對故障作出替換硬盤的操作,來減少損失础淤≌阜牛可以等同于硬件的故障預(yù)測。
對故障的判定用的是RGF(Regularized Greedy Forest)方法, 對數(shù)據(jù)進行聚類矢门,分為故障和非故障兩類隔躲。算是波瀾不驚的方法吧23333
在數(shù)據(jù)處理上依舊有點兒意思浑吟。使用changepoint方法挑出與磁盤故障相關(guān)的SMART屬性燎字,用指數(shù)平滑來處理數(shù)據(jù)妖异,生成平滑的時間序列。然后用下采樣的方法挑出具有代表性的健康磁盤數(shù)據(jù)傀蓉,然后平衡數(shù)據(jù)組成為一半健康數(shù)據(jù)欧漱,一半異常數(shù)據(jù)。
出挑的方法還有使用了遷移學(xué)習(xí)葬燎。由于不同廠家生產(chǎn)的磁盤依賴的特征可能是不一樣的误甚,使用遷移學(xué)習(xí)將已經(jīng)訓(xùn)練好的模型適應(yīng)各個不同廠家的磁盤。
實驗上使用HitA和SgtA數(shù)據(jù)集谱净,和許多傳統(tǒng)方法做了對比實驗窑邦,發(fā)現(xiàn)在召回率,正確率等評價指標(biāo)上都表現(xiàn)良好壕探。


實驗結(jié)果

一點想法

三篇論文上的數(shù)據(jù)處理方法都可以借鑒冈钦,但是由于拿到的數(shù)據(jù)集指標(biāo)還是少了,所以可能用SVM得到的結(jié)果會更好些李请。還有這幾篇論文中實驗結(jié)果都非常優(yōu)秀瞧筛,需要進一步確定實際環(huán)境中模型的表現(xiàn)情況和可行性。

參考資料

http://stor.51cto.com/art/201808/582433.htm
Predicting Disk Replacement towards Reliable Data Centers, 2016, KDD
A Two-Step Parametric Method for Failure Prediction in Hard Disk Drives,2014, TII
Failure prediction using machine learning and time series in optical network, 2017, OE

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末导盅,一起剝皮案震驚了整個濱河市较幌,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌白翻,老刑警劉巖乍炉,帶你破解...
    沈念sama閱讀 222,378評論 6 516
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異,居然都是意外死亡恩急,警方通過查閱死者的電腦和手機杉畜,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,970評論 3 399
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來衷恭,“玉大人此叠,你說我怎么就攤上這事∷嬷椋” “怎么了灭袁?”我有些...
    開封第一講書人閱讀 168,983評論 0 362
  • 文/不壞的土叔 我叫張陵,是天一觀的道長窗看。 經(jīng)常有香客問我茸歧,道長,這世上最難降的妖魔是什么显沈? 我笑而不...
    開封第一講書人閱讀 59,938評論 1 299
  • 正文 為了忘掉前任软瞎,我火速辦了婚禮,結(jié)果婚禮上拉讯,老公的妹妹穿的比我還像新娘涤浇。我一直安慰自己,他們只是感情好魔慷,可當(dāng)我...
    茶點故事閱讀 68,955評論 6 398
  • 文/花漫 我一把揭開白布只锭。 她就那樣靜靜地躺著,像睡著了一般院尔。 火紅的嫁衣襯著肌膚如雪蜻展。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 52,549評論 1 312
  • 那天邀摆,我揣著相機與錄音纵顾,去河邊找鬼。 笑死隧熙,一個胖子當(dāng)著我的面吹牛片挂,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播贞盯,決...
    沈念sama閱讀 41,063評論 3 422
  • 文/蒼蘭香墨 我猛地睜開眼音念,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了躏敢?” 一聲冷哼從身側(cè)響起闷愤,我...
    開封第一講書人閱讀 39,991評論 0 277
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎件余,沒想到半個月后讥脐,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體遭居,經(jīng)...
    沈念sama閱讀 46,522評論 1 319
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 38,604評論 3 342
  • 正文 我和宋清朗相戀三年旬渠,在試婚紗的時候發(fā)現(xiàn)自己被綠了俱萍。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 40,742評論 1 353
  • 序言:一個原本活蹦亂跳的男人離奇死亡告丢,死狀恐怖枪蘑,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情岖免,我是刑警寧澤岳颇,帶...
    沈念sama閱讀 36,413評論 5 351
  • 正文 年R本政府宣布,位于F島的核電站颅湘,受9級特大地震影響话侧,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜闯参,卻給世界環(huán)境...
    茶點故事閱讀 42,094評論 3 335
  • 文/蒙蒙 一瞻鹏、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧赢赊,春花似錦乙漓、人聲如沸级历。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,572評論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽寥殖。三九已至玩讳,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間嚼贡,已是汗流浹背熏纯。 一陣腳步聲響...
    開封第一講書人閱讀 33,671評論 1 274
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留粤策,地道東北人樟澜。 一個月前我還...
    沈念sama閱讀 49,159評論 3 378
  • 正文 我出身青樓,卻偏偏與公主長得像叮盘,于是被迫代替她去往敵國和親秩贰。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 45,747評論 2 361

推薦閱讀更多精彩內(nèi)容