對于7×24小時運(yùn)營的IDC顶燕,網(wǎng)絡(luò)層面的監(jiān)控需求如下:
1党涕,每個交換機(jī)的每個端口流量變化過程都需要有記錄可查(其提供的數(shù)據(jù)有故障排查吻谋、為網(wǎng)絡(luò)規(guī)劃提供數(shù)據(jù)基礎(chǔ)的作用)
2,設(shè)備級增淹、端口級故障(UP/DOWN狀態(tài)的變化)記錄可查椿访,并且能夠通過郵件、短信虑润、呼叫等形式為管理員提供告警
為了達(dá)到以上的要求成玫,現(xiàn)有的解決方案軟件有如下:
監(jiān)控的部署圖如下:
說明:
每個機(jī)房都部署一套PRTG和solarwinds。各自互相監(jiān)控拳喻。理由如下:
1哭当,高度冗余(不是最重要的理由)
2,一旦發(fā)生莫名其妙的疑難故障時冗澈,你會發(fā)現(xiàn)你恨不得在每個機(jī)柜都裝有網(wǎng)管系統(tǒng)钦勘。因?yàn)楫?dāng)發(fā)生較難排查的故障時,這些分布在不同地方的網(wǎng)管系統(tǒng)會提供充分的日志數(shù)據(jù)(日志分析是排查故障的極其重要的一個手段)亚亲。
3彻采。網(wǎng)絡(luò)管理員的郵箱客戶端需要做好告警郵件的分類工作。例如IDC1的告警歸類為一個文件夾捌归,郵箱客戶端接收到由該IDC發(fā)送來的告警自動移動到該IDC1文件夾肛响。以免在分析日志的時候被噪聲淹沒。
4惜索,網(wǎng)絡(luò)故障短信告警的實(shí)現(xiàn)方案有:
1)網(wǎng)管系統(tǒng)接短信貓(較昂貴特笋、麻煩)
2)短信平臺
3)云計算廠商郵件觸發(fā)短信告警服務(wù)