VLT0204 system board voltage

集群服務(wù)器主節(jié)點突然故障,無法強制關(guān)機

故障代碼:

VLT0204 system board voltage is outside of range牺氨,即電壓不穩(wěn)定超出了正常范圍

解決思路

1.重啟節(jié)點狡耻,定位宕機時間,檢查日志信息

重啟需要先釋放靜電
(1)拔掉服務(wù)器的電源線
(2)長按開機鍵30S以上
*注:長按30s可能不夠猴凹,就再多按幾次夷狰,不然開機沒一會兒可能又電壓報警 *

第一次重啟時,開機沒20s又電壓報警郊霎,沒有啟動成功沼头,因此想連接一下顯示器,服務(wù)器開機到哪一步出問題。結(jié)果就是多次開機都失敗了进倍。
注意到由于是顯示器土至,事先插了電源線,再連接到服務(wù)器的VA接口背捌,推測可能是靜電沒有放干凈翼虫。于是先拔掉了顯示器的電源爽篷,再釋放靜電后開機。這次成功開機奄妨。

接下來登陸后檢查日志烙如,日志介紹可以參考:
https://baijiahao.baidu.com/s?id=1613381635234443098&wfr=spider&for=pc

ll /var/log 
# 系統(tǒng)日志目錄
總用量 16M
drwxr-xr-x. 2 root root  232 4月  17 15:04 anaconda
drwx------. 2 root root   99 7月  21 09:01 audit
-rw-------. 1 root root    0 8月  17 11:06 boot.log
-rw-------. 1 root root  90K 8月  15 03:30 boot.log-20200815
-rw-------. 1 root root  26K 8月  17 11:06 boot.log-20200817
-rw-------. 1 root utmp 1.5K 8月  20 09:34 btmp
-rw-------. 1 root utmp 2.7K 7月  27 09:53 btmp-20200801
drwxr-xr-x. 2  996  993    6 8月   8 2019 chrony
-rw-------. 1 root root  93K 8月  21 09:01 cron
-rw-------. 1 root root 123K 8月   9 03:40 cron-20200809
-rw-------. 1 root root 120K 8月  16 03:20 cron-20200816
-rw-r--r--. 1 root root  91K 8月  17 10:57 dmesg
-rw-r--r--. 1 root root  90K 8月  14 17:43 dmesg.old
-rw-r-----. 1 root root    0 4月  17 15:18 firewalld
-rw-------. 1 root root 1.3K 4月  17 15:51 grubby
-rw-r--r--. 1 root root  193 4月  17 14:55 grubby_prune_debug
-rw-r--r--. 1 root root 292K 8月  21 09:01 lastlog
-rw-------. 1 root root  21K 8月  21 03:45 maillog
-rw-------. 1 root root 7.3K 8月  15 03:30 maillog-20200816
-rw-------. 1 root root 748K 8月  21 09:04 messages
-rw-------. 1 root root 725K 8月  16 03:20 messages-20200816
...
# 重點查看
cd /var/log/
less boot.log-20200817 #啟動是否有異常
less dmesg #包含內(nèi)核緩沖信息(kernel ring buffer)么抗。在系統(tǒng)啟動時,顯示的許多與硬件有關(guān)的信息。
less messages #包括整體系統(tǒng)信息亚铁,其中也包含系統(tǒng)啟動期間的日志蝇刀。此外,mail徘溢,cron吞琐,daemon,kern和auth等內(nèi)容也記錄在var/log/messages日志中然爆。
less secure #sshd有關(guān)信息記錄站粟,包括失敗登錄
less btmp #登陸失敗的信息
lastlog #/var/log/lastlog記錄所有用戶的最近信息。非文本文件曾雕,可以使用lastlog進行查看奴烙。
less cron  #cron計劃任務(wù)的日志

2.sra查看宕機時間段的服務(wù)器運行情況

以上日志都在宕機時間段突然結(jié)束,并沒有記錄任何信息剖张。因此使用sra檢查服務(wù)器當(dāng)時的負(fù)載情況
sra日志位于/var/log/sa目錄下切诀,指定記錄故障時間段的日志信息文件,查看記錄

sra -f [指定檢查的文件]
也可以指定時間段
或者指定一次性輸出全部信息
sra -A -f [指定檢查的文件]

故障時間段搔弄,服務(wù)器負(fù)載處在極低水平幅虑,且系統(tǒng)未報警有關(guān)信息,推斷可能是硬件問題導(dǎo)致顾犹,所以聯(lián)系售后倒庵。

3.聯(lián)系售后(需要服務(wù)碼)

節(jié)點正面,硬盤那一側(cè)(一般是右側(cè))蹦渣,有一個可抽拉的標(biāo)簽哄芜,有服務(wù)編號與代理服務(wù)碼。這個服務(wù)編號可以在戴爾官網(wǎng)聯(lián)系售后服務(wù)柬唯。

4.設(shè)置idrac網(wǎng)口ip认臊,并下載硬件日志

工程師要求提供硬件日志。需要用網(wǎng)線連接idrac網(wǎng)口锄奢,我這邊是R930位置在背面的右下角失晴。
可以拿個筆記本 接到idrac網(wǎng)口 先看看日志

R930背面圖片
  • 首先需要確認(rèn)機器的idrac網(wǎng)口是否設(shè)置了靜態(tài)IP
    設(shè)置教程
    可以進入bios或通過LCD小屏幕配置IDRAC的IP
    我是通過通過LCD小屏幕剧腻,先View查看現(xiàn)在的IP設(shè)置,發(fā)現(xiàn)是0.0.0.0涂屁。
    然后就進行SetUp進行有關(guān)設(shè)置(IP為192.168.0.120,子網(wǎng)掩碼255.255.255.0书在,如果不成功就設(shè)置網(wǎng)關(guān)為192.168.0.1,默認(rèn)應(yīng)該是192.168.0.0)拆又。
    再回到View查看是否已經(jīng)設(shè)置成功儒旬。

  • 連接網(wǎng)口以后,需要先設(shè)置網(wǎng)絡(luò)的IP帖族。
    點開網(wǎng)絡(luò)設(shè)置-> ipv4 -> 設(shè)置IP為192.168.0.121 (可以自行修改),子網(wǎng)掩碼255.255.255.0

  • 打開瀏覽器后栈源,連接:https://192.168.0.120,并登陸
    默認(rèn):
    ip:192.168.0.120
    賬號 密碼 root calvin
    登陸管理頁面以后,可以查看各自硬件的信息竖般。如果需要技術(shù)支持甚垦,需要導(dǎo)出有關(guān)的日志。參考:
    https://www.dell.com/support/article/zh-cn/sln295784/%E9%80%9A%E8%BF%87-idrac7-%E5%92%8C-8-%E5%AF%BC%E5%87%BA-supportassist-%E6%94%B6%E9%9B%86%E5%92%8C-perc-%E6%97%A5%E5%BF%97?lang=zh

實際上我把日志導(dǎo)出交給售后涣雕,收到的回復(fù)和管理界面上寫的警告信息一致艰亮,都是
CPU 1 VMSE PG voltage is outside of range。
售后認(rèn)為挣郭,可能是cpu1 可能是主板 故障迄埃,可以把cpu1拿掉 把cpu2放在cpu1槽位上試試 看看情況。

5.維修拆機丈屹,并測試

由于過保调俘,售后給了一個拆機視頻的連接作為參考
https://v.qq.com/x/page/e0332ofwp9y.html

6.移除問題節(jié)點,并重新掛載硬盤機柜

目前的方案是旺垒,現(xiàn)將主節(jié)點的磁盤掛載解除彩库,并移到其他節(jié)點作為臨時主節(jié)點。

注意磁盤和機器的開關(guān)機順序:

  • 移除時要關(guān)機:先關(guān)節(jié)點先蒋,再關(guān)磁盤柜骇钦,磁盤柜的開關(guān)在屁股后面有個撥片。
  • 掛載需要開機竞漾,應(yīng)該先開磁盤柜眯搭,再開節(jié)點。
    連接成功后业岁,使用fdisk -l查看目前的查看硬盤及分區(qū)信息鳞仙,注意不要對已有的盤進行修改,以防數(shù)據(jù)丟失笔时。
    接下來棍好,需要將該節(jié)點作為掛載的服務(wù)端,其他節(jié)點為客戶端進行掛載。
    注意:確定nfs服務(wù)啟動借笙,防火墻權(quán)限開放
    參考:
    https://qizhanming.com/blog/2018/08/08/how-to-install-nfs-on-centos-7
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末扒怖,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子业稼,更是在濱河造成了極大的恐慌盗痒,老刑警劉巖,帶你破解...
    沈念sama閱讀 221,695評論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件低散,死亡現(xiàn)場離奇詭異俯邓,居然都是意外死亡,警方通過查閱死者的電腦和手機熔号,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,569評論 3 399
  • 文/潘曉璐 我一進店門看成,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人跨嘉,你說我怎么就攤上這事〕院伲” “怎么了祠乃?”我有些...
    開封第一講書人閱讀 168,130評論 0 360
  • 文/不壞的土叔 我叫張陵,是天一觀的道長兑燥。 經(jīng)常有香客問我亮瓷,道長,這世上最難降的妖魔是什么降瞳? 我笑而不...
    開封第一講書人閱讀 59,648評論 1 297
  • 正文 為了忘掉前任嘱支,我火速辦了婚禮,結(jié)果婚禮上挣饥,老公的妹妹穿的比我還像新娘除师。我一直安慰自己,他們只是感情好扔枫,可當(dāng)我...
    茶點故事閱讀 68,655評論 6 397
  • 文/花漫 我一把揭開白布汛聚。 她就那樣靜靜地躺著,像睡著了一般短荐。 火紅的嫁衣襯著肌膚如雪倚舀。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 52,268評論 1 309
  • 那天忍宋,我揣著相機與錄音痕貌,去河邊找鬼。 笑死糠排,一個胖子當(dāng)著我的面吹牛舵稠,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 40,835評論 3 421
  • 文/蒼蘭香墨 我猛地睜開眼柱查,長吁一口氣:“原來是場噩夢啊……” “哼廓俭!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起唉工,我...
    開封第一講書人閱讀 39,740評論 0 276
  • 序言:老撾萬榮一對情侶失蹤研乒,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后淋硝,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體雹熬,經(jīng)...
    沈念sama閱讀 46,286評論 1 318
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 38,375評論 3 340
  • 正文 我和宋清朗相戀三年谣膳,在試婚紗的時候發(fā)現(xiàn)自己被綠了竿报。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 40,505評論 1 352
  • 序言:一個原本活蹦亂跳的男人離奇死亡继谚,死狀恐怖烈菌,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情花履,我是刑警寧澤芽世,帶...
    沈念sama閱讀 36,185評論 5 350
  • 正文 年R本政府宣布,位于F島的核電站诡壁,受9級特大地震影響济瓢,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜妹卿,卻給世界環(huán)境...
    茶點故事閱讀 41,873評論 3 333
  • 文/蒙蒙 一旺矾、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧夺克,春花似錦箕宙、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,357評論 0 24
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至室囊,卻和暖如春雕崩,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背融撞。 一陣腳步聲響...
    開封第一講書人閱讀 33,466評論 1 272
  • 我被黑心中介騙來泰國打工盼铁, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人尝偎。 一個月前我還...
    沈念sama閱讀 48,921評論 3 376
  • 正文 我出身青樓饶火,卻偏偏與公主長得像鹏控,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子肤寝,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 45,515評論 2 359