集群服務(wù)器主節(jié)點突然故障,無法強制關(guān)機
故障代碼:
VLT0204 system board voltage is outside of range牺氨,即電壓不穩(wěn)定超出了正常范圍
解決思路
1.重啟節(jié)點狡耻,定位宕機時間,檢查日志信息
重啟需要先釋放靜電
(1)拔掉服務(wù)器的電源線
(2)長按開機鍵30S以上
*注:長按30s可能不夠猴凹,就再多按幾次夷狰,不然開機沒一會兒可能又電壓報警 *
第一次重啟時,開機沒20s又電壓報警郊霎,沒有啟動成功沼头,因此想連接一下顯示器,服務(wù)器開機到哪一步出問題。結(jié)果就是多次開機都失敗了进倍。
注意到由于是顯示器土至,事先插了電源線,再連接到服務(wù)器的VA接口背捌,推測可能是靜電沒有放干凈翼虫。于是先拔掉了顯示器的電源爽篷,再釋放靜電后開機。這次成功開機奄妨。
接下來登陸后檢查日志烙如,日志介紹可以參考:
https://baijiahao.baidu.com/s?id=1613381635234443098&wfr=spider&for=pc
ll /var/log
# 系統(tǒng)日志目錄
總用量 16M
drwxr-xr-x. 2 root root 232 4月 17 15:04 anaconda
drwx------. 2 root root 99 7月 21 09:01 audit
-rw-------. 1 root root 0 8月 17 11:06 boot.log
-rw-------. 1 root root 90K 8月 15 03:30 boot.log-20200815
-rw-------. 1 root root 26K 8月 17 11:06 boot.log-20200817
-rw-------. 1 root utmp 1.5K 8月 20 09:34 btmp
-rw-------. 1 root utmp 2.7K 7月 27 09:53 btmp-20200801
drwxr-xr-x. 2 996 993 6 8月 8 2019 chrony
-rw-------. 1 root root 93K 8月 21 09:01 cron
-rw-------. 1 root root 123K 8月 9 03:40 cron-20200809
-rw-------. 1 root root 120K 8月 16 03:20 cron-20200816
-rw-r--r--. 1 root root 91K 8月 17 10:57 dmesg
-rw-r--r--. 1 root root 90K 8月 14 17:43 dmesg.old
-rw-r-----. 1 root root 0 4月 17 15:18 firewalld
-rw-------. 1 root root 1.3K 4月 17 15:51 grubby
-rw-r--r--. 1 root root 193 4月 17 14:55 grubby_prune_debug
-rw-r--r--. 1 root root 292K 8月 21 09:01 lastlog
-rw-------. 1 root root 21K 8月 21 03:45 maillog
-rw-------. 1 root root 7.3K 8月 15 03:30 maillog-20200816
-rw-------. 1 root root 748K 8月 21 09:04 messages
-rw-------. 1 root root 725K 8月 16 03:20 messages-20200816
...
# 重點查看
cd /var/log/
less boot.log-20200817 #啟動是否有異常
less dmesg #包含內(nèi)核緩沖信息(kernel ring buffer)么抗。在系統(tǒng)啟動時,顯示的許多與硬件有關(guān)的信息。
less messages #包括整體系統(tǒng)信息亚铁,其中也包含系統(tǒng)啟動期間的日志蝇刀。此外,mail徘溢,cron吞琐,daemon,kern和auth等內(nèi)容也記錄在var/log/messages日志中然爆。
less secure #sshd有關(guān)信息記錄站粟,包括失敗登錄
less btmp #登陸失敗的信息
lastlog #/var/log/lastlog記錄所有用戶的最近信息。非文本文件曾雕,可以使用lastlog進行查看奴烙。
less cron #cron計劃任務(wù)的日志
2.sra查看宕機時間段的服務(wù)器運行情況
以上日志都在宕機時間段突然結(jié)束,并沒有記錄任何信息剖张。因此使用sra檢查服務(wù)器當(dāng)時的負(fù)載情況
sra日志位于/var/log/sa目錄下切诀,指定記錄故障時間段的日志信息文件,查看記錄
sra -f [指定檢查的文件]
也可以指定時間段
或者指定一次性輸出全部信息
sra -A -f [指定檢查的文件]
故障時間段搔弄,服務(wù)器負(fù)載處在極低水平幅虑,且系統(tǒng)未報警有關(guān)信息,推斷可能是硬件問題導(dǎo)致顾犹,所以聯(lián)系售后倒庵。
3.聯(lián)系售后(需要服務(wù)碼)
節(jié)點正面,硬盤那一側(cè)(一般是右側(cè))蹦渣,有一個可抽拉的標(biāo)簽哄芜,有服務(wù)編號與代理服務(wù)碼。這個服務(wù)編號可以在戴爾官網(wǎng)聯(lián)系售后服務(wù)柬唯。
4.設(shè)置idrac網(wǎng)口ip认臊,并下載硬件日志
工程師要求提供硬件日志。需要用網(wǎng)線連接idrac網(wǎng)口锄奢,我這邊是R930位置在背面的右下角失晴。
可以拿個筆記本 接到idrac網(wǎng)口 先看看日志
首先需要確認(rèn)機器的idrac網(wǎng)口是否設(shè)置了靜態(tài)IP
設(shè)置教程
可以進入bios或通過LCD小屏幕配置IDRAC的IP
我是通過通過LCD小屏幕剧腻,先View查看現(xiàn)在的IP設(shè)置,發(fā)現(xiàn)是0.0.0.0涂屁。
然后就進行SetUp進行有關(guān)設(shè)置(IP為192.168.0.120,子網(wǎng)掩碼255.255.255.0书在,如果不成功就設(shè)置網(wǎng)關(guān)為192.168.0.1,默認(rèn)應(yīng)該是192.168.0.0)拆又。
再回到View查看是否已經(jīng)設(shè)置成功儒旬。連接網(wǎng)口以后,需要先設(shè)置網(wǎng)絡(luò)的IP帖族。
點開網(wǎng)絡(luò)設(shè)置-> ipv4 -> 設(shè)置IP為192.168.0.121 (可以自行修改),子網(wǎng)掩碼255.255.255.0打開瀏覽器后栈源,連接:https://192.168.0.120,并登陸
默認(rèn):
ip:192.168.0.120
賬號 密碼 root calvin
登陸管理頁面以后,可以查看各自硬件的信息竖般。如果需要技術(shù)支持甚垦,需要導(dǎo)出有關(guān)的日志。參考:
https://www.dell.com/support/article/zh-cn/sln295784/%E9%80%9A%E8%BF%87-idrac7-%E5%92%8C-8-%E5%AF%BC%E5%87%BA-supportassist-%E6%94%B6%E9%9B%86%E5%92%8C-perc-%E6%97%A5%E5%BF%97?lang=zh
實際上我把日志導(dǎo)出交給售后涣雕,收到的回復(fù)和管理界面上寫的警告信息一致艰亮,都是
CPU 1 VMSE PG voltage is outside of range。
售后認(rèn)為挣郭,可能是cpu1 可能是主板 故障迄埃,可以把cpu1拿掉 把cpu2放在cpu1槽位上試試 看看情況。
5.維修拆機丈屹,并測試
由于過保调俘,售后給了一個拆機視頻的連接作為參考
https://v.qq.com/x/page/e0332ofwp9y.html
6.移除問題節(jié)點,并重新掛載硬盤機柜
目前的方案是旺垒,現(xiàn)將主節(jié)點的磁盤掛載解除彩库,并移到其他節(jié)點作為臨時主節(jié)點。
注意磁盤和機器的開關(guān)機順序:
- 移除時要關(guān)機:先關(guān)節(jié)點先蒋,再關(guān)磁盤柜骇钦,磁盤柜的開關(guān)在屁股后面有個撥片。
- 掛載需要開機竞漾,應(yīng)該先開磁盤柜眯搭,再開節(jié)點。
連接成功后业岁,使用fdisk -l
查看目前的查看硬盤及分區(qū)信息鳞仙,注意不要對已有的盤進行修改,以防數(shù)據(jù)丟失笔时。
接下來棍好,需要將該節(jié)點作為掛載的服務(wù)端,其他節(jié)點為客戶端進行掛載。
注意:確定nfs服務(wù)啟動借笙,防火墻權(quán)限開放
參考:
https://qizhanming.com/blog/2018/08/08/how-to-install-nfs-on-centos-7