系統排障

現象:
金品四子星一個節點總是重啓,查看硬件告警(EDACsbridge:lostmemoryerrors),黃色的電源燈一直在不間斷的閃爍
對策&思路:
重啓系統,發現內存報錯信息同;
df-h發現/dev/mapper/pve-root已用100%;
ncdu-x/(前提你的系統必須事先得安裝上ncdu),/var/log/文件過大;
初步定爲判斷硬件損壞(內存)報錯信息導致日誌文件過大,系統溢出。

使用rmfr/var/log/*==========使用df-h恢復正常。

通過web界面訪問https://172.17.10.75:8006==========該頁無法顯示。

cat/var/log/syslog==========查看報錯信息。
/var/log/pveproxy/access.log、/var/log/pveam.log==========這兩個目錄無法訪問目錄
手動添加這兩個目錄,依舊通過web不能訪問https://172.17.10.75:8006
/var/log/syslog問題依舊,改文件權限爲最高rwx,重啓問題依舊,=====奇怪了,某機要局遇到類似的問題,就這麼搞得,都好了,鬱悶加悲傷!!!
再次細看cat/var/log/syslog,哎呀疏忽大發了,還有一個錯誤的地方木有注意,報錯信息/var/log/cluster/corosync沒有發現,或者不存在該目錄。

趕緊的:mkdir/var/log/cluster/;touch/var/log/cluster/corosync;chmod-R777/var/log/cluster/*=========重啓過後,web訪問無壓力spacer.gif
痛定思痛:故障首先查看log,根據日誌報錯信息,恢復故障;機要局,沒有集羣,故跟房產公司的不一樣,不需要添加/var/log/cluster/corosync.log.

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章