如何處理ESXi Hang機

如何處理ESXi Hang機

當主機從vCenter中斷開,通常是ESXi上的hostd進程沒有正常工作,更爲嚴重的情況是ESXi發生hang機,不能被遠程控制,現象表現爲:
1. 不能使用vSphere Client客戶端軟件遠程連接ESXi,
2. 也不能使用SSH客戶端軟件遠程連接ESXi.

3. 使用帶外管理卡或者通過鍵盤監視器直接連接物理服務器的控制檯,可能可以操作,可能不能操作


這種場景通常代表硬件設備有故障,重啓主機後大多數情況下可以恢復正常工作狀態,但由於hang機後ESXi系統沒有記錄完整信息,所以給進一步判斷是哪個硬件組件發生故障帶來困難。如果使用硬件診斷工具也不一定能掃出隨機發生的硬件問題。

除了使用硬件供應商原廠的烤機檢測工具外, 我們有沒有別的方法幫助我們隔離問題呢? 下面從操作系統軟件角度給出一些輔助的方法步驟。

第一步,首先需要ping ESXi主機的管理地址,確認網絡層面是否可以工作。注意:即使ESXi主機的管理地址不通,虛擬機也可以正常工作,只要虛擬機所使用的上聯網卡可以工作。

第二步,如果網絡是通的,可以使用vSphere Client軟件直連ESXi服務器,看看圖形界面是否可以遠程控制, 這一步也可以幫助確認hostd是否可以正常工作。

第三步,如果網絡是通的,可以使用ssh連接ESXi主機,看看是否可以在命令行遠程控制。(前提是SSH服務已經提前打開運行)

如果hang機,第二步和第三步都不能工作。

第四步,因爲遠程控制的途徑全部失效,我們需要打開物理服務器的控制檯窗口做進一步判斷。有兩種方法,一種是使用鍵盤和監視器連接服務器,另一種是使用帶外管理卡連接服務器控制檯,比如iLO/iDRAC/IMM/RMM2/ILOM。連上後看看鍵盤是否可以工作。如果可以,執行第五步;如果不可以,跳過第五步,直接執行第六步。

第五步,使用組合鍵Alt+F12,切換DCUI黃色背景界面到內存日誌輸出的黑色終端屏幕,在這裏可以看見vmkernel最新的日誌輸出,這些信息都直接來自vmkernel臨時保存在內存中的事件隊列中。ESXi的syslog服務會從這裏提取日誌並且根據配置轉存到本地磁盤、遠程日誌服務器、超級終端應用程序等地方;如果syslog或者其後端不能工作,我們將失去日誌文件,所以在按下Alt+F12後,可以對屏幕拍照獲取當時的日誌消息幫助分析。

第六步,使用硬件NMI的功能主動讓ESXi主機宕機,產生紫屏,這樣vmkernel當時使用的內存信息可以被保留到磁盤上, 後續我們可以分析dump文件幫助查找原因。如果虛擬機上的操作系統還可以訪問,建議先使用RDP關閉windows或者ssh關閉Linux,然後在讓ESXi紫屏。 硬件NMI的使用方法根據硬件廠家以及硬件型號不同而異,具體操作方法需要參考硬件設備用戶手冊。(有關硬件NMI的介紹可以參看知識庫文章編號KB#1014767)

第七步,重啓服務器,恢復工作後收集並提交vm-support日誌給VMware技術支持做後續分析。同時請致電硬件廠商檢查硬件。

其他輔助措施:
1. 使用遠程日誌機制避免本地磁盤故障導致日誌缺失,參看 http://kb.vmware.com/kb/2003322
2. 使用網絡轉儲(netdump)保存vmkernel內存信息避免本地vmkcore分區大小不足導致dump失敗, 參看 http://kb.vmware.com/kb/1032051



發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章