一天,集羣中的主機上的vsphere HA主機狀態都錯誤 “無法正確安裝或配置 vSphere HA 代理 ”,看HA摘要是初始化錯誤。一開始排障的思路是搜索HA初始化錯誤或者安裝ha代理的解決方案。
1.首先嚐試 重新配置vsphere HA,顯示下列錯誤。
2.然後找到KB文檔https://kb.vmware.com/articleview?docid=2056299&lang=zh_CN,認爲無法安裝vcenter server代理服務的原因可能是第三方 VIB 爲 vmware-fdm 代理創建了依賴關係,導致 vCenter Server 無法移除該代理並安裝新版本的 FDM 代理。
(嘗試從ESXI主機上刪除FDM代理 esxcli software vib remove -n vmware-fdm)
【注意 所有VIB的操作需要主機處於維護模式,否則可能會導致主機出現錯誤,使得業務中斷。而此處是僅處理FDM代理,不是刪除VIB】
(刪除失敗,提示設備沒有空間,然後看下事件,/tmp目錄無法寫入文件)
3.發現/ tmp目錄中的“ ams-bbUsg.txt”文件佔用很大空間如256M,導致/ tmp目錄文件系統滿,導致其他應用程序依賴於tmp的也無法寫入文件,導致應用程序異常報錯。
4.這是由於HPE服務器運行的AMS,使得AMS的日誌填充會導致tmp目錄文件系統不斷增大,因爲空間滿引起VMware Update Manager更新失敗以及ESXi主機無響應。
受影響的服務器型號:
HPE Gen9/10 服務器
受影響的操作系統版本:
VMwareESXi 6.0 or VMware ESXi 6.5 or VMware ESXi 6.7
導致問題出現的軟件AMS版本:
11.4.0版本
5.解決方案:
- 臨時方案 可以定期刪除"ams-bbUsg.txt"file in the /tmp 以釋放文件系統空間,對VMware VSAN和VMware vSphere環境來說,定期清理ams-bbusg.txt文件,不會引起任何風險,而且可以在線操作。可以使用echo ' ' > ams-bbusg.txt 命令將文件大小置零(推薦使用該方式);也可以直接刪除ams-bbusg.txt文件。
- 永久解決方案(需將主機處於維護模式)
通過升級VMware AMS to version 11.4.5(included in the HPE Offline Bundle forESXi version 3.4.5),此版本已明確修復AMS filling up tmp andcausing VUM updates to Fail
安裝方法如下:
(1)關閉或遷移虛擬機將主機進入維護模式
(2)上傳esxi6.0uX-mgmt-bundle-3.4.5-8.zip到主機
(3)#esxcli software vib install -d <ESXi localpath><bundle.zip>
(4)重啓生效,通過esxcli software vib list | grep ams確認升級的AMS版本
相關參考鏈接:
ESXi 系統tmp目錄100% 導致其依賴/tmp的程序無法寫入文件:https://www.jianshu.com/p/b28346e76e45
HPE服務器AMS11.4.0導致/tmp問題:https://support.hpe.com/hpesc/public/docDisplay?docId=emr_na-a00073323en_us
無法正確安裝或配置 vSphere HA 代理的KB之一:https://kb.vmware.com/articleview?docid=2056299&lang=zh_CN