在雲平臺中物理節點異常是否立即遷移到其他可用資源節點?還是人爲干預? 手動恢復異常節點的雲主機...?
自動遷移實現不難,難就難在如何定位故障?物理機異常有N種假設:
網絡故障:交換機端口異常,廣播風暴... 這種現象將會導致多節點異常?如果這種故障實現自動遷移將會帶來意外風險
服務異常:MQ 消息積壓,磁盤寫滿,將會導致所有節點無法正常通信,如果這種故障實現自動遷移帶來意外風險
軟件異常:後端存儲節點服務down ,monitor 異常,將會導致雲主機無法正常work, 如何定位VM 故障,是否遷移?
硬件故障:如果定位物理節點硬件故障,如硬盤故障,CPU Crash