爲驗證AIX HACMP集羣系統的穩定***及保障其上應用的連續***和可靠***,決定週五晚進行集羣切換測試。下面是當次過程的文檔總結和記錄,方便以後參考並備案。
系統環境:AIX 5.3
數據庫: DB2 V8.2
存儲: IBM DS4700,爲兩節點配置使用共享存儲
HA測試一: 啓動和關閉
在當前系統中確保VG在兩邊都被varyoff
#smitty clstart 啓動HA
tail –f /tmp/hacmp.out 看啓動輸出信息
tail –f /tmp/cm.log 看錯誤信息
netstat –i 和 –in 看IP地址是否變爲service地址
lsvg –o 查看VG是否在兩臺機器上被varyon
l***c –g cluster 看相應SRC是否起來(應該顯示2或3個SRC)
如:Subsystem Group PID Status
clsmuxpdES cluster 213488 active
clstrmgrES cluster 238062 active
clinfoES cluster 229656 active
#smitty clstop 關閉HA
graceful(正常)/takeover(接管)/force(強制,IP不變回boot)
這裏就選graceful
tail –f /tmp/hacmp.out 看關閉輸出信息
tail –f /tmp/cm.log看錯誤信息
netstat –i 和 –in看IP地址是否變爲boot地址
l***c –g cluster看相應SRC是否已關閉(應該無顯示)
使用Cluster Snapshot可以保存當前Cluster配置,以後直接Apply就可恢復。
HA測試二:本機IP接管
確定兩臺機器HA已正常啓動。
拔去與主機service IP關聯的網卡的網線。
在主機上運行:
netstat –i 和 –in
這時standby網卡將接管service IP而原service網卡將對應standby IP。
備機不發生任何反應。
插回主機上拔去的網線並運行:
netstat –i 和 –in
這時主機沒有任何復原動作,原standby網卡仍對應service IP而原service網
卡仍對應standby IP,即便關閉HA也不會變回來。
要使網卡恢復最初的對應IP,可以運行:
smitty mktcpip
選定網卡(en0, en1, ... ),不作任何改動回車。
HA測試三:資源接管
確定兩臺機器HA已正常啓動。
模擬主機異常終止運行:
方法一:主機上運行:
smitty clstop 關閉方式選takeover
這種測試是主動告訴對方需要接管,並不是真正模擬了故障,可以
在進行真正故障模擬之前先進行這一步測試。
方法二:主機上運行halt –q即時關機(最佳方法)。
方法三:同時拔去主機所有網線和心跳線。
方法四:主機拔電(不建議)。
在備機上運行:
netstat –i 和 –in
如果備機也有service網卡(在cascading,即mutual takeover配置下),這時備機
的standby網卡將接管主機的service IP;
如果備機沒有service網卡(在rotating,即standby配置下),這時備機的boot網
卡將接管主機的service IP。
當備機有svc地址:
這是資源組會在備機上掛起來,如果沒有掛上,則在備機上運行:
varyonvg datavg
mount -a (或一個一個的掛)
在resource group中定義的FS應該在備機上自動mount。
最後測試應用是否正常,完成集羣切換測試報告。