Oracle Solaris Cluster 4.4 Quorum故障處理

朋友新建的一套osc 4.4環境,安裝配置完成後,執行cluster status命令時,會夯住,如下圖所示:
Oracle Solaris Cluster 4.4 Quorum故障處理
查看系統日誌,發現如下報錯:

Dec  2 09:31:10 sol04 genunix: [ID 108990 kern.notice] NOTICE: CMM: Cluster members: sol03 sol04.
Dec  2 09:31:10 sol04 genunix: [ID 279084 kern.notice] NOTICE: CMM: node reconfiguration #4 completed.
Dec  2 09:31:16 sol04 genunix: [ID 670799 kern.warning] WARNING: CMM: Registering reservation key on quorum device /dev/did/rdsk/d5s2 failed with error 2.
Dec  2 09:31:16 sol04 genunix: [ID 868277 kern.warning] WARNING: CMM: Erstwhile online quorum device /dev/did/rdsk/d5s2 (qid 1) is inaccessible now.

從日誌中判斷,跟quorum相關。使用clq命令查看quorum設備信息,如下圖:
Oracle Solaris Cluster 4.4 Quorum故障處理
由圖中得知,d5的Access Mode爲scsi3。對於access mode官方的解釋(Doc ID 1008224.1)如下圖:
Oracle Solaris Cluster 4.4 Quorum故障處理
查看d5的路徑,確認其由兩個路徑組成,如下圖:
Oracle Solaris Cluster 4.4 Quorum故障處理
Solaris Cluster 3.1之前的版本,默認的global_fencing值爲"pathcount",而3.2之後的版本,官方推薦使用SCSI-3。查看默認的global_fencing值,如下圖:
Oracle Solaris Cluster 4.4 Quorum故障處理
設置global_fencing的值,如下:

root@sol04:~# cluster set -p global_fencing=pathcount              
root@sol04:~# cluster show -t global

Oracle Solaris Cluster 4.4 Quorum故障處理
最後,從quorum中刪除d5,先設置d5的access mode爲nofencing,再設置爲global,最後再添加到quorum中,如下:

root@sol04:~# clq remove d5
root@sol04:~# cldevice set -p default_fencing=nofencing 5
root@sol04:~# cldevice set -p default_fencing=global 5
root@sol04:~# clq add d5
root@sol04:~# clq show

Oracle Solaris Cluster 4.4 Quorum故障處理
到此,整個故障完美解決。
其他設備的defaultfencing設置可以使用下面的命令檢查:

root@sol04:~# scdidadm -L -o instance -o defaultfencing -o detectedfencing -o fullpath

Oracle Solaris Cluster 4.4 Quorum故障處理
集羣的fencing protocol可以使用下面的命令驗證:

root@sol04:~# scdidadm -G
The cluster is currently configured to use DID path count algorithm to determine fencing protocol for shared devices.
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章