昨天ibm磁盤陣列更換一塊損壞的硬盤(11號硬盤),廠家換上去的硬盤數據同步失敗(12磁盤 ==》11磁盤),而且發現磁陣中的熱備盤也無顯示同步失敗,幾小時後連接存儲的相關oracle數據庫RAC1開始大量報錯,節點2直接dg 不能mount掛掉了,rac1日誌:
Reread of rdba: 0x03801dbb (file xx, block xxxx) found same corrupted data --xx和xxxx每次報錯不相同
重啓rac2無法讀取controlfile 文件。重啓rac1,mount不上,一直停留在
SMON: enabling tx recovery
還會出現
MMNL absent for 1211 secs; Foregrounds taking over
查看trace文件,發現arch進程超時,還是硬盤問題。
查看之前的備份日誌,備份在本地還算正常。dd測試讀共享存儲的sde和sdd硬盤,不行。索性rac1重啓,機器重啓後,oracle正常打開,趕緊rman備份,看來應該是主機跟存儲的連接問題。
嚴重懷疑12磁盤中有壞快,一組RAID卷在工作很長時間以會在沒有讀到的區域或者以前讀取是良好的區域產生壞道,這類壞道因爲沒有讀寫過,所以在控制器看來是好的。產生這種壞磁道的最直接危害是在REBUILD過程中。當一塊物理硬出現問題後,一般都考慮REBUILD,REBUILD是對全盤做全面同步,那些壞道會被讀到,這時候REBUILD不能完成,新盤無法上線,因舊盤裏又發現了壞道,出現上下兩難的情況。
(1)更換磁盤前備份是最重要的
(2)不要把所有磁盤做一組raid 大家一起用 分開做麼 raid5 --》log raid 10 --》datafile,不是很好麼
(3)磁陣問題,解決不了,備份後重啓試試
如確定後離線的硬盤,可通過強制上線恢復數據(有些控制器沒有選項,就沒辦法了)
另外,同步時候 主機和磁陣連接應該出現問題了,看應用日誌同步失敗後速度越來愈慢,越來越慢,最後4小時候出現不能讀寫的問題