處理某客戶p570硬盤故障所思



p570,硬盤故障。

機器有兩個vg,rootvg和datavg,rootvg未做鏡像,datavg已做鏡像。系統errpt和HMC報硬盤有問題,查看錯誤代碼可能是硬盤有壞道(壞塊),在儘量保全用戶數據的前提下,要解決此問題。

先是想到把datavg的鏡像解除,把空出來的hdisk2分配到rootvg給有故障的盤做mirror。在經過很長一段時間的同步之後,查看rootvg裏面的Lv狀態時可以看到除了hd1即/home還是stale狀態外,其它LV都已經是syncd狀態。然後爲保險起見把整個/home分區都tar到datavg的一個分區裏面,因爲耗時比較久同時也可能是因爲有壞道,所以此操作進行了很久而且IO等待很高,而且執行df -g,iostat,vmstat等命令都等待了很久,完全就是卡住了,於是決定等第二天繼續處理。

第二天早上查看此機器的狀態,lsvg -l rootvg發現除了/home之外也有很多分區也變成了stale狀態,同時lsvg查看到有故障的hdisk0已經是missing狀態,完全已經不可操作了。又一次嘗試把/home下面的一些文件和文件夾tar到datavg裏面,準備把/home分區重建一下。嘗試使用rmlv,rmfs都失敗,提示只有最後的一塊好的盤系統無法保證vg完整而拒絕rmlv,rmfs。給rootvg unmirror成功,但是在給/home分區rmlvcopy的時候一樣提示失敗。同時使用lspv -M命令查看到hdisk1上只有兩個LP是stale的狀態,而查看hdisk0時看到正好對應的兩個LP是好的,於是想着把hdisk0上這兩塊好的LP直接遷移到hdisk1上去,使用mirgratelp命令,但是在遷移過程中卡死,ctrl+c中止掉,後面就發現/home的LV的PVs變成了3,非常奇怪的問題。再嘗試把hdisk0直接從rootvg中reduce掉,執行reducevg提示上面一樣的錯誤,想換盤都不行了。後面實在無法了,準備嘗試重啓一下機器看。

重啓後,在HMC裏面看到,該分區的啓動報錯誤代碼0552,重新選一塊hdisk啓動依然報0552。於是只能從網絡引導分區,引導進去之後已經看不到原來的hdisk0這塊硬盤,importvg都不行,提示VGDA信息有問題。同時用於管理這幾臺小機的HMC也掛掉了,不能用了,圖形界面始終無法顯示出來,重啓HMC之後故障依舊,只能把這個分區掛到另外一臺HMC上使用。最後嘗試各種方法都無法恢復系統本身,於是只能選擇重裝AIX。

這個案例告訴我們重要數據一定要做備份。案例中rootvg沒鏡像,小機也沒連磁帶機,也從來沒有用mksysb做過系統的備份。雖然這是個開發測試機,但是oracle的數據居然是直接放在/home下面,不說用裸設備,至少要分另外一塊硬盤的一個單獨的LV出來用作oracle的數據分區。硬件故障是不可避免的,而用戶沒做備份這就有點說不過去了,所以對硬件不要太依賴,重要的數據一定要做備份。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章