raid5兩塊硬盤離線數據恢復案例

Riad數據恢復故障概述

北京某公司的一臺存儲掛載了raid5磁盤陣列,正常使用中存儲忽然崩潰,經管理員檢查發現raid5陣列中有兩塊硬盤離線,陣列中共兩塊熱備盤其中一塊熱備盤激活失敗,raid5陣列癱瘓導致存儲無法使用。需要進行基於raid5磁盤陣列的數據恢復操作。

Raid5陣列數據恢復檢測:

硬件工程師首先對raid中兩塊離線硬盤進行物理檢測,硬盤無物理故障,無壞道。該存儲上層共一個lun用於sun小機使用,ZFS文件系統。

Raid5陣列數據恢復過程

1、備份數據
按照數據恢復流程對所有磁盤進行全盤鏡像,工程師使用數據恢復工具將所有磁盤都鏡像成文件,然後將備份數據將520字節的扇區轉換爲512字節扇區,以方便後期數據恢復操作。


2、分析RAID組結構

根據磁盤陣列的工作模式我們知道LUN都是基於RAID組的,因此需要先分析底層RAID組的信息,然後根據分析的信息重構原始的RAID組。工程師對所有磁盤進行分析發現8號盤的Hot Spare替換了5號盤的壞盤。但另一塊熱備盤並未激活,所以數據未同步。繼續分析其他10塊硬盤,分析數據在硬盤中分佈的規律,RAID條帶的大小,以及每塊磁盤的順序。


3、分析RAID組掉線盤

根據上述分析的RAID信息,仔細分析每一塊硬盤中的數據,發現有一塊硬盤在同一個條帶上的數據和其他硬盤明顯不一樣,因此初步判斷此硬盤可能是最先掉線的,工程師使用一款自用的RAID校驗程序對這個條帶進行校驗發現除掉剛纔分析的那塊硬盤得出的數據是最好的,因此可以明確最先掉線的硬盤了。

4、分析RAID組中的LUN信息並解釋文件系統

通過重組的raid分析lun的分配情況和數據塊,使用數據恢復軟件進行lun所有數據,然後對導出的lun進行解析文件系統操作。正常情況下此時即可恢復數據。但解析文件系統報錯,工程師對文件進行手動檢查發現部分元文件損壞導致了系統無法自動解析。
上述分析明確了ZFS文件系統因存儲癱瘓導致部分文件系統元文件損壞,因此需要對這些損壞的文件系統元文件做修復,才能正常解析ZFS文件系統。分析損壞的元文件發現,因當初ZFS文件正在進行IO操作的同時存儲癱瘓,導致部分文件系統元文件沒有更新以及損壞。人工對這些損壞的元文件進行手工修復,保證ZFS文件系統能夠正常解析。

5、導出raid陣列所有數據

利用程序對修復好的ZFS文件系統做解析,解析所有文件節點及目錄結構。導出,數據恢復成功。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章