一次心驚肉跳的服務器誤刪文件的恢復過程

寫在前面:

前幾天有位運維童鞋在後臺留言跟小派說:“哥,能不能寫個文件誤刪恢復的教程啊(嗯,小派明明是妹子,卻被口口聲聲地喊“哥”了,好吧,反正哥也不介意);

小派:0?wx_fmt=gif&wxfrom=5&wx_lazy=10?wx_fmt=gif&wxfrom=5&wx_lazy=10?wx_fmt=gif&wxfrom=5&wx_lazy=10?wx_fmt=gif&wxfrom=5&wx_lazy=1哥,一定要記得備份啊

運維童鞋:就是刪了備份的0?wx_fmt=gif&wxfrom=5&wx_lazy=1

小派:你刪了什麼文件?linux下的嗎?(真心替這哥們着急)

運維童鞋:centos 普通文本,心好累,還是生產環境

………………

最後這位運維童鞋去找恢復軟件了,不知道進展的順不順利?

做運維,誤刪文件是一件多麼痛的領悟,做好備份是必須的,萬一連備份都沒有了,當然要學會運用各種方法嘗試恢復,下面我們一起來看看一次心驚肉跳的服務器誤刪文件的恢復過程!

---------開始了--------


經歷了兩天不懈努力,終於恢復了一次誤操作刪除的生產服務器數據。對本次事故過程和解決辦法記錄在此,警醒自己,也提示別人莫犯此錯。也希望遇到問題的朋友能找到一絲靈感解決問題。


事故背景


安排一個妹子在一臺生產服務器上安裝Oracle,妹子邊研究邊安裝,感覺裝的不對,準備卸載重新安裝。從網上找到卸載方法,其中要執行一行命令刪除Oracle的安裝目錄,命令如下:


rm -rf $ORACLE_BASE/*


如果ORACLE_BASE這個變量沒有賦值,那命令就變成了


rm -rf /*


==||,妹子使用的可是root賬戶啊。就這樣,把整個盤的文件全部刪除了,包括應用Tomcat、MySQL數據庫 and so on……


(mysql數據庫不是在運行嗎?linux 能刪除正在執行的文件?反正是徹底刪除了,最後還剩一個tomcat的log文件,估計是文件過大,一時沒有刪除成功)

640?wx_fmt=jpeg&wxfrom=5&wx_lazy=1

看着妹子自責的眼神,又是因爲這事是我安排她做的,也沒有跟她講清厲害關係,沒有任何培訓,責任只能一個人背了,況且怎麼能讓美女揹負這個責任呢?

打電話到機房,將盤掛到另一臺服務器上,ssh上去查看文件全部被清,這臺服務器運行的可是一個客戶的生產系統啊,已經運行大半年了,得儘快恢復啊。於是找來脫機備份的數據庫,發現備份文件只有1kb,裏面只有幾行熟悉的mysqldump註釋(難道是crontab執行的備份腳本有問題),最接盡的備份也是2013年12月份的了,真是屋漏偏逢連夜雨啊。

想起來一位領導說過的案例:當一個生產系統掛掉以後,發現所有備份都有問題,刻錄的光盤也有劃痕,磁帶機也壞了(一個業界前輩,估計以前還用光盤做備份了),沒想到今天真的應驗到我的身上了,怎麼辦??

部門領導知道情況後,已經做了最壞的B計劃:領導親自帶隊和產品AA週日趕到客戶所在的地市,星期一去領導層溝通;BB和CC去客戶管理員那邊想辦法說服客戶……

救命稻草–ext3grep


趕快到網上去查資料進行誤刪數據恢復,還真找到一款ext3grep能夠恢復通過 rm -rf 刪除的文件,我們磁盤也是ext3格式,且網上有不少的成功案例。於是燃起了一絲希望,趕快對盤umount,防止重新寫入補刪文件扇區。下載ext3grep,安裝(編譯安裝過程艱辛暫且不表)。


先執行掃描文件名命令:


ext3grep /dev/vgdata/LogVol00 --dump-names


打印出了所有被刪除文件及路徑,心中狂喜,不用執行B計劃了,文件都在呢。

這款軟件不能按目錄恢復文件,只能執行恢復全部命令:

ext3grep /dev/vgdata/LogVol00 --restore-all


結果當前盤空間不足,沒辦法只能恢復文件,嘗試了幾個文件,居然部分成功部分失敗


ext3grep /dev/vgdata/LogVol00 --restore-file var/lib/mysql/aqsh/tb_b_attench.MYD


心裏不禁一涼,難道是刪除磁盤上被寫過文件了?恢復機率不大了啊,能恢復幾個算幾個吧,說不定重要數據文件剛好在能恢復的MYD文件中。於是先將所有文件名重定向到一個文件文件中


ext3grep /dev/vgdata/LogVol00 --dump-names >/usr/allnames.txt


過濾出來所有mysql數據庫的文件名存成,mysqltbname.txt

編寫腳本恢復文件:

while read LINE

do

    echo "begin to restore file " $LINE

    ext3grep /dev/vgdata/LogVol00 --restore-file $LINE

    if [ $? != 0 ]

    then

        echo "restore failed, exit"

       # exit 1

    fi

done < ./mysqltbname.txt


執行,大概運行了20分鐘,恢復了40多個文件,但不夠啊,我們將近100張表,每張表frm,myd,myi三個文件,怎麼說也有300多個左右啊!!將找回來的文件附到現有數據庫上,更要文件權限爲777後,重啓mysql,也算是找回一部分數據了,但客戶重要的考勤簽到數據、手機端上報數據(據說客戶按這些數據做員工績效的)還沒找回來啊。

640?wx_fmt=jpeg&wxfrom=5&wx_lazy=1

咋 辦?中間又試了另一款工具extundelete,跟ext3grep語法基本一致,原理應該也一樣了,但是據說能按目錄恢復,好吧試一試。


extundelete /dev/vgdata/LogVol00 --restore-directory var/lib/mysql/aqsh


果然不出所料,恢復不出來!!!!!!!!那些文件已被破壞了。跟領導彙報,執行B計劃吧。。。無奈之下下班回家(週末了,回去休息一下,想想辦法吧)


靈機一動:binlog


第二天早晨一早就醒了(心裏有事啊),背上電腦,去公司(這個週末算是報銷了,不挨批,通報,罰款,開除就不錯了,還過什麼週末啊)。


依舊運行ext3grep,extundelete,也就那幾招啊,把系統架到測試服務器上,看看數據能不能想辦法補一補吧。在測試服務器上進行mysqldump,恢復文件,覆蓋恢復回來的文件,給文件加權限,重啓mysql。


wait,wait,不是有binlog嗎?我們服務都要求開啓binlog,說不定能通過binlog裏恢復數據呢?


於是從dump出來的文件名裏找到binlog的文件,一共三個,mysql-binlog0001,mysql-bin.000009,mysql-bin.000010,恢復一下0001


ext3grep /dev/vgdata/LogVol00 --restore-file var/lib/mysql/mysql-bin.000001


居然失敗了。。。。。。


再看另兩個文件,mysql-bin.000010大概幾百MB,應該靠譜一點,執行還原命令,居然成功了!!!!!!!!!!!!!


趕快scp到測試服務器。執行binlog還原。


mysqlbinlog /usr/mysql-bin.000010 | mysql -uroot -p


輸入密碼,卡住了(好現象),經過漫長的等待,終於結束了。打開應用,哦,感謝cctv,mtv,數據回來了!!!!!!!!!!!!!!!

640?wx_fmt=jpeg&wxfrom=5&wx_lazy=1

後記


經過此次事故,雖然數據很幸運能找回來了,但是過程卻是驚心動迫。也爲自己的錯誤所帶來的後果,給同事和領導帶來的連帶責任而後怕。也希望謹記此次事故,以後不再犯同樣的錯誤。事故反思如下:


1.本次安排MM進行服務器維護時沒有提前對她進行說明厲害情況,自己也未重視,管理混亂,流程混亂。一個在線的生產系統,任何一個改動一定要先謀而後動。


2.自動備份出現問題,沒有任何人檢查。脫機備份人員每次從服務器上下載1k的文件卻從未重視。需要明確大家在工作崗位上的責任。


3.事故發生後,沒有及時發現,造成部分數據寫入磁盤,造成不可恢復問題。需要編寫應用監控程序,服務一旦有異常,短信告警相關責任人。


根據評論提醒,再加一條:


4.不能使用root用戶來操作。應該在服務器上開設不同權限級別的用戶。


通過本次事故,幾位跟這個項目和事故沒有任何關係的同事,主動前來幫忙,查資料,幫測試,有一位同事還幫忙到晚上1點多鐘進行數據恢復測試。同時產品經理在想到面向客戶的巨大壓力的情況下,沒有慌亂而責怪開發人員和具體操作人,而讓大家能靜下心來想解決方案。部門領導也積極主動的幫忙想辦法,陪我們加班測試,實時跟蹤事情進程。


通過大家的共同努力,終於事情相對圓滿結束,接下來,週一上午進行集體反思,總結經驗教訓,這類事故一定儘量大努力進行避免。


傳送門


本文所用到的工具鏈接:

1.ext3grep:https://code.google.com/p/ext3grep/

編譯安裝依賴包比較多,可以到網上搜索如何安裝。可惜的是作者給出的howto被牆了,我FQ將how to 的pdf文檔下載下來了,讀完後你將會對linux的文件系統有進一步的認識。下載howto。

這個工具有一個bug,出錯後不會向下執行ext3grep: init_directories.cc:534: void init_directories(): Assertion `lost_plus_found_directory_iter != all_directories.end()’ failed.,從而造成恢復失敗,作者放出了一個補丁。不明白爲什麼作者新版沒有把這個補丁加進去。

2.extundelete:http://extundelete.sourceforge.net/

功能跟ext3grep差不多,原理應該也差不多。只是號稱可以還原目錄,我這裏沒有試驗成功。

文章出處:老周's布落格

原文鏈接:http://www.cnblogs.com/zhouyu629/p/3734494.html


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章