新來的妹紙rm -rf把公司整個數據庫刪沒了，整個項目組慌了~

經歷了兩天不懈努力，終於恢復了一次誤操作刪除的生產服務器數據。

對本次事故過程和解決辦法記錄在此，警醒自己，也提示別人莫犯此錯。

也希望遇到問題的朋友能找到一絲靈感解決問題。

01事故背景**

安排一個妹子在一臺生產服務器上安裝 Oracle，妹子邊研究邊安裝，感覺裝的不對，準備卸載重新安裝。

從網上找到卸載方法，其中要執行一行命令刪除 Oracle 的安裝目錄，命令如下：

rm -rf $ORACLE_BASE/*

如果 ORACLE_BASE 這個變量沒有賦值，那命令就變成了：

rm -rf /*

等等，妹子使用的可是 Root 賬戶啊。就這樣，把整個盤的文件全部刪除了，包括應用 Tomcat、MySQL 數據庫 and so on……

MySQL 數據庫不是在運行嗎？Linux 能刪除正在執行的文件?反正是徹底刪除了，最後還剩一個 Tomcat 的 Log 文件，估計是文件過大，一時沒有刪除成功。

看着妹子自責的眼神，又是因爲這事是我安排她做的，也沒有跟她講清厲害關係，沒有任何培訓，責任只能一個人背了，況且怎麼能讓美女揹負這個責任呢？

打電話到機房，將盤掛到另一臺服務器上，SSH 上去查看文件全部被清，這臺服務器運行的可是一個客戶的生產系統啊，已經運行大半年了，得儘快恢復啊。

於是找來脫機備份的數據庫，發現備份文件只有 1KB，裏面只有幾行熟悉的 mysqldump 註釋（難道是 Crontab 執行的備份腳本有問題），最接近的備份也是 2013 年 12 月份的了，真是屋漏偏逢連夜雨啊。

想起來一位領導說過的案例：當一個生產系統掛掉以後，發現所有備份都有問題，刻錄的光盤也有劃痕，磁帶機也壞了（一個業界前輩，估計以前還用光盤做備份了），沒想到今天真的應驗到我的身上了，怎麼辦？

部門領導知道情況後，已經做了最壞的 B 計劃：領導親自帶隊和產品 AA 週日趕到客戶所在的地市，星期一去領導層溝通；BB 和 CC 去客戶管理員那邊想辦法說服客戶……

02救命稻草：ext3grep**

趕快到網上去查資料進行誤刪數據恢復，還真找到一款 ext3grep 能夠恢復通過 rm -rf 刪除的文件，我們磁盤也是 ext3 格式，且網上有不少的成功案例。

於是燃起了一絲希望，趕快對盤 umount，防止重新寫入補刪文件扇區。下載 ext3grep，安裝（編譯安裝過程艱辛暫且不表）。

先執行掃描文件名命令：

ext3grep /dev/vgdata/LogVol00 --dump-names

打印出了所有被刪除文件及路徑，心中狂喜，不用執行 B 計劃了，文件都在呢。

這款軟件不能按目錄恢復文件，只能執行恢復全部命令：

ext3grep /dev/vgdata/LogVol00 --restore-all

結果當前盤空間不足，沒辦法只能恢復文件，嘗試了幾個文件，居然部分成功部分失敗：

ext3grep /dev/vgdata/LogVol00 --restore-file var/lib/mysql/aqsh/tb_b_attench.MYD

心裏不禁一涼，難道是刪除磁盤上被寫過文件了？恢復機率不大了啊，能恢復幾個算幾個吧，說不定重要數據文件剛好在能恢復的 MYD 文件中。

於是先將所有文件名重定向到一個文件文件中：

ext3grep /dev/vgdata/LogVol00 --dump-names >/usr/allnames.txt

過濾出來所有 MySQL 數據庫的文件名存成 mysqltbname.txt。

編寫腳本恢復文件：

while read LINE  
do  
    echo "begin to restore file " $LINE  
    ext3grep /dev/vgdata/LogVol00 --restore-file $LINE  
    if [ $? != 0 ]  
    then  
        echo "restore failed, exit"  
    fi  
done < ./mysqltbname.txt

執行，大概運行了 20 分鐘，恢復了 40 多個文件，但不夠啊，我們將近 100 張表，每張表 frm，myd，myi 三個文件，怎麼說也有 300 多個左右啊！

將找回來的文件附到現有數據庫上，更要文件權限爲 777 後，重啓 MySQL，也算是找回一部分數據了，但客戶重要的考勤簽到數據、手機端上報數據（據說客戶按這些數據做員工績效的）還沒找回來啊。

咋辦？中間又試了另一款工具 extundelete，跟 ext3grep 語法基本一致，原理應該也一樣了，但是據說能按目錄恢復。

好吧，試一試：

extundelete /dev/vgdata/LogVol00 --restore-directory var/lib/mysql/aqsh

果然不出所料，恢復不出來！！！！！！！！那些文件已被破壞了。跟領導彙報，執行 B 計劃吧……無奈之下下班回家。（週末了，回去休息一下，想想辦法吧）

03靈機一動：Binlog**

第二天早晨一早就醒了（心裏有事啊），背上電腦，去公司（這個週末算是報銷了，不挨批，通報，罰款，開除就不錯了，還過什麼週末啊）。

依舊運行 ext3grep，extundelete，也就那幾招啊，把系統架到測試服務器上，看看數據能不能想辦法補一補吧。

在測試服務器上進行 mysqldump，恢復文件，覆蓋恢復回來的文件，給文件加權限，重啓 MySQL。

Wait，Wait，不是有 Binlog 嗎？我們服務都要求開啓 Binlog，說不定能通過 Binlog 裏恢復數據呢？

於是從 Dump 出來的文件名裏找到 Binlog 的文件，一共三個：

mysql-binlog0001
mysql-bin.000009
mysql-bin.000010

恢復一下 0001：

ext3grep /dev/vgdata/LogVol00 --restore-file var/lib/mysql/mysql-bin.000001

居然失敗了……再看另兩個文件，mysql-bin.000010 大概幾百 MB，應該靠譜一點，執行還原命令，居然成功了！

趕快 SCP 到測試服務器。執行 Binlog 還原：

mysqlbinlog /usr/mysql-bin.000010 | mysql -uroot -p

輸入密碼，卡住了（好現象），經過漫長的等待，終於結束了。打開應用，哦，感謝 CCTV，MTV，數據回來了！

04後記**

也希望謹記此次事故，以後不再犯同樣的錯誤。事故反思如下：

本次安排 MM 進行服務器維護時沒有提前對她進行說明厲害情況，自己也未重視，管理混亂，流程混亂。一個在線的生產系統，任何一個改動一定要先謀而後動。
自動備份出現問題，沒有任何人檢查。脫機備份人員每次從服務器上下載 1K 的文件卻從未重視。需要明確大家在工作崗位上的責任。
事故發生後，沒有及時發現，造成部分數據寫入磁盤，造成不可恢復問題。需要編寫應用監控程序，服務一旦有異常，短信告警相關責任人。
根據評論提醒，再加一條：不能使用 Root 用戶來操作。應該在服務器上開設不同權限級別的用戶。

通過本次事故，分享下本文所用到的工具鏈接：

功能跟 ext3grep 差不多，原理應該也差不多。編譯安裝依賴包比較多，可以到網上搜索如何安裝。

最後，希望各位同行的小夥伴們能謹記本文事件，開心敲代碼，永遠不出錯～

新來的妹紙rm -rf把公司整個數據庫刪沒了，整個項目組慌了~

01事故背景**

02救命稻草：ext3grep**

03靈機一動：Binlog**

04後記**

手把手教你給 SSH 啓用二次身份驗證

你真的知道如何查看linux目錄大小嗎？

面試官：爲什麼單線程的Redis可以實現高併發訪問

一次完整的 Http 請求過程

Docker 容器默認root賬號運行，很不安全！

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結