災備小記

容錯,高可用和災備

容錯:發生故障時,如何讓系統繼續運行。

高可用:系統中斷時,如何儘快恢復。

災備:系統毀滅時,如何搶救數據。

容錯

容錯(fault tolerance)指的是, 發生故障時,系統還能繼續運行。

飛機有四個引擎,如果一個引擎壞了,剩下三個引擎,還能繼續飛,這就是“容錯”。同樣的,汽車的一個輪子扎破了,剩下三個輪子,也還是勉強能行駛。

容錯的目的是,發生故障時,系統的運行水平可能有所下降,但是依然可用,不會完全失敗。

高可用

高可用(high availability)指的是, 系統能夠比正常時間更久地保持一定的運行水平。

汽車的備胎就是一個高可用的例子。如果沒有備胎,輪胎壞了,車就開不久了。備胎延長了汽車行駛的可用時間。

注意,高可用不是指系統不中斷(那是容錯能力),而是指一旦中斷能夠快速恢復,即中斷必須是短暫的。如果需要很長時間才能恢復可用性,就不叫高可用了。上面例子中,更換備胎就必須停車,但只要裝上去,就能回到行駛狀態。

災備

災備(又稱災難恢復,disaster recovery)指的是, 發生災難時恢復業務的能力。

上圖中,飛機是你的 IT 基礎設施,飛行員是你的業務,飛行員彈射裝置就是災備措施。一旦飛機即將墜毀,你的基礎設施就要沒了,災備可以讓你的業務倖存下來。

災備的目的就是,保存系統的核心部分。一個好的災備方案,就是從失敗的基礎設施中獲取企業最寶貴的數據,然後在新的基礎設施上恢復它們。注意,災備不是爲了挽救基礎設置,而是爲了挽救業務。

 

災備等級

根據恢復的目標與需要的成本投入,災備大體可以分爲三個等級,可以用三個嵌套的同心圓表示,從數據級災備、應用級災備到業務級災備,業務恢復等級逐步提高,而需要的投資費用也相應增長。

數據級災備強調數據的備份和恢復,包括數據的複製、備份、恢復等在內的數據級災備是所有災備工作的基礎。

應用級災備強調應用的具體功能接管,它提供比數據級災備更高級別的業務恢復能力,同時也是業務級災備的基礎,只有具體應用得到恢復,後續的業務纔能有效進行。

業務級災備是最高級別的災備建設,如果說數據級災備、應用級災備都是在IT系統的範疇之內,業務級災備則是在以上兩個等級的災備基礎上,還需考慮到IT系統之外的業務因素,包括備用辦公場所、辦公人員等,而且業務級災備通常對支持業務的IT系統會有更高的要求(RTO在分鐘級)。

 

災難恢復衡量指標

在災難恢復方面,組織會考慮二個方面的目標恢復能力:RTO與RPO。

RTO(Recovery Time Objective)恢復時間目標:指所能容忍的業務停止服務的最長時間,也就是從災難發生到業務系統恢復服務功能所需要的最短時間週期,而且RTO針對的是造成中斷的事件,並不一定是災難事件。RTO值越小就意味着所要求的恢復能力越強。

RPO(Recovery Point Objective)恢復點目標:指的是業務系統所能容忍的數據丟失量。如果RPO等於零,就意味着要求數據零丟失。否則爲了恢復業務處理,就需要對丟失數據進行修復或追補。

RTO針對的是服務丟失,RPO針對的是數據丟失,二者沒有必然的關聯性。RTO和RPO的確定必須在進行風險分析和業務影響分析後根據不同的業務需求確定,對於不同企業的同一種業務,RTO和RPO的需求也會有所不同。

 

參考

災備行業最全常用術語 僅此一份

容錯,高可用和災備

發佈了932 篇原創文章 · 獲贊 1224 · 訪問量 566萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章