重複數據刪除技術簡介+各廠商重複數據刪除的簡單介紹

 雖然存儲的售價一直都在不停的下降,但也遠遠趕不上公司內需要保存和備份的數據量的攀升速度。由於存儲器管理人員急需降低備份數據量,重複數據刪除(data de-duplicantion)技術從而成爲近來十分熱門的技術。這項技術是否像廠商所宣稱的那樣神奇呢?讓我們一起了解重複數據刪除技術。

(1)什麼是重複數據刪除技術

  首先,重複數據刪除技術不同於普通的壓縮技術。壓縮是通過壓縮算法消除文件內的冗餘數據來縮減文件大小,而重複數據刪除是通過算法消除分佈在存儲系統中的相同文件或者數據塊。

  其次,重複數據刪除也不同於普通的增量備份。增量備份的要旨是隻備份新產生的數據,而重複數據刪除技術的關鍵是隻保留唯一的數據實例,所以重複數據刪除技術在減少數據存儲量方面更加有效。大部分廠商聲稱其重複數據刪除產品能將數據縮減到正常容量的1/20。重複數據刪除技術的基本原理是將數據分塊篩選,找出相同的數據塊並以指向唯一實例的指針取代。   

  重複數據刪除技術是一種數據縮減技術,通常用於基於磁盤的備份系統,旨在減少存儲系統中使用的存儲容量。它的工作方式是在某個時間週期內查找不同文件中不同位置的重複可變大小數據塊。重複的數據塊用指示符取代。高度冗餘的數據集(例如備份數據)從數據重複刪除技術的獲益極大;用戶可以實現10比1至50比1的縮減比。而且,重複數據刪除技術可以允許用戶的不同站點之間進行高效,經濟的備份數據複製。

(2)基於軟件的重複數據刪除和基於硬件的重複數據刪除的優缺點

  基於軟件的重複數據刪除旨在消除源的冗餘,而基於硬件的重複數據刪除強調存儲系統本身的數據削減。雖然基於硬件的重複數據刪除無法提供帶寬補償,而在源中進行重複數據刪除中有可能獲得帶寬補償,但是基於硬件的重複數據刪除的壓縮級別通常會更高,並且基於硬件的重複數據刪除產品需要的維護更少。

  硬件重複數據刪除設備以它們的高性能、可擴展性以及相對不間斷的部署而備受關注。正常情況下,備份軟件會將專用設備看作是一種一般的“磁盤系統”,並且完全不會發覺其內部正在進行的重複數據刪除進程。小型企業或遠程辦公通常會避免使用設備,因爲這些設備的費用要比用軟件來實現重複數據刪除的費用高,但是,它們確實是企業級部署的理想選擇。

  基於硬件的重複數據刪除也可能融合到其它存儲(目標)平臺上。例如,重複數據刪除經常是VTL系統的一項功能之一。VTL系統通過使用磁盤而不是磁帶進行存儲,從而提高備份任務的速度,而且,添加重複數據刪除使VTL磁盤使用率達到最大。在很多情況下,VTL重複數據刪除是作爲一種out-of-band進程來執行的。這是其一項優勢,因爲所有VTL的內容都可以通過重複數據刪除技術以達到很好的壓縮比率。不好之處在於重複數據刪除不是實時的。然而,一些VTL系統在接收到備份服務器的數據之後,引入了in-band重複備份數據刪除的處理能力。

(3)硬件的重複數據刪除產品中In-band和Out-of-band比較

  基於硬件的重複數據刪除產品的好處:基於硬件的重複數據刪除產品能減輕與基於軟件的重複數據刪除產品相關的處理負擔。重複數據刪除功能還被融合到其它數據保護硬件中,如備份平臺、虛擬磁帶庫(VTL)系統甚至通用存儲系統像網絡附加存儲(NAS)等。通常這種方法並不旨在縮小備份窗口或恢復目標,但是一般而言,用戶能借此達到最高的壓縮級別,從而創造最大的可用存儲空間。

  in-band重複數據刪除在數據寫入存儲器時削減數據。儘管進程處理需要額外的處理能力從而可能擴大備份窗口的大小,但是in-band重複刪除是有效率的,因爲它只執行一次。

  out-of-band重複數據刪除是在數據存儲完之後執行。這種方法不會影響備份窗口的大小,並且能緩解對CPU進程處理的關注,從而避免在備份服務器和存儲器之間產生瓶頸。然而,out-of-band重複數據刪除在執行過程中使用稍微多一點的磁盤空間。還有,out-of-band重複數據刪除需要花費的時間可能要比實際的備份窗口長。磁盤競爭是另一個問題,因爲用戶在重複數據刪除過程期間嘗試訪問存儲器,從而降低了磁盤性能。

(4)兩種主要的重複數據刪除方法

  目前有兩種主要的重複數據刪除方法:基於散列的方法和基於字節比較的方法。基於散列的方法利用一種算法對輸入數據進行處理來創建很小的表達式和數據唯一的標識符(即所謂的散列值)。然後,將其與保存在查尋表中的散列值進行比較。但是,利用查尋表來確定重複的散列串會造成巨大的性能壓力,並且可能需要幾周時間才能取得最優的重複刪除效率。

  效率更高的方法是在對象級上進行比較。例如,將Word文檔與另一個Word文檔進行比較,要麼採用模式匹配算法;要麼採用效率更高的智能分析技術。智能分析在更詳細地比較兩個文件之前會分析備份文件和參考數據集合來確定可能是冗餘的文件。由於把處理重點放在可能的重複數據上,它可以更徹底地去除重複數據和避免不必要的處理新文件。

  一些技術在數據備份過程中進行重複數據刪除。這種在線的重複數據刪除會降低備份性能,增加備份的複雜性。另一些技術執行帶外的重複數據刪除,在執行時,它們首先備份數據,然後再執行重複數據刪除。

  字節級重複數據刪除可提供高達25:1數據壓縮率。當與典型的VTL特性,即壓縮技術配合使用時,企業無須增加存儲容量就可在同樣的空間中多保存50倍的數據。這種壓縮技術不僅使用戶可以在線保存更多的數據,並使數據保持更長的在線時間,還帶來了將數據保存在硬盤上的優勢。例如,把數據保存在硬盤上比保存在磁帶上佔用更少的物理空間,並大大減少電源、冷卻、安全和其他運營與基礎設施費用。

  重複數據刪除技術通過使備份到VTL的費用大大低於純基於硬盤的數據保護解決方案,改進了數據保護的經濟性。同時,它也是數據中心應對急劇增加的能源、勞動力和空間費用,以及管理即將出現的電源和冷卻容量短缺的重要的途徑。

(5)下面是對各廠商重複數據刪除的簡單介紹:
  
飛康:

  飛康的重複數據刪除存儲軟件名爲“Single Instance Repository(SIR)”。SIR提供一個基於策略的冗餘數據刪除(RDE)引擎,只存儲數據文件或數據塊的單一實例(single instance)。

SEPATON:

  SEPATON 的DeltaStor技術使用 delta 冗餘刪除技術,使用這種技術,DeltaStor 軟件可以搜索任意數量的數據對象版本,以找出重複的數據序列,然後用一個副本的指針替代重複數據,重複數據序列中只有一個實例真正存儲在磁盤上。SEPATON 稱DeltaStor可以以 25:1 的比例消除典型混合業務數據中的重複數據,對於某些電子郵件應用則可以達到 60:1。

Data Domain:
  
  Data Domain的重複數據刪除技術稱作容量優化存儲(Capacity Optimized Storage, COS)技術。COS是採用一種壓縮算法,任何重複的數據或是重複的模式在進行多次備份時,只對其進行一次備份。這樣可以較好提高備份速率和數據壓縮比。Data Domain稱可以實現近乎20:1的壓縮比。目前,Data Domain已經推出了三代DDX陣列。
  
EMC:

  EMC稱Avamar重複數據消除和全局單實例存儲 (SIS) 技術可確保備份數據段在全局範圍內僅存儲一次,還可以有效地將移動和恢復的數據量縮減300倍,同時還可以實現每日完整備份和快速恢復。
  
Diligent Technologies:

  Diligent的 ProtecTier技術將數據分成塊,並且採用自有的算法決定給定的數據塊是否與其它的相似。然後與相似塊中的數據進行逐字節的比較,以判斷該數據塊是否已經被備份。HDS的虛擬磁帶庫解決方案採用的就是Diligent的ProtecTIER VT with HyperFactor重複數據刪除技術,HDS聲稱VTL 解決方案在保證100%數據完整性的同時消除了冗餘數據,從根本上將物理存儲需求降至原來的二十五分之一甚至更低。
  
昆騰:
  
  昆騰的重複數據刪除技術是由澳大利亞開發的。數據重複刪除技術按自然邊界把數據拆分爲非常細粒度的子塊元素。昆騰稱,利用數據重複刪除技術,1TB的備份數據可根據備份數據的共性,存儲爲300-700GB不等。在這種情形下,每月實現10:1到50:1的備份比率是完全可能的。
  
ExaGrid Systems:
  
  ExaGrid Systems的InfiniteFiler就是一個基於內容識別的重複刪除設備,當備份數據時,它採用CommVault Galaxy 和Symantec Backup Exec等通用的備份應用技術從源系統中識別文件。完成備份後,它找出已經被多次備份的文件,生成增量文件(deltas)。多個 InfiniteFilers合成一個網格,支持高達30TB的備份數據。
  
賽門鐵克:

  賽門鐵克NetBackup PureDisk遠程辦公室備份軟件,具有全局單一實例存儲的基於磁盤的安全數據保護將備份所消耗的存儲和網絡降低10倍到50倍。PureDisk能將備份的存儲和網絡消耗降低10至50倍。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章