超融合產品選型 POC 要點之 – 可靠性篇

近年來,超融合 IT 基礎架構的先進理念和巨大價值已經逐步被用戶認可和接受,越來越多用戶開始評估和採購超融合產品。面對全新的架構,以及國內市場各種品牌,用戶難免產生諸多困惑:

1.產品的宣傳材料寫得都挺好,實際運行效果如何?超融合是否在我的實際業務中能真正發揮價值?
2.會不會開始使用挺好,但長期使用或者極端情況下會有各種問題出現?

3.這麼多的品牌如何選?國外的產品這麼昂貴,是否真的物有所值?國內這些基於開源的產品,到底有什麼隱患?

針對以上問題,用戶大多會考慮在產品評估階段引入
POC 測試,用於驗證產品的實際表現,並對各家產品進行系統對比,但應如何進行 POC 測試用例設計?本系列文章由 SmartX 行業資深方案工程師根據大量用戶實際需求整理,力求爲用戶提供一份系統實用的
POC 要點參考。

超融合產品POC重點

通過超融合專業文章大家可以瞭解到,超融合軟件架構主要分爲三大組件:分佈式塊存儲、虛擬化、系統運維管理。而在這三大組件中,最重要的組件莫過於分佈式塊存儲。其主要原因包括:

1.在超融合產品中,虛擬化和服務器都已經屬於比較成熟的技術,而分佈式塊存儲是近幾年才通過超融合架構被用戶所逐漸採用,需要重點驗證;

2.分佈式塊存儲不僅僅是提供存儲空間,相較於虛擬化和服務器,其出現故障,帶來的影響會更大,直接影響業務連續性、數據可靠性和系統性能等多方面核心指標;

3.分佈式存儲開發門檻高,是檢驗產品和廠商技術實例的試金石;

4.分佈式塊存儲軟件基於 x86 商用服務器構建,相較於使用專有硬件的傳統集中式存儲,對軟件可靠性、容錯能力、性能以及數據保護能力方面提出了更高的產品設計和實現要求。

所以,分佈式存儲組件是 POC 測試驗證的重點,主要包括以下幾個方面:

1.性能相關

2.可靠性相關

3.數據保護能力相關

4.基礎功能相關

5.兼容性相關

本次內容,主要圍繞可靠性相關 POC 測試內容以及需要關注點。

超融合產品POC要點 – 可靠性及數據保護

POC 中的可靠性測試主要模擬相關的故障場景,以測試超融合軟件在不同故障場景下的可靠性表現。基於 x86 硬件架構的軟件產品在可靠性設計中有一個前提:硬件是不可靠的,即在服務器任何部件故障或網絡故障的情況下,分佈式存儲系統必須保證存儲服務的可用性。所以,在可靠性測試中,應儘可能多地去模擬故障場景,在不同故障場景下,驗證系統的可靠性。

關於超融合系統可靠性的測試主要分以下場景

1.磁盤故障

2.網卡故障

3.節點故障

4.SCVM 故障(VMware環境下)

5.機架故障

6.人爲誤操作

可靠性測試的關鍵指標有:

1.故障發生後能否檢測到

2.故障發生後能否自動修復

3.數據恢復過程中對整個集羣的性能影響

4.數據恢復量

5.數據恢復速度

6.數據恢復觸發條件

下面根據不同的故障場景分別做可靠性驗證:

磁盤故障的模擬和可靠性驗證

一、HDD 相關故障類型及可靠性驗證:

1.顯性的
HDD 故障:當 HDD 由於壽命到期等顯著的電氣特性問題引起磁盤 IO 錯誤,可以通過 smartctl 等磁盤檢測工具檢測到。在設備帶外管理中也會有相應的告警,這種故障場景比較容易模擬,在超融合集羣中創建一定數量的 VM ,實現數據在 HDD 硬盤上存放,在 VM 中運行業務(可通過 FIO 或者長 ping 進行模擬)的同時,直接將 HDD 硬盤拔出進行超融合軟件對顯性 HDD 故障的處理,確認 VM 中業務是否有中斷,集羣是否觸發數據恢復,恢復的數據量是否僅爲寫入的數據量而非全盤數據。此外,超融合系統一般都支持 HDD 硬盤的熱拔插,拔出後,可以進一步驗證拔出的此 HDD 硬盤插入其他超融合節點是否可以被識別、掛載並納入存儲空間。

2.隱性的
HDD 故障:與顯性的 HDD 故障不同,在隱性故障下,HDD 未出現顯著的電氣特性問題,無法通過 smartctl 等磁盤檢測工具檢測到磁盤故障,但由於固件缺陷或接近壽命,在實際 IO 操作中,出現高頻率的 IO error,這種隱性的 HDD 故障對超融合系統正常運行存在比較大的隱患。這種故障場景可以在進行正常 IO 訪問過程中,通過磁盤故障注入工具進行模擬,驗證超融合系統是否可以及時識別這種隱性的 HDD 故障以及恢復數據量等其他關鍵指標。

HDD 磁盤比特反轉導致的靜態數據損壞:因電磁輻射或磁頭故障導致 HDD 硬盤上的某些 bit 反轉導致數據不可用,比特反轉隻影響部分 bit 位,不會導致整塊 HDD 硬盤不可用。這種故障出現的概率不高,但一旦出現,如果超融合軟件層面沒有檢測機制,極容易帶來副本之間數據不一致,以及數據不可用的風險。這種故障場景可以通過 FIO 測試工具進行模擬,通過 bit 錯誤注入,驗證超融合平臺是否可以通過 CheckSUM 機制檢測到以上故障,並通過數據恢復的機制實現副本之間的數據一致性。
二、 SSD 故障下的可靠性驗證:

SSD 由於溫度太高、意外斷電等問題導致故障不可用時,SSD 內的數據會離線,節點上的部分副本數據開始數據恢復,部分業務虛擬機由集羣的其他副本提供支撐(雙副本和三副本),業務不中斷,集羣自動感知故障,併產生數據恢復,用來保證集羣的可靠性。

這種故障場景可以通過直接拔掉正在運行的 SSD 進行模擬,測試中需要驗證 SSD 故障是否是單點故障;驗證數據恢復量與 SSD 硬盤容量之間的關係(
某些超融合系統有磁盤組概念,單塊 SSD 故障會引起整個磁盤組不可用,數據恢復量遠超 SSD 寫入數據)。

此外,超融合系統一般都支持 SSD 硬盤的熱拔插,拔出後,可以進一步驗證拔出的此 SSD 硬盤插入其他超融合節點是否可以被識別、掛載並納入緩存空間。

三、網卡故障的模擬和可靠性驗證:

1.管理業務網卡故障,無法通過該節點管理超融合集羣

2.業務網卡故障,業務虛擬機無法通過網絡正常提供服務

3.存儲網卡故障,節點的數據離線,業務虛擬機無法在該節點正常運行

網卡故障可以通過拔掉網線、關閉任一交換機進行模擬。超融合系統通過多網卡綁定的方式保證集羣網絡的冗餘。超融合系統支持的網卡綁定模式有 active-backup、balance-slb 和 balance-tcp,針對不同的綁定模式,需要交換機做對應的設置,配合交換機的使用。可以在綁定的 N 塊網卡中至多 N-1 塊故障時,業務不會中斷,當原網卡恢復正常後,系統會自動關聯網卡,並將網卡加入到集羣中。

四、節點故障的模擬和可靠性驗證

當節點由於硬件問題、軟件 BUG 導致斷電、關機、重啓等故障時,節點前置面板告警示燈會亮,帶外管理也會有相應的告警提示,該節點上運行的業務虛擬機將暫時無法提供服務,同時節點上的副本數據離線。其他正常節點上的業務虛擬機業務不中斷,故障節點上的業務虛擬機開啓高可用後會自動遷移到其他正常節點,集羣自動感知故障,併產生數據恢復,用來保證集羣的可靠性。

這種故障通過對節點直接斷電進行模擬,在超融合集羣各個節點上均創建一定數量的業務虛擬機,在業務虛擬機中運行業務(可通過 FIO 進行模擬),通過以下指標觀察超融合平臺的健壯性。

1.節點失效到觸發數據恢復需要的時間(考慮系統是否足夠敏感)

2.節點失效到虛擬機 HA 到其他節點需要的時間(考慮系統是否足夠敏感)

3.節點長時間失效,數據恢復量(模擬需要長時間修復機器宕機問題)

4.節點短時間重新上線,數據恢復量(模擬重啓解決機器宕機問題)

5.恢復速度(節點數量是否影響恢復速度)

6.業務虛擬機的性能(節點故障是否對整個集羣的虛擬機都有影響)

7.關閉業務虛擬機運行的業務(考慮恢復速度是否感知業務壓力自動調速)

五、SCVM 故障的模擬和可靠性驗證

虛擬化集羣使用 VMware 平臺時,由於 SCVM 誤關機、意外宕機等無法提供服務,該節點上運行的業務虛擬機處於計算資源可用(ESXi
主機正常),存儲資源不可用(分佈式存儲控制虛擬機不正常)的狀態。這種故障如果沒有好的處理機制,那麼在故障發生時容易造成業務不可訪問的災難。

這種故障可以通過對 SCVM 直接關機進行模擬,故障發生時會有短暫的 IO 卡死,該節點會通過 IO 重路由功能連接到正常節點上 SCVM 的存儲網絡上,重新建立一條新的分佈式存儲數據鏈路。在建立的過程中,業務虛擬機會有短暫的 IO 卡死,該功能是鏈路的重新連接,虛擬機業務不會中斷,因此也不會觸發 VMware 平臺的 HA。當 SCVM 恢復後,集羣會自動感知,併產生數據恢復,同時集羣也會檢測舊數據是否可用,來減少數據恢復量。

六、機架故障的模擬和可靠性驗證

超融合集羣放置在多個機櫃上,機架因供電問題導致一個機架的所有節點全部離線時,其他機架供電正常,該故障發生時,如果超融合系統沒有對應的可靠性機制,可能會由於業務虛擬機的所有副本都在同一機架的節點上,導致數據離線,業務無法正常運行。

這種故障通過對某一機架斷電進行模擬,超融合系統配置 “機架感知” 功能後,根據機房物理拓撲結構,將副本分配在不同的機架、機箱、節點上,有效減少甚至避免物理硬件(電源、交換機等)故障導致的數據丟失。正常節點的業務虛擬機正常運行,故障節點的虛擬機在資源足夠時遷移到正常節點上。

七、誤操作的模擬和可靠性驗證

業務虛擬機維護人員在日常工作中,誤刪除虛擬機的某個文件,甚至刪除業務虛擬機,想要找回數據時,對於分佈式存儲幾乎不可能完成,當事情發生時,根據業務虛擬機的重要程度,會有不同程度的損失,甚至會給公司造成重大損失。

該故障可通過手動刪除業務虛擬機中的文件和刪除業務虛擬機兩種操作進行模擬。使用超融合的定時快照功能,根據不同的快照對象(虛擬機、iSCSI LUN、NFS File 和虛擬機的磁盤),選擇不通的快照時間(按月、周、天、小時),保留多個快照組(最多 16 組)。在誤操作發生後,可以通過重建事先做好快照來恢復數據。

在超融合系統中驗證快照功能時,通過以下指標觀察快照是否實用:

1.創建快照速度(考察快照的實現機制)

2.虛擬機做多組快照(考察快照保留的最大快照組)

3.創建和刪除快照,查看集羣性能(考察快照對集羣性能的影響)

4.對多個虛擬機做快照,記錄時間(考察做快照與虛擬機大小的關係)

5.刪除中間快照和刪除虛擬機,其他快照可用(考察快照之間是否依賴)

6.對多個虛擬機做快照回滾和重建,記錄時間(考察快照與虛擬機大小的關係)

對業務虛擬機做快照時只複製元數據信息,而不是對虛擬機做一個完整的快照,既節省空間使用率,同時快照可以秒級和快速恢復。使用定時快照的功能,根據重要程度,制定不同的快照計劃,同時定期清理無用快照,在快照功能頁批量操作快照,可以爲您減少誤操作造成的損失。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章