那些免費卻未被重視的IBM PowerHA內置功能(1)

那些免費卻未被重視的IBM PowerHA內置功能(1

IBM PowerHA軟件全名IBM PowerHA SystemMirror for AIX,(也有for ibm i的版本,其實是完全不同的軟件,本文不涉及),目前最新版本7.1.3。其原名HACMP,是運行在IBM POWER小型機/AIX操作系統下的高可用/災備軟件,應用相當廣泛,相信接觸過IBM小型機的技術人員都有所瞭解。PowerHASE標準版和EE企業版(V5.5以前稱XD版)。SE版本主要支持數據中心內的高可用solutionEE版增加數據中心間的遠程災備功能。但是,又不是嚴格這樣劃分的,本文下面提到的CSLVMCross-site LVM mirroring)災備方案就是SE標準版的功能。

 

PowerHAHACMP)於1992年推出,伴隨着IBM POWER/AIX的發展以及有20多年的歷史了。作爲企業級的高可用和災備解決方案,其不斷開發和完善了很多相關功能。如deadman switch機制避免爭奪資源,保障數據的安全。如對DS8000SVCXIVEMC SRDFHitachi TrueCopy等存儲災備功能的支持,以及hyperswap這樣的高級功能。同時,也有一些物美價廉的功能和解決方案,長久以來未被足夠的重視和推廣。下面我們先從一個小功能Fast Disk Takeover說起,以後再談談smart assistGLVMCSLVM

 

Fast Disk Takeover(快速磁盤切換)是一個“古老”的功能,從PowerHA V5.1基本版本(20036月發佈)即包含該功能。該功能特別適用於羣集有大量(幾十、上百個)共享磁盤(LUN)需要在不同節點間按需要進行接管(failover)的應用場景。

 

其實,大多數生產系統都很需要這樣的功能。因爲對於生產系統,爲了滿足性能和安全性的要求,數據庫表空間、controlredo_log等數據空間一般都需要分配到很多獨立磁盤(LUN)上。對於大中型數據庫等應用,共享磁盤數量就會更多。這些共享磁盤作爲資源,被劃入一個或多個主備資源組中,每個資源組支持對應的應用,實現高可用。當應用由於計劃內/外的原因切換時,就需要在不同節點間接管大量的共享磁盤。因爲磁盤的釋放和激活過程需要一定時間,所以大量磁盤完成這個過程就會需要較長的時間,時間長度隨磁盤種類、廠家型號、驅動程序、多路徑軟件、磁盤數量和分佈情況的不同而不同。應用程序需要磁盤接管完成後才能開始啓動,使得應用在切換過程中長時間不可用,極大影響應用系統對外提供服務。

 

另外,如果切換過程中事件(event)完成時間超出360秒,則會報config_too_long 事件警告,從而加大了資源組RG的切換風險。因此,需要對磁盤接管進行提速,從而提高羣集的可用性。

 

實現該功能並不複雜,只要求:

l  在非併發資源組中使用Enhanced Concurrent Mode VG(支持併發功能的卷組)。

l  操作系統爲AIX v5.2以上。(現在的系統都可以)

使用PowerHA的快速磁盤接管(fast disk takeover)功能,可以極大地提高磁盤接管的速度。PowerHA監測故障的發生,自動觸發快速磁盤接管機制對ECM VG進行快速切換。在非併發資源組中,快速磁盤切換與普通vg(卷組)切換相比,省去了當lvm信息變化時,通過lazy update功能自動更新和同步的時間以及硬盤釋放的時間。

有測試表明,使用快速磁盤切換功能,一個包含有2個磁盤的vg可以在不到10秒的時間內完成切換。當磁盤和vg數量增多時,切換時間隨之緩慢增多,具體時間由系統處理能力和繁忙程度等因素共同決定。需要指出,對於應用來說,切換時間還要包括文件系統檢查和應用程序啓動等時間。

我們注意到,這要求在非併發資源組中採用併發卷組(ECM vg)。併發卷組在這種狀態下並不是併發訪問,在任一時點,vg內數據只能由一個節點來訪問。Fast disk takeover的機制只針對vg管理層面,而與vg內磁盤數量無關。

ECM VG可以被一個節點激活,也可以被不同節點在ActivePassive模式下同時激活。使用快速磁盤切換功能時,PowerHA控制不同節點對ECM VGActive/Passive激活模式。Active模式下激活時,與普通方式激活vg的訪問功能是相同的。Passive模式下激活時,LVMvglvm級別上進行disk fencing保護,僅允許對vg進行有限的只讀操作。

當一個節點在Active模式下激活某個ECM vg時,可進行以下操作:

l  對文件系統(fs)進行操作,如mount fs

l  啓動應用程序,訪問存儲數據;

l  對邏輯卷(lv)進行操作,如創建lv

l  同步vg

當一個節點在Passive模式下激活某個ECM vg時,僅可進行以下操作:

l  通過LVMvg的特性文件進行只讀訪問;

l  通過LVMvg下的所有lv的頭4k信息進行只讀訪問。

當一個節點在Passive模式下激活某個ECM vg時,無權進行以下操作:

l  對文件系統(fs)進行操作,如mount fs

l  lv進行操作,如使lv處於open狀態;

l  同步vg

方案示例:

wKioL1OzmDrhj0Y7AAB0I-5fStU718.jpg

節點硬件規劃

如上圖,此設計中,PowerHA採取雙節點結構。兩臺小型機分別作爲兩個節點Server AServer B

l  每個節點配置網卡數量:     2

l  每個節點配置HBA卡數量:        2

l  IP心跳類型:    磁盤心跳

l  小型機通過SAN連接到存儲設備共享大量LUN

 

磁盤快速切換規劃:

wKiom1OzmMzy4IZJAACedygmqbE285.jpg

如上圖,本方案中採用的是非併發模式。PowerHA啓動時,所有ECM vg都在相應資源組的主節點上以Active模式進行激活。對於其他節點,PowerHA控制這些共享vgpassive模式下進行激活。需要強調的是,任何時候PowerHA都會控制vg只在一個節點上以Active模式激活,避免併發數據訪問。

故障切換場景:

wKiom1OzmQ_xQV8vAACnt17Ddpg082.jpg

如上圖,當Server A節點發生故障或由於計劃內停機不可用時,該節點擁有的資源組即會發生切換。PowerHA確保ECM VG已被Server A釋放後,將已經在Server B上以Passive模式激活的ECM VG變更爲Active模式。如果有更多節點,其他節點上該vg的狀態不變,仍然是Passive模式,保證任何時間只有一個節點對該vg上的數據擁有訪問權限。

當故障排除或計劃內停機完成後,重新啓動Server APowerHA會根據預設的fallback切換策略自動恢復到原來的active/passive激活狀態。

這項功能已經有11年的歷史了,非常好的功能,而且基本沒有限制(災備環境下除外)。但是以前用得並不普遍。在PowerHA V7.1採用CAA後,這項功能在配置中有了單獨提示,相信會被越來越多的用戶採用。

 wKioL1PMlKGxIgGzAAEQ5--XM_g753.jpg

掃一掃,關注微信公衆號“榮歆IT諮詢”,享免費服務。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章