一、引言
隨着銀行業務量的不斷提升以及客戶數量的持續增長,銀行數據庫和應用的數量也隨之擴大,因而服務器的使用數量也相應增長。過多的物理服務器導致巨大的性能浪費,銀行的運維成本不斷攀升,如何使服務器性能做到最大化利用是當今企業研究的重要課題。因此,在商業銀行,管理方式的革新、流程的再造和信息化平臺的建設就被提上了議事日程。怎樣最大化地利用硬件平臺的全部資源,怎樣有效地降低各種資源的管理難度等等,這些已經成爲了很多商業銀行正面臨的大問題。虛擬化技術就在這樣的背景之下應運而生。
服務器虛擬化平臺的建設對商業銀行而言,具有諸多的好處和優勢,它不僅能夠提高資源的利用率、增強系統的可用性,而且能夠構建更爲靈活多變的基礎設施架構平臺,從而大大提升業務的運行和響應能力。這些好處和優勢在很大程度上也推動了各商業銀行的服務器虛擬化平臺建設。然而,各商業銀行在進行虛擬化平臺建設的過程中,依然遇到了不少實際問題和困難。比如,基礎設施環境差異相對較大,人員技術資源不足,平臺建設規模較小等,這些都成爲虛擬化平臺建設的障礙。因此,如何設計一套科學合理的虛擬化架構,如何保證建設好的商業銀行虛擬化資源池既安全可靠又經濟實用,如何簡單而有效地進行運維管理工作,如何保障虛擬化資源池在投產後的安全穩定運行,這些都是值得研究的問題。
針對大作業要求,本文描述了針對該國際銀行的虛擬化部署方案。首先,結合企業背景對目標虛擬化數據中心進行了細緻的需求分析;然後提出了虛擬化方案以及存儲方案,並對方案配置等進行了細節上的分析;接下來,對用戶劃分以及權限設置、虛擬機命名、共享存儲容量規劃以及地址池管理進行了描述;本文最後針對容災方案結合vSphere的功能特性進行了闡述。
二、問題描述
2.1 問題背景
某國際銀行目前採用CDC傳統的數據中心解決方案,隨着業務的變化,應用場景和需求越來越靈活,銀行業務高速發展,原有平臺已經滿足不了目前的應用需求,運維帶來很多不便。基於上述原因,現決定構建全新的虛擬化平臺,採用最新的vSphere 6.7(6.5,6.0)版本,並考慮到未來的業務擴展。
現階段規劃X個分區,分別爲生產業務區、綜合管理區、網銀在線區、產品測試區、運維基礎區。每個業務區承載着不同數量的虛擬機,並且隨着業務發展不斷增加。隨着新業務不斷增長要求,未來將逐步把小型機服務器上應用系統遷移到虛擬化平臺,最終實現數據中心x86服務器的全部虛擬化。
系統設計:根據我們所學習存儲信息管理知識,設計一套虛擬化部署方案,考慮到業務的遷移的複雜性,默認不再使用原有設備(降低設計難度),因爲是銀行業務需要100%的冗餘方案,儘量考慮容災,存儲部分設計按照基礎數據爲100TB設計,年增長40%,設計一個滿足3年的方案。
2.2 設計要求
1、主機配置:(計算和存儲)
2、用戶、組、權限和角色
3、共享存儲容量規劃
4、虛擬機命名規劃
5、地址池管理規範化
三、需求分析
3.1 數據訪問和存儲
銀行數據從產生到存儲、利用、歸檔,最後超過存儲期限被刪除,數據被讀取的頻率逐漸下降,數據存儲的位置也應該隨之變化,以提高存儲設備的使用率,降低存儲成本。因此有必要進行分級存儲,因此考慮採用在線(On-line)存儲、近線(Near-line)存儲和離線(Off-line)存儲三級存儲方式。在存儲其關鍵或者近期業務數據時,採用昂貴的存儲設備、存儲技術和存儲方式;而對於時間較爲久遠,訪問量不大的數據存放在性能較低的存儲設備,但對這些設備的要求是尋址迅速、傳輸率高;最後通過離線存儲對時間久遠的數據進行歸檔,要求設備具有高可靠性、良好的安全性、大容量和低成本。
3.2 新業務擴展
在傳統的業務上線部署模式中,一個新的應用系統從提出上線需求,到購買設備,再到安裝部署,最後系統投入使用,整個週期會非常長,極大地影響了銀行新業務的發展,而且無形中還給銀行增大了成本,造成了損失。在建設銀行虛擬化資源池時需要考慮到空閒資源的分配,從而應對新業務系統的服務器需求。提高服務器的快速部署能力,使商業銀行在瞬息萬變的激烈競爭中能保持對新業務的快速響應能力,從而促進業務的快速發展,創造更多的效益。
3.3 數據安全
銀行數據涉及到需要被長期保存的交易信息,並且具有較強的私密性,涉及用戶個人隱私,所以數據安全保護是必須考慮的,需要通過對虛擬資源分區,實現其中一個虛擬機出現系統崩漬或被病毒感染時,保證其它虛擬機仍然可以正常運行,並且可以通過容災備份方案對數據進行恢復,通過建立遠程災備存儲數據中心,將所有數據備份到遠程數據中心;在整個硬件平臺的所有虛擬機上還需要設置資源消耗閥值,這樣就能保證虛擬機的運行不會導致整個硬件平臺的資源耗盡。
四、虛擬化部署方案
4.1虛擬化方案設計
根據目前規劃的5個分區:生產業務區、綜合管理區、網銀在線區、產品測試區、運維基礎區,由於每個分區對於虛擬機的數量以及性能上的需求不同,故分配方案如下:
銀行的業務總體可以分爲需求設計,資產業務、中間業務三類,因此生產業務區的設計可以主要根據這三類業務分配虛擬機。由於這三類業務的每類任務都部署裝有同樣軟件的虛擬機,並需要根據操作員人數分配相應數量的終端服務器。
因此我們爲每類業務分配一臺配置較高的虛擬機作爲終端服務器。從而滿足每類業務異構性的需求,使一臺服務器可以對應多臺終端,這樣所需的主機資源數爲終端數與終端服務器數求和。
綜合管理區類似於傳統的信息管理系統,因此只需要爲其同樣分配一臺配置較高的虛擬機作爲終端服務器以及滿足需求的虛擬機數量即可。
網銀在線區承擔銀行的網銀業務,該區域的特點是訪問量隨時間變化較爲明顯,所以網銀在線區需要根據當前實際網銀業務訪問量動態調整虛擬機的數量,從而對網銀業務實現負載均衡;同時由於網銀在線區的虛擬機需要作爲Web服務器使用而終端服務器使用,因此網銀在線區的服務器需要承載更高的業務量,這也要求每臺虛擬機需要更高的配置。
服務器產品測試區需要爲銀行的新產品進行測試,但是總體需求的資源比較少,我們可以爲每個產品根據其需求分配一臺服務器終端服務器/Web服務器,在分配時需要根據業務的實際需求,分配配置儘可能與生產環境近似的虛擬機。
運維基礎區需要對生產業務區、 綜合管理區、供運維服務,運維需要將一些數據直接存儲到主機中,而運維數據需要存諸在銀行的系統中而非運維人員本人主機中,同時運維基礎區需要儘可能穩定的網絡環境,因此直接分配客戶虛擬機是較好的選擇,故在運維基礎區對生產業務區的三個終端服務器、網銀在線區、綜合管理區各分配一臺虛擬機作爲運維使用的虛擬機。
數據中心整體虛擬化的網絡拓撲結構圖如下圖所示:
圖1 數據中心網絡拓撲結構圖
4.2 存儲方案設計
4.2.1存儲方案
分級存儲是根據數據的重要性、訪問頻率、保留時間、容量、性能等指標,將數據採取不同的存儲方式分別存儲在不同性能的存儲設備上,通過分級存儲管理實現數據客體在存儲設備之間的自動遷移。數據分級存儲的工作原理是基於數據訪問的局部性。通過將不經常訪問的數據自動移到存儲層次中較低的層次,釋放出較高成本的存儲空間給更頻繁訪問的數據,可以獲得更好的性價比。這樣,一方面可大大減少非重要性數據在一級本地磁盤所佔用的空間,還可加快整個系統的存儲性能。
由於對於銀行數據的訪問頻率隨着時間的推移變化明顯,故本地存儲採用分級存儲,從而提高存儲設備的使用率,降低存儲成本,主要分爲三級:認爲一週內的業務數據屬於活躍數據,將這部分數據儲存在一級存儲中。考慮到可拓展性,將其他的數據分成兩級進行存儲,將一個月以內的數據,放入二級存儲;考慮到銀行的數據非常寶貴,需要保留,因此將一個月外的數據進行歸檔存入三級存儲。示意圖如圖2所示:
圖2 分級存儲示意圖
本地一級存儲(在線存儲),主要功能是工作級的存儲,其最大特徵是存儲設備和所存儲的數據時刻保持在線狀態,可以隨時讀取和修改,以滿足前端應用服務器或數據庫對數據訪問的速度要求。在線存儲的一週內的業務數據,需要滿足存取速度快,性能好,並且出錯概率小等要求,因此在這一級中採用高端存儲介質來存儲近期需要頻繁訪問的數據。採用高端存儲介質SSD硬盤,一方面可以提高用戶訪問的響應速度,另一方面能增強數據的穩定性。
本地二級存儲(近線存儲),是定位於客戶在線存儲和離線存儲之間的應用。就是指將那些並不是經常用到(例如一些長期保存的不常用的文件歸檔),或者說訪問量並不大的數據存放在性能較低的存儲設備上。近線存儲一個月中產生的歷史數據。在這一層可以通過數據遷移技術自動將在線存儲中不常用的數據遷移到近線存儲設備上。這一級中的數據訪問頻率不是很高,但需保證數據共享和快速在線訪問。在這一級別將使用大量低端存儲介質來存儲需要長期訪問但是訪問頻率較低的數據,並且需要具有一定的拓展能力和安全保護能力,故選用SAS磁盤陣列。
本地三級存儲(離線存儲),大多數情況下主要用於對在線存儲或近線存儲的數據進行備份,以防範可能發生的數據災難,因此又稱備份級存儲。採用離線歸檔的方式,對該國際銀行長期的業務數據進行歸檔,這一級中要求設備具有高可靠性、良好的安全性、大容量和低成本,因此選擇SATA磁盤陣列。
4.2.2 存儲容量計算
銀行業務需求:基礎數據爲100TB,年增長40%,設計一個滿足3年的方案需要100%的冗餘方案,儘量考慮容災。
可以得到總存儲需求,即離線存儲空間需求爲:
100×1+40%3×1+100%=548.8TB
在線數據存儲空間需求:
至少要滿足第三年數據增長的需求,需保存的7天在線可用容量:
100×1+40%2×40%×1+100%×7365≈3.007TB
近線數據存儲空間需求:
至少要滿足第三年數據增長的需求,需保存的3周在線可用容量:
100×1+40%2×40%×1+100%×21365≈9.021TB
4.2.3 存儲配置概述
三級存儲數據的保護考慮使用RAID實現:RAID ( Redundant Array of Independent Disks ),通常簡稱爲磁盤陣列。簡單地說, RAID 是由多個獨立的高性能磁盤驅動器組成的磁盤子系統,從而提供比單個磁盤更高的存儲性能和數據冗餘的技術。 RAID可以在部分磁盤(單塊或多塊,根據實現而論)損壞的情況下,仍能保證系統不中斷地連續運行。在重建故障磁盤數據至新磁盤的過程中,系統可以繼續正常運行,但是性能方面會有一定程度上的降低。一些磁盤陣列在添加或刪除磁盤時必須停機,而有些則支持熱交換 ( Hot Swapping ),允許在不需要停機的情況下替換磁盤驅動器。這種高端磁盤陣列主要用於要求高可能性的應用系統,系統不能停機或儘可能少的停機時間。
4.2.4 在線存儲配置
圖3 RAID 6實現示意圖
對於在線存儲,由於該部分的銀行業務屬於要求高頻率讀取、數據恢復能力強的類型,而且需要儘可能避免數據丟失,屬於對數據安全等級要求非常高的場合,故考慮使用RAID6(如圖3所示),儘管RAID6實現代價很高,控制器的設計也比其他等級更復雜、更昂貴,但是爲了保證該國際銀行高數據訪問併發性以及數據丟失恢復的要求,因此考慮使用RAID6分佈式存儲並且搭配4個熱備盤,從而進一步提升系統對於磁盤錯誤的容忍能力。硬件選擇方面,SSD硬盤有着現階段最優的讀寫速度,同時由於其中沒有活動的機械部件,存於其中的數據不易損壞,因此適合數據交換頻繁的在線存儲。
4.2.5 近線存儲配置
圖4 RAID 5實現示意圖
對於近線存儲,如果仍然使用RAID 6則成本較高,得不償失,而RAID 5同樣提供了存儲數據和校驗數據的能力,數據塊和對應的校驗信息存保存在不同的磁盤上,當一個數據盤損壞時,系統可以根據同一條帶的其他數據塊和對應的校驗數據來重建損壞的數據;RAID 5磁盤利用率較高,兼顧存儲性能、數據安全和存儲成本等各方面因素,選用RAID 5是一種較爲折中的方案。硬件選擇方面,使用SAS硬盤,SAS是新一代的SCSI技術,採用串行技術以獲得較高的傳輸速度,相比於SSD成本較低。
4.2.6 FC-SAN存儲區域網絡
選用FC-SAN構建在線存儲和近線存儲的網絡,理由如下:
1. 具有出色的可擴展性。SAN比傳統的存儲架構具有更多顯著的優勢。例如,傳統的服務器連接存儲通常難於更新或集中管理。每臺服務器必須關閉才能增加和配置新的存儲。相比較而言,FC-SAN不必宕機和中斷與服務器的連接即可增加存儲。FC-SAN還可以集中管理數據,從而降低了總體擁有成本。
2. 節省網絡帶寬。利用光纖通道技術,FC-SAN可以有效地傳輸數據塊。通過支持在存儲和服務器之間傳輸海量數據塊,SAN提供了數據備份的有效方式。因此,傳統上用於數據備份的網絡帶寬可以節約下來用於其他應用。
3. 具有靈活性。開放的、業界標準的光纖通道技術還使得FC-SAN非常靈活,FC-SAN克服了傳統上與SCSI相連的線纜限制,極大地拓展了服務器和存儲之間的距離,從而增加了更多連接的可能性。改進的擴展性還簡化了服務器的部署和升級,保護了原有硬件設備的投資。
4. 更好地控制存儲網絡環境。FC-SAN可以適合那些基於交易的系統在性能和可用性方面的需求。SAN利用高可靠和高性能的光纖通道協議來滿足這種需要。
5. 傳送數據塊到企業級數據密集型應用能力較好。在數據傳送過程中,FC-SAN在通信結點(尤其是服務器)上的處理費用開銷更少,因爲數據在傳送時被分成更小的數據塊。因此,光纖通道FC-SAN在傳送大數據塊時非常有效,這使得光纖通道協議非常適用於存儲密集型環境。
4.2.7 離線存儲配置
對於離線存儲,由於要求容量大且成本低,如果仍然採用之前的存儲方案,成本都將較爲高額的同時帶來了繁重的管理開銷;故考慮採用CAS架構來對超過一個月的數據進行歸檔,理由如下:
1. 降低存儲管理開銷。無需重新配置的可擴展性 CAS的優秀功能提供了自我配置、自我管理和自我修復能力,這些特性再結合CAS的RAIN架構,有助於硬件的擴展,而且在擴充容量時不會帶來中斷。CAS可自動進行存儲管理,從而降低總體擁有成本,提高投資回報率。
2. 保障數據安全可靠。數據的安全性、完整性、正確性直接影響檔案服務質量,因此存儲系統需要具有很強的數據安全性,必須能夠採用一些高級的數據存儲保護技術。CAS系統設備全部爲冗餘設計, 沒有單點故障。爲了確保內容的完整可靠,CAS爲每個存儲對象指定一個惟一的內容地址。這個地址是由內容本身衍生而來的,同一內容絕不會重複保存。數據全部採用鏡像或奇偶效驗方式存儲, 即使發生磁盤及某個存儲部件損壞的情況,也不會出現數據丟失,而且CAS具有自我治癒功能,因此對服務的要求也大大降低。
3. 降低總體擁有成本。CAS方案使用戶可以規劃業務系統的全在線存儲模式,真正實現所有歸檔數據全部處於在線狀態,爲系統的快速響應能力提供完全保障。由於磁盤陣列成本的主要部分是硬盤,而硬盤單位存儲容量的價格通常會呈明顯下跌的趨勢,逐年擴展CAS容量可以作爲用戶控制存儲投資的首選方式。採用CAS方案,可以省去傳統歸檔存儲方案中昂貴的光盤庫或磁帶庫的長期投資,使系統整體投資水平和執行效率都可同時獲得優化。
4.3 用戶及權限設置
針對銀行業務分區,劃分了以下5種角色,具體名稱以及權限如表1所示:
表1 角色設置表
角色 |
描述 |
超級管理員 |
具有所有對象的特權,能夠賦予、移除其他虛擬對象的訪問權限和特權。 |
虛擬機管理員 |
能夠與虛擬機進行交互,具有分配並管理各類虛擬機的權限。 |
存儲管理員 |
能夠管理數據,具有設置、修改存儲陣列的權限。 |
運維工程師 |
負責運維組,查看對象的狀況和詳細信息,管理物理機。 |
終端用戶 |
能夠操作終端客戶機,但是權限受限。 |
用戶組設置如表2所示:
表2 用戶組設置表
用戶組 |
角色 |
SuperAdmins |
超級管理員 |
VMAdmins |
虛擬機管理員 |
StorageAdmins |
存儲管理員 |
Operators |
運維工程師 |
Users |
終端用戶 |
4.4 虛擬機命名
根據目前已有的5個分區,考慮到該銀行需要進行國際業務的需求,虛擬機的命名規則可以按照如表3所示:
表3 虛擬機命名規則
分區 |
規則描述 |
生產業務區 |
PRODUCE_{地區編號}_{業務類型}_{業務編號}_{虛擬機編號} |
綜合管理區 |
MANAGE_{地區編號}_{管理類型}_{虛擬機編號} |
網銀在線區 |
ONLINE_{地區編號}_{虛擬機編號} |
產品測試區 |
TEST_{測試項目編號}_{虛擬機編號} |
運維基礎區 |
OPERATION_{運維區域編號}_{虛擬機編號} |
4.5 共享存儲容量規劃
共享存儲總共規劃容量8T,由20個LUN構成,每個大小400G。根據VMware最佳實踐,推薦Datastore與Lun一一對應,按照此規則各個集羣數據存儲容量規劃方案如下:
表4 共享存儲容量分配表
集羣 |
Datastore數量 |
Lun數量 |
Lun大小 |
支持容量 |
生產業務區 |
8 |
8 |
1TB |
3.2TB |
綜合管理區 |
4 |
4 |
1TB |
1.6TB |
網銀在線區 |
6 |
6 |
1TB |
2.4TB |
產品測試區 |
1 |
1 |
1TB |
0.4TB |
運維基礎區 |
1 |
1 |
1TB |
0.4TB |
合計 |
20 |
20 |
|
8TB |
4.6 地址池管理
考慮到作爲國際銀行,應該具有多個分支機構,因此採用10.0.0.0/8的網段,爲每個分支機構採用10.(0~255).0.0/16之間的一個B類地址段,
圖5 國際銀行分支機構拓撲示意圖
以“華盛頓”分支機構爲例,爲10.1.0.0/16進一步規劃地址範圍:
(1)各分支機構的工作站VLAN,可以爲其使用128個VLAN,即工作站的VLAN爲10.1.0.0/24~10.1.127.0/24,這樣總的工作站可用IP地址是128×253=32384,此IP地址已經足夠。
(2)各分支機構的服務器VLAN,爲服務器規劃32個VLAN,即服務器的IP地址範圍爲10.1.128.0/24~10.1.159.0/24,可用IP地址是32×253=8096。
(3)設備管理地址:採用10.1.252.0/24~10.1.255.0/25,可用IP地址是4×253=1012。
(4)保留地址:10.1.160.0/24~10.1.251.0/24,一共保留92個C類地址,用於以後的分配。
因爲各個分支機構通過Internet組建VPN互連互通,所以還要設計VPN互連地址。在規劃VPN的互連地址時,子網掩碼採用255.255.255.252(子網掩碼到30位)。
五、容災方案設計
5.1 容災方案概述
當前基於容災的設計是以業務連續性爲目標的, 這就意味着如果某一套系統發生災難, 容災中心需要能夠自動的啓動並且連續工作, VMware平臺上的應用都是包含操作系統整體,並且是以文件形式存在且脫離具體硬件的, 所以容災的設計和實現並不需要類似以往的複雜的物理環境搭建。不論是各生產系統還是容災中心,只要是具備虛擬化能力的數據中心,都可以方便的部署異地虛擬化容災。
一個完善的容災系統主要包括三個層次:數據容災,應用容災和網絡容災;兩個級別:本地高可用性(HA、Fault Tolerance或者備份),異地容災。
1. 數據容災就是指建立一個異地的數據系統,該系統是本地關鍵應用數據的一個同步或異步複製。
2. 應用容災是在數據容災的基礎上,在異地建立一套完整的與本地生產系統相當的備份應用系統(可以是互爲備份),在災難情況下,遠程系統迅速接管業務運行。
3. 網絡容災是指在災難發生後,當應用系統完成正確的遷移後,將訪問應用系統的網絡流量正確的導向遠程的容災系統。
4. 本地高可用性是指可通過高可靠性的集中存儲,高可靠性的虛擬計算體系爲客戶提供本地高可用性。
接下來分別針對不同層次和級別的容災方案進行設計。
5.2 數據容災設計
對於本地本級備份,建立了在線、近線、離線等多級存儲備份系統,充分利用先進的備份手段和備份策略,形成完整的本地備份管理解決方案;備份的數據包括操作系統、數據文件以及應用服務環境等多個方面;日常訪問的重要數據採用磁盤或者虛擬帶庫方式備份,歸檔數據和非重要數據採用磁帶庫方式備份;重要數據應至少保證每週做一個全量備份,平時做增量備份。
對於數據級異地災備中心,選址上,應進行風險分析,避免異地備份中心與主中心同時遭受同類風險;網絡備用系統上,必須在覈心網絡層面實現熱備,保證災備中心區域內通信的可靠性;數據備份系統上,主中心與備份中心的備份鏈路應有冗餘,並確保2小時內將主中心的增量數據複製或備份到災備中心;數據處理備用系統上,配備災難恢復所需的全部數據處理設備,並處於就緒狀態或運行狀態,與主中心共同承擔部分核心應用的查詢服務功能。
VMware實現異地數據中心容災的解決方案主要是提供 Site Recovery Manager(SRM)產品,Site Recovery Manager可自動執行並簡化災難恢復計劃的管理和執行工作,幫助您擺脫傳統災難恢復中的諸多不便。由於 VMware Site Recovery Manager 省去了複雜的手動恢復步驟,能夠對恢復計劃執行無中斷測試,並且可以自動執行恢復過程,因此能夠在整個數據中心高效地進行災難恢復。VMware Site Recovery Manager 還有助於進行數據中心的計劃內故障切換,例如數據中心遷移。
圖6 VMware SRM 容災示意圖
5.3 應用容災設計
應用級災備包括兩個方面:數據同步和應用接管。數據同步是應用接管的前提。在保證數據同步基礎上,要實現應用接管,還要能實現災難發生時的網絡切換和應用切換。
5.3.1網絡切換設計
應用級災備要求提供冗餘的網絡線路和設備。正常情況下,客戶端通過生產中心的業務網絡訪問生產中心的應用服務器;在發生災難時,通過網絡切換,客戶端能夠訪問到災備中心的備用服務器。
目前,網絡切換主要有以下三種:
(1)基於IP地址的切換
生產中心和災備中心主備應用服務器的IP地址空間相同,客戶端通過唯一的IP地址訪問應用服務器。在正常情況下,只有生產中心應用服務器的IP地址處於可用狀態,災備中心的備用服務器IP地址處於禁用狀態。一旦發生災難,管理員手工或通過腳本將災備中心服務器的IP地址設置爲可用,實現網絡訪問路徑切換。
(2)基於DNS服務器的切換
在這種方式下,所有應用需要根據主機名來訪問,而不是直接根據主機的IP地址來訪問,從而通過域名實現網絡切換。
(3)基於負載均衡設備的切換
通過在服務器集羣前端部署一臺負載均衡設備,根據已配置的均衡策略將用戶請求在服務器集羣中分發,爲用戶提供服務,並對服務器可用性進行維護。負載均衡能夠按照一定的策略分發到指定的服務器羣中的服務器或指定鏈路組的某條鏈路上,調度算法以用戶連接爲粒度,並且可以採取靜態設置或動態調配的方式。負載均衡設備能夠針對各種應用服務狀態進行探測,收集相應信息作爲選擇服務器或鏈路的依據,包括ICMP、TCP、HTTP、FTP、DNS等。通過對應用協議的深度識別,能夠對不同業務在主生產中心和災備中心之間進行切換。
5.3.2應用切換設計
應用切換是指生產中心由於發生災難而癱瘓時,可由災備中心的備用服務器提供業務接管,確保業務運行的高連續性。
實現應用切換的前提條件是:
• 數據已經從生產中心同步到災備中心;
• 災備中心配置與生產中心對應的應用軟件服務器、數據庫服務器和中間件服務器等,且運行正常;
• 災備中心網絡運行正常或能夠實現正常切換。
應用切換技術主要有以下幾種:
(1)雙活數據庫技術
部分數據庫複製容災軟件,能夠實現生產中心和災備中心數據庫雙活,即災備中心的備份數據庫也處於Open狀態,客戶端可對災備數據庫進行只讀訪問(例如GoldenGate、DSG等數據庫複製軟件)。生產中心和災備中心數據庫保持雙活,可提高災備中心的資源利用率,分擔生產中心的業務負擔,在發生災難時,自然也可以實現應用和業務的接管。
這種方式的缺點之一是隻適合於特定的數據庫應用,不適合文件系統等應用,有一定的侷限性。
(2)遠程集羣技術
遠程集羣是指通過在生產中心和災備中心的應用服務器上安裝遠程集羣軟件(例如Veritas Storage Foundation中的GCO組件),實現跨廣域的多服務器狀態的監控,當發生災難時,實現應用服務器的自動切換。主要是由廠家提供的一些容災軟件實現自動切換,拉起異地的應用和數據庫。例如,賽門鐵克的VCS,IBM的PowerHA等。
(3)手動切換方式
手動切換方式實現較簡單,總體成本低,適用範圍廣,而且較可靠。採用這種方式時,災備中心部署與生產中心相對應的應用服務器和數據庫服務器,安裝相應軟件。在正常情況下,災備中心服務器可選擇不運行或者處於就緒狀態但對外不可訪問;發生災難時,可在人爲決策後,將災備中心服務器啓動或恢復對外訪問,實現業務的快速切換。
5.4 本地高可用性應用
5.4.1 HA
vSphere High Availability (HA) 可爲虛擬機中運行的應用提供易於使用、經濟高效的高可用性。 一旦物理服務器出現故障,VMware High Availability 可在具有備用容量的其他服務器中自動重啓受影響的虛擬機。 若操作系統出現故障,vSphere HA 會在同一臺物理服務器上重新啓動受影響的虛擬機。
圖7 vSphere High Availability
HA 通過監控虛擬機以及運行這些虛擬機的主機,爲實現高度可用的環境奠定了基礎。 HA 是一種成熟的解決方案,可提供可擴展性、可靠性和易用性:
可擴展性
隨着VMware產品在如今的新式數據中心內得到越來越多的使用,提供一種可擴展的解決方案來實現高可用性已成爲必需。經過重新設計的vSphere HA便奠定了這一基礎。
vSphere HA的其中一項最大的變化就是完全摒棄了主節點和輔節點的概念。新模型在集羣中的節點間引入了一種主/從關係:集羣中的一個節點被選作主節點後,其餘的節點皆成爲從屬節點。主節點負責協調與其他節點的所有可用性操作,並將這種狀態告知VMware vCenter Server。採用這種模式時,在爲高度可用的環境設計體系結構時便無需再進行大量的規劃工作。管理員再也不必擔心是哪些主機擔當他們的主節點以及這些主機位於何處。
可靠性
發生災難事件時,管理員最不希望擔心的事情就是所部署的解決方案是否將正常發揮作用。VMware通過分析客戶就vSphere HA最常致電尋求支持的內容,增加了一些可確保客戶繼續滿懷信心地使用vSphere HA的功能。
有一項增強是讓vSphere HA不再依賴任何外部組件。具體而言,就是vSphere HA不再對集羣中每個主機進行的DNS解析有任何類型的依賴。通過消除這種依賴,降低了外部組件停機對vSphere HA的運行產生影響的可能性。
還有一項增強是能夠通過存儲子系統在集羣內的節點之間實現通信。現在,vSphere HA將通過網絡和存儲使用多條通信路徑。這不僅可以實現更高的冗餘級別,還有助於更好地確定節點及其上運行的虛擬機的運行狀況。
易用性
儘管對vSphere HA進行的大多數增強,終端用戶都看不到,但針對易用性提升進行的增強則可以給終端用戶帶來最直接、最切身的體驗。
通過對用戶界面進行的改進,用戶可以快速確定節點在集羣中所發揮的作用以及它的狀態。此外,報告錯誤情況的消息也變得更爲易懂,而且也更容易據此採取行動。真的出現問題時,只需查看一個日誌文件即可,從而大大減少了解決問題所用的時間。
5.4.2 vMotion
vSphere vMotion能在實現零停機和服務連續可用的情況下將正在運行的虛擬機從一臺物理服務器實時地遷移到另一臺物理服務器上,並且能夠完全保證事務的完整性。vMotion是創建動態、自動化並自我優化的數據中心所需的關鍵促成技術,它的主要優點是:
即時遷移正在運行的整個虛擬機
VMware的客戶中,80%都在生產中部署了vMotion技術,此技術利用服務器、存儲和網絡連接的完全虛擬化,可將正在運行的整個虛擬機從一臺物理服務器立即遷移到另一臺物理服務器上,同時,虛擬機會保留其網絡標識和連接,從而確保實現無縫的遷移過程,管理員可以使用這種熱遷移技術來完成如下操作:
- 在零停機、用戶毫無察覺的情況下執行實時遷移
- 持續自動優化資源池中的虛擬機
- 在無需安排停機、不中斷業務運營的情況下執行硬件維護
- 主動將虛擬機從發生故障或性能不佳的服務器中移出,從而保證虛擬機的運行效率
輕鬆管理和安排實時遷移
遷移向導可以使管理員輕鬆管理和安排虛擬機的遷移操作,它可以:
- 執行任何虛擬機的多個並行遷移,虛擬機可以跨任何受vSphere支持的硬件和存儲並運行任何操作系統
- 幾秒鐘內即可確定虛擬機的最佳放置位置
- 安排遷移在預定時間發生,且無需管理員在場
可以實現跨邊界遷移和遠距離遷移
憑藉 vSphere 6.0,VMware 通過提供可以跨分佈式交換機和 vCenter Server 的邊界實施的新 vMotion 功能,不斷革新工作負載實時遷移技術,如下圖所示:
圖8 跨分佈式虛擬交換機執行vMotion
5.4.3 FT
圖9 vSphere Fault Tolerance
vSphere HA通過在主機出現故障時重新啓動虛擬機來爲虛擬機提供基本級別的保護,而vSphere Fault Tolerance可提供更高級別的可用性,它允許用戶對任何虛擬機進行保護以防止主機發生故障時丟失數據、事務或連接。FT可以完成如下功能:
- 在受保護的虛擬機響應失敗時自動觸發無縫的有狀態故障切換,從而實現零停機、零數據丟失的持續可用性
- 在故障切換後自動觸發新輔助虛擬機的創建工作,以確保應用受到持續保護
Fault Tolerance可提供比vSphere HA更高級別的業務連續性。當調用輔助虛擬機以替換與其對應的主虛擬機時,輔助虛擬機會立即取代主虛擬機的角色,並會保存其整個狀況。應用程序已在運行,並且不需要重新輸入或重新加載內存中存儲的數據。這不同於vSphere HA提供的故障切換,故障切換會重新啓動受故障影響的虛擬機。
FT的主要特點如下:
不論使用何種操作系統或底層硬件,均可爲應用提供保護
Fault Tolerance可以保護所有虛擬機(最多包含 4 個虛擬 CPU),包括自主開發的應用,以及無法用傳統的高可用性產品來保護的自定義應用。它可以:
- 與所有類型的共享存儲都兼容,包括光纖通道、iSCSI、FCoE和NAS
- 與VMware vSphere支持的所有操作系統兼容
- 可與現有的vSphere DRS和High Availability (HA)集羣協同工作,從而實現高級負載平衡和經優化的初始虛擬機放置
- 特定於FT的版本控制機制,允許主虛擬機和輔助虛擬機在具有不同但兼容的補丁程序級別的FT兼容主機上運行
易於設置,可按虛擬機啓用和禁用
由於Fault Tolerance利用了現有的vSphere HA集羣,因此可以使用FT保護集羣中任意數量的虛擬機。對於要求在某些關鍵時段(例如季末處理)獲得持續保護的應用,可以利用FT更加有效地保證它們在這些時段可用。
只需在vSphere Web Client中輕鬆執行點擊操作,即可啓用或禁用FT,使管理員能夠根據需要使用其功能
此外,vSphere 6.0還引入瞭如下新特性:
- 增強的虛擬磁盤支持:目前支持任意磁盤格式 (thin, thick和EZT)
- 支持對FT進行熱配置:在開啓FT的時候不再需要關閉虛擬機
- FT的主機兼容性大幅增強:只要可以在主機間進行虛擬機的在線遷移,那麼久可以進行FT。
5.4.4 無代理終端安全防護
圖10 無終端防護示意圖
終端安全管理是一項費時費力的工作,終端分佈廣泛,種類繁多,難於管控。傳統的終端安全防護手段需要在終端上部署代理程序,保證這些代理始終有效且能得到及時更新,是一項充滿挑戰的工作,很多企業爲此不得不應用終端管理和網絡准入控制等解決方案來保證終端的可控。虛擬化和雲計算時代的到來,徹底的改變了這種局面。虛擬基礎架構爲企業計算環境帶來了新的管控手段,使無代理安全防護成爲可能。vShield Endpoint 通過將病毒掃描活動從各個虛擬機卸載到安全虛擬設備來提高性能。安全虛擬設備能夠持續更新防病毒特徵碼,爲主機上的虛擬機提供無中斷保護。
vShield Endpoint 直接嵌入到 vSphere 中,由以下這三個組件組成:
- 經過加強的安全虛擬設備,由 VMware 合作伙伴提供
- 虛擬機精簡代理, 用於卸載安全事件 (包含在 VMware Tools 中)
- VMware Endpoint ESX虛擬化管理程序模塊,用於支持前兩個組件在虛擬化管理程序層上的通信。
例如,對於防病毒解決方案,vShield Endpoint 將監視虛擬機文件活動並通知防病毒引擎,然後再由引擎進行掃描並返回處置信息。該解決方案支持在訪問時進行文件掃描,以及由安全虛擬設備中的防病毒引擎發起的按需(計劃內)文件掃描。當需要進行修復時,管理員可以使用他們現有的防病毒和防惡意軟件管理工具指定要執行的操作,同時由 vShield Endpoint 管理受影響虛擬機中的修復操作。其主要功能特性如下:
卸載防病毒和防惡意軟件負載
- vShield Endpoint 使用 vShield Endpoint ESX 模塊將病毒掃描活動卸載到安全虛擬設備中,通過在該設備上執行防病毒掃描提高性能。
- 通過瘦客戶端代理和合作伙伴 ESX 模塊,將文件、內存和進程掃描等任務從虛擬機卸載到安全虛擬設備中。
- vShield Endpoint EPSEC 使用虛擬化管理程序層的自檢功能來管理虛擬機與安全虛擬設備之間的通信。
- 防病毒引擎和特徵碼文件只在安全虛擬設備內更新,但可對 vSphere 主機上的所有虛擬機應用策略。
修復
- vShield Endpoint 實施防病毒策略,以指定應刪除、隔離還是以其他方式處理惡意文件。
- 精簡代理負責管理虛擬機內的文件修復活動。
加強虛擬數據中心的端點安全保護
可以充分利用現有投資,並且可在與用來保護物理環境相同的管理界面中管理虛擬化環境的防病毒和防惡意軟件策略。 VMware vShield™ Endpoint 可在增強 VMware vSphere 和 VMware View 環境的安全性的同時,將端點保護性能提高若干數量級,而且還能將防病毒和防惡意軟件代理的處理工作負載卸載到由 VMware 合作伙伴提供的專用安全虛擬設備上。
- 通過避免防病毒“風暴”提高整合率和性能
- 簡化 VMware 環境中的防病毒和防惡意軟件功能部署與監控
- 通過將防病毒和防惡意軟件活動記入日誌滿足合規性和審覈要求
六、總結
綜上所述,本虛擬化部署方案根據國際銀行的虛擬化和存儲需求,分別考慮了5種分區並提出了相應的虛擬化方案,並對用戶劃分以及權限設置以及虛擬機命名等細節上提出了規劃;存儲系統的設計上使用了分級存儲、磁盤陣列、CAS系統等存儲技術;提出了相應的存儲方案,並對方案配置等進行了細節上的分析;最後對於容災方案,從三個方面數據容災,應用容災和網絡容災;兩個級別:本地高可用性和異地容災,提出了相應的解決方案思路,並結合了vSphere的功能特性進行了闡述。 在設計過程中充分考慮了銀行的業務需求,使其具有較高的業務可擴展性,並在容災方面進行了細緻的考慮,從而滿足了該國際銀行的構建虛擬化平臺的要求。
七、參考文獻
[1]何錫點,馬桂勤.基於雲平臺的數據中心改造架構設計及關鍵技術[J].網絡安全技術與應用,2018(12):73-75.
[2]張恬.虛擬化技術在數據中心的應用[J].電腦知識與技術,2018,14(31):256-257.
[3]康玉虎.服務器虛擬化環境下的數據備份[J].電子技術與軟件工程,2018(19):175.
[4]盛建忠.VMware vSphere虛擬化平臺運維探索[J].金融科技時代,2018(09):30-34.
[5]王博.銀行數據中心數據存儲管理的實現與優化[J].電子技術與軟件工程,2018(05):164-165.
[6]孫張龍. 基於虛擬化技術的某銀行數據中心設計與實現[D].電子科技大學,2017.
[7]王珊珊. 雲計算在工商銀行會計信息化中的應用研究[D].哈爾濱商業大學,2017.
[8]苟潔. 基於VMware vSphere技術的虛擬雲平臺的研究與設計[D].成都理工大學,2016.
[9]張璐陽. 商業銀行中的雲計算應用[D].南京郵電大學,2015.
[10]張楠.金融雲時代銀行數據中心網絡安全虛擬化的技術實踐[J].保密科學技術,2015(02):17-20.
[11]李建安. 面向銀行Domino業務的虛擬化技術應用[D].上海交通大學,2014.
[12]徐克周. 商業銀行虛擬化資源池的設計與實現[D].廈門大學,2014.
[13]袁志. 服務器虛擬化在商業銀行應用研究[D].湖南大學,2014.
[14]劉冠雄. 銀行數據中心高可用與高能效建設研究[D].復旦大學,2013.