大數據集羣跨多版本升級、業務0中斷,只因背後有TA

摘要:2021年4月21日,中國太平洋保險集團聯合華爲雲完成了全球首例大數據集羣跨多版本的大數據集羣滾動升級。

本文分享自華爲雲社區《華爲雲FusionInsight助力太保跨多版本升級業務0中斷》,作者: 沙漏 。

2021年4月21日,中國太平洋保險集團聯合華爲雲完成了全球首例大數據集羣跨多版本的大數據集羣滾動升級,突破傳統方案需離線停機多次升級模式,一次性將核心現網集羣版本由FusionInsight HD C70升級到FusionInsight MRS 8.0.2,橫跨C80、6.5.1兩個版本,同時完成了大數據集羣從物理機向雲服務的模式轉變,實現該案例在金融同業首例突破,樹立同業新標杆。經過爲期兩週的升級實施過程操作,實現太保上層業務無感的平滑滾動升級,全程集羣作業無中斷、性能無影響。本次跨版本滾動升級的成功對金融科技領域意義重大,標誌着中國太平洋保險爲金融同業樹立了大數據服務跨多版本升級、業務連續性和可持續演進的新建設標杆。

一、項目背景

中國太平洋保險集團從2017年選擇華爲雲FusionInsight構建保險大數據平臺。隨着太保與華爲雲合作的持續深入,其內部主要業務系統都已使用華爲雲大數據平臺。但是早期各業務系統都建設了獨立的大數據集羣,數據無法互通,存在數據冗餘,且多集羣造成維護難問題。截止升級前已建設18套大數據集羣,以FusionInsight HD C70版本爲主。

隨着太保業務的高速發展,對大數據平臺的統一管理、數據共享、升級演進有了新的訴求,希望將現網18套生產集羣進行統一升級和歸併,同時面向未來提供大數據集羣可持續演進的能力。

爲此,太保聯合華爲雲,決定將現有18套大數據集羣,由FusionInsight HD C70版本統一升級到MRS8.0,升級的主要目標:

  • 通過對原集羣升級歸併,統一爲一套大集羣,通過資源整合,提高資源利用率;
  • 統一到MRS平臺版本資源監控更完善,定位問題更準確;
  • 升級到雲平臺,可以按需靈活調配資源,實現可演進的湖倉一體架構,擴展其他高階服務。

二、項目內容

2.1 技術挑戰

太保大數據集羣按需部署了HBase、Hive、HDFS、ZooKeeper、YARN、Oozie、Hue、Spark等各類組件。

此外,集羣中每日有上萬作業的執行,也爲無感知的滾動升級加大了難度。主要挑戰有以下幾點:

  1. Hadoop組件內核由X到3.X的跨大版本升級中,社區僅提供了HDFS的滾動升級能力,YARN的社區原生目標版本由於與原版本協議不同,無法支持滾動升級;
  2. 社區原生版本的HDFS在升級過程中,刪除的文件並不會物理刪除,而是移動到trash目錄,這一處理對大容量集羣的滾動升級造成存儲資源壓力,阻礙了剩餘信息保護,如果不能及時清理會導致爆盤問題;
  3. Hive組件內核由X到3.X的跨大版本升級中,由於元數據前後格式不兼容、API前後版本有變化、部分語法不兼容等問題,導致社區原生版本無法支持滾動升級;
  4. HBase組件內核由X到2.X的跨大版本升級中,API前後版本存在較大的變化,導致社區原生版本無法支持滾動升級;
  5. 每日上萬任務量,滾動升級期間如何保障平穩運行,尤其是損益分析、減值測算等核心場景;
  6. 600+節點的大數據集羣環境下,需要確保在升級過程中突發狀況,快速應對硬件(磁盤、內存等)故障,不影響升級;
  7. 70+業務系統,數百個業務在此集羣上運行,滾動升級過程中需要保證每一個業務運行不受損。

2.2 技術保障

滾動升級就是藉助於FusionInsight MRS的高可用機制、主備模式、多副本機制、機架策略等在不影響集羣整體業務的情況下,一次升級/重啓部分節點。循環滾動,直至集羣所有節點升級到新版本。

下圖爲已HDFS組件滾動升級示例:

爲應對上述技術挑戰項目組建了滾動升級小組,由社區PMC、社區Commiter、版本Developer構成,主要執行了以下技術保障:

  • 依託協議同步、元數據映射轉換、API封裝轉換等方式,解決了社區協議不同、元數據格式不同、API變化等導致的兼容性問題,保障了滾動升級過程中低版本的組件客戶端的正常使用;

  • 針對HDFS社區新版本升級過程中的文件未刪除問題,額外實現了trash目錄自動清理,將邏輯刪除轉換爲物理刪除,並增補了舊版本定期清理trash目錄的工具。確保了基礎設施資源利用的有效性,降低存儲成本;
  • 針對組件升級前後性能狀況、升級時長、升級過程中和事後可能出現的瓶頸點等問題,做了相應架構調整及優化,助力實現滾動升級的全局可控、全程無感、全面無誤;
  • 運維管理方面,項目組針對性的研發了升級管理服務界面,可以端到端、分步驟地完成滾動升級,便於查看滾動升級狀態,實現組件級控制。爲了降低在升級過程中對關鍵任務服務連續性的影響,項目實現了按升級批次暫停的功能,有助於在關鍵作業或者作業高峯時段,通過暫停升級進行風險規避,確保業務無影響。此外,爲避免各種突發事件中斷升級進程,項目實現了故障節點隔離能力,在故障發生時,可以跳過對應節點的升級動作,保障了故障處理和升級的同步進行。

2.3 組織保障

項目啓動後,成立了以太保相關領導爲項目經理,以華爲交付和研發、太保的研發和運維爲成員的聯合項目組。本次升級面向的應用部門多達20+,平臺涉及業務數量多且複雜。爲保證滾動升級成功且整個過程中業務要做到0中斷,在升級前、中、後的6個月裏由華爲方主導,客戶各個業務部門緊密配合,項目組制定了周密的組織保障制度。

太保升級項目組織保障

  1. 升級前準備階段:在項目組整體協調和華爲的研發支撐下,完成了70+應用代碼改造及驗證,並輸出測試報告;爲充分識別風險,華爲主動提供測試環境硬件資源,項目組聯合各應用部門,進行了3次升級演練的聯合測試;爲達成升級前置條件,華爲專家調研指導,有效的進行了集羣小文件合併、客戶端整改、集羣多次巡檢、升級方案的反覆評審改進等升級前準備工作;
  2. 升級過程保障:在升級過程的兩週期間,華爲安排研發、方案等專家現場保障。華爲協同太保聯合項目組制定了24小時排班保障、聯合項目組和應用部門間的信息反饋及溝通(滾動升級中每組件升級完都需業務驗證及確認)、升級操作的聯合項目組授權、升級操作的錄屏監控等制度;
  3. 升級後觀察:滾動升級完成後,聯合項目組協調各應用部門進行應用業務驗證,且已全部輸出業務運行正常報告。後華爲項目組後續持續觀察兩週時間,確認平臺及應用運行正常後進行了本次升級提交。

三、總結與展望

太平洋保險聯合華爲公司完成的本次金融業首家大數據集羣跨多版本的滾動升級,實現了上層業務無感知、全程集羣作業無中斷、性能無影響,切實保障了客戶的核心利益,也樹立了金融同業新標杆。

隨着數字化技術的不斷迭代升級,將改變傳統保險運營模式,未來主要會呈現出以下三個方向的變革:

  1. 實現從大數到小數,加強風險數字刻畫,從過去的大數概率到小數更加敏銳的感知,將從根本上改變傳統的運營模式;
  2. 從實體到虛擬,數據已是重要的生產資料,通過海量數據識別和評估新型資產的風險,將成爲保險業的核心能力;
  3. 從保險到治理,數字化將提升保險公司自身風險管理能力,將更多的參與到國家、城市的風險治理當中,逐步從損失補償到風險管理和治理。

面向未來,太平洋保險將攜手華爲持續創新,不斷完善風險生態,貫徹"以客戶需求爲導向"的戰略,建設"專注保險主業,價值持續增長,具有國際競爭力的一流保險金融服務集團"。

 

點擊關注,第一時間瞭解華爲雲新鮮技術~

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章