案例丨「PB級數據」股份制銀行內容管理平臺的探索與實踐

導讀：

隨着移動互聯網的飛速發展，海量非結構化數據的應用場景日益增多。巨杉數據庫基於原生分佈式技術，採用多模數據湖，提供了存算分離、海量數據存儲、多模數據、高併發訪問等能力，爲銀行的非結構化數據治理提供了內容管理平臺的解決方案。結合AI技術的推動，進一步探索非結構化數據的價值釋放，從而提高數據處理的效率和準確性。在實踐中，根據不同的客戶發展階段和業務特性，巨杉數據庫深入剖析客戶的業務需求，基於多模數據湖在結構化數據與非結構化數據的融合處理方向上提供了成功的解決方案，並積極探索在全量數據場景下，如何推動銀行業數據管理的智能化進程。

巨杉數據庫銀行典型客戶案例

在股份制銀行的內容管理平臺場景中，巨杉數據庫已經落地了近百億條、百TB級數據的穩定支撐能力，提供PB級數據場景下的高併發訪問。
近些年，伴隨着移動互聯網飛速發展，基於手機銀行、移動營業廳、網上銀行、遠程銀行、開放銀行、流程銀行等業務渠道，在各類創新的業務有效地提升了客戶體驗的同時，也爲銀行帶來了海量的電子憑證、圖像、音視頻等非結構化數據。非結構化數據從原來僅僅用於數據的電子化存檔，上升成爲業務交易鏈條中的關鍵環節，傳統內容管理平臺基於Documentum、FileNet、IBM CM、SAN存儲等架構的管理系統隨着數據量爆發式增長之後，逐漸面臨查詢性能慢、實時性不高、併發處理性能急速下降、擴容困難等問題。

圖1 系統概述進化圖

SequoiaDB基於原生分佈式技術構建的多模數據湖，實現了資源池化，結構化和非結構化等多模數據海量存儲，多中心容災等技術能力，爲銀行提供一體化的非結構化數據存儲平臺，以及包含批次管理、版本管理、生命週期管理、標籤管理、模糊檢索、斷點續傳等豐富的元數據管理機制。
SequoiaDB分佈式數據庫滿足銀行的靈活按需擴容、低成本海量存儲、高併發低延時訪問、異地分佈式架構、高效整合、多中心高可用、跨中心容災等需求，有效解決了平臺高併發低延時、數據管理、彈性擴容、雙活、高可用、集約運營、容災等問題，實現非結構化數據統一管理、數據全量在線、降低風險和減少成本等目標。

現狀

股份制銀行內容管理平臺提供各類業務流程化處理的影像非結構化數據及相關元數據的存儲，將原本分散的數據進行統一集中的管理，原內容管理平臺使用Documentum、 FileNet架構，隨着數據量增長，平臺面臨性能急速下降、擴容困難、查詢併發低、實時性不高等問題。不適用於面向客戶、高併發、高實時場景。同時由於數據量較大，存在容災數據恢復週期長的問題。

業務痛點

產品平臺化難：多產品線獨立建設，整合困難

數據共享：數據分散存儲，提取困難

擴容難：煙囪式系統構建，橫向擴容難

性能差：億級記錄後，性能下降，難優化

解決方案

新內容管理平臺基於SequoiaDB分佈式數據庫進行規劃建設。

SequoiaDB的內容管理能力

圖2 SequoiaDB的內容管理能

以基於Spring-Cloud框架的微服務架構爲基礎，基於SequoiaDB構建的內容管理平臺解決方案通過可插拔組件與可配置流程，允許用戶自由定義不同數據存儲容器中對象文件的處理方式。譬如，對於合同掃描件類型的業務，系統可以將OCR文字識別模塊直接加入非結構化文件處理流程，使得所有寫入該容器的合同自動進行文字識別處理，並直接支持針對其內容的全文檢索能力。

SequoiaDB的內容管理能力

業務創新：多業務融合創新，數據統一管理

非結構化數據治理：雙引擎技術，存算分離原生分佈式架構

引擎級多模：兼容SDB API、SQL、S3對象數據引擎接口

高性能，低成本：全量內容數據持續在線，多策略分區管理、分域緩存，資源池化的存儲引擎層，提升海量數據管理效率及處理性能，TCO爲傳統ECM方案1/3

股份制銀行基於SequoiaDB構建的內容管理平臺建設規劃如下：

股份制銀行內容管理平臺改造方案

圖3 股份制銀行內容管理平臺改造前後架構對比

各廠商的內容管理平臺（如：信雅達、方正國際、清華紫光等）通過調用巨杉數據庫提供的標準SQL API，與SequoiaDB分佈式數據庫進行交互，實現可按需橫向擴展的元數據、對象數據、標籤數據的跨中心一體化管理。
平臺採用SequoiaDB巨杉數據庫進行數據的存儲與統一管理。
巨杉數據庫是國產分佈式數據庫，原生支持分佈式集羣模式，基於多模數據湖，“計算與存儲分離”架構滿足客戶海量數據彈性存儲、橫向彈性擴容、億級記錄情況下的低延時高併發的數據查詢等需求，多副本機制提供數據高可用能力，多中心雙活提升數據讀寫性能以及災備能力，可以實現打通不同業務類型、不同數據類型之間的技術壁壘，實現交易分析一體化、流批一體化、多模數據一體化，充分滿足客戶在海量數據下高併發低延時查詢、按需的節點擴容、持續穩定運行等需求。

圖4 SequoiaDB巨杉數據庫系統架構
巨杉數據庫提供存算分離、資源隔離、多副本一致性以及多模數據（結構化、半結構化、非結構化數據）能力。

圖5 SequoiaDB巨杉數據庫彈性水平擴展

巨杉數據庫基於存算分離架構，實現存儲與計算能力的橫向彈性擴展。

本方案採用集羣方式部署，消除單點問題，提供高可用、高併發性能。

改造方案優勢

高併發低延時：海量數據下高併發、毫秒級響應

海量存儲：PB級數據管理、彈性擴容、靈活數據分片

資源隔離：物理隔離、邏輯隔離、權限分級

離線、滾動升級：部分或全部服務可用，完成軟件升級

除此之外，系統還擁有豐富的平臺能力，如下：

系統能力

集約運營：多模數據統一管理

數據管理：數據權限管理、對象數據版本控制、歷史版本回溯等功能，數據生命週期管理、冷熱數據分層存儲，提升數據治理水平

服務節點高可用：節點無狀態，多節點提供服務

多中心：跨中心部署，邏輯隔離、物理隔離

多索引：不同字段、維度創建索引，精準查詢

數據高可用：多副本機制

滿足監管要求：數據全量在線，數據安全

系統自主可控，支持信創：支持x86、ARM，核心代碼可控

容災：同城雙活、兩地三中心、三地五中心，RPO=0，RTO<15秒

此改造方案已經成功落地實施，並幫助客戶實現系統性能提升。

結束語

當今金融行業面臨着越來越多的數據管理和運營的挑戰，結合AI技術和多模數據湖的優勢，通過結構化數據與非結構化數據的融合處理，以及高併發訪問與統一集中運營的能力，內容管理平臺已經成爲了股份制銀行業務處理的重要工具，可以更加高效地管理和利用大量數據，從而提高業務運營效率和客戶服務水平。未來，巨杉數據庫將繼續不斷創新，打造更加安全、穩定、可靠的數據庫系統，深耕數據沃土，釋放全量數據價值，持續助力金融行業客戶信息化創新。

案例丨「PB級數據」股份制銀行內容管理平臺的探索與實踐

巨杉數據庫入選《2023年中國信創數據庫產品競爭力象限》"挑戰者"象限

巨杉數據庫入選廣州市軟件和信創產業鏈重點企業名單

SequoiaDB分佈式數據庫2023.9月刊

巨杉數據庫入選2023信創企業排行榜

綜合實力再獲認可！巨杉數據庫蟬聯2023「Cloud 100 China」榜單

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結