從離線到實時對客,湖倉一體釋放全量數據價值

近期,巨杉數據庫舉行線上發佈會,發佈基於「湖倉一體」架構的v5.2版本,提升多項「實時」能力,詮釋公司「釋放全量數據價值」的價值主張。深度解析在數字化時代下,SequoiaDB如何圍繞金融銀行業的實時需求,全面提升結構化查詢分析、非結構化存取、性能監控故障診斷及數據生命週期管理的四大能力,讓全量數據的價值從「內部離線」向「實時對客」進一步釋放。會中,賽迪諮詢深度解讀全國首個《湖倉一體技術研究報告》,詳細介紹湖倉一體架構的興起與未來發展方向。

 

巨杉基於數據湖的實時能力已經達到全球領先,技術實力得到了金融頭部客戶的認可。2012年巨杉數據庫正式成立,並於2014年正式商用,產品已在超過100家金融銀行客戶規模化生產上線,其中不乏中國人保、民生銀行、南方電網、中國太平保險等世界500強企業及廣發銀行、廣東省農信、四川省農信、吉林省農信、恆豐銀行、渤海銀行、上海銀行、上海農商銀行、中國證券登記結算有限公司、海通證券等典型客戶。在單一客戶中SequoiaDB所支持的最大數據量,已經達到1.4萬億行、服務器規模超過400臺、數據容量達數PB;SequoiaDB更服務於多個政府平臺,如支持“粵省事”平臺的醫保、社保數據查詢,這些數據也助力新冠核酸檢測,幫助政府匹配核酸檢測情況。

雙核心:交易核心+數據核心,讓全量數據實時可得

 

過去的10年,是信息化向數字化轉型的10年,伴隨數字化的深化發展,企業不但需要面向業務交易的信息化傳統「交易核心」,同時更需要面向數據價值的「數據核心」。移動互聯網、AI、IOT、大數據等的興起與發展,數字化成爲企業的全新課題,數據庫是企業數字化轉型的基石。
信息化時代,「交易核心」解決的是交易系統的問題,面向渠道、產品、客戶、覈算及清算等業務流程,確保業務閉環。其交易過程產生的海量流水數據,將成爲「數據核心」的生產要素。
數字化時代,「數據核心」解決的是數據的採集、整理、聚合、運用等問題。數字化新核心將爲信息化「交易核心」提供實時、跨業務的全量數據,以及基於數據的決策依據,實現數據價值的持續釋放。

 

「實時」是「釋放全量數據價值」的關鍵。10年前,巨杉數據庫自萌芽之初就意識到,數據會成爲社會發展關鍵的要素資源,需要提供面向全量數據的實時對客及高併發處理能力。業界遇到的普遍痛點是,面向「交易核心」的數據庫因架構及技術限制僅能服務於指定的業務系統,且無法處理全量數據;以Hadoop爲代表的大數據產品雖然可以存放全量數據,但無法提供實時處理能力,兩者皆無法滿足全量數據實時對客服務的發展需求。因此巨杉毅然開始了自研原生分佈式數據庫內核的道路,從「多模數據湖」、「實時數據湖」發展到「湖倉一體」,爲客戶提供「數據核心」所需的全量數據存儲,實時對客服務,及基於統一數據源的分析能力,充分激活客戶的離線數據。

四大實時能力提升,SequoiaDB v5.2釋放全量數據價值

 

巨杉數據庫基於湖倉一體架構的SequoiaDB v5.2版本進行了多項更新,此次發佈會主要介紹了四大實時特性的能力提升。即將發佈的SequoiaDB v5.2版本讓全量數據的價值從「內部離線」向「實時對客」進一步釋放。

 

查詢更實時,所有數據可毫秒級訪問。面向結構化數據,SequoiaDB v5.2版本提供深度的Join優化及列存微分區技術,在多個查詢場景下,性能達到了毫秒級實時返回;分析場景中,性能更獲得了10倍以上提升,讓數據湖的查詢分析更實時。
存取更實時,吞吐量提升30%以上。面向非結構化數據,巨杉通過「分片併發」及「可變分區大小」的技術,相比原有版本,SequoiaDB v5.2版本吞吐量提升30%以上,讓數據湖的非結構化數據存取更實時。
診斷更實時,業務問題分鐘級定位。發佈會上,巨杉數據庫發佈SAC運維管理工具的重要特性更新,運行監控方面提供了全GUI的性能及故障分析能力,SAC基於分佈式架構的實時診斷,可實現業務問題分鐘級定位。
全量數據生命週期管理,提升人效及能效。部署架構方面,支持多配置硬件的混合部署,針對高併發數據與低併發數據,做到按需調度;面向橫跨結構化、非結構化數據,提供一體化的開發及管理能力,提升人效及能效,在成本可控的前提下,實現全量數據實時可用。

技術迭代互補,而非替代

 

巨杉數據庫深耕第三代分佈式數據庫技術,我們認爲分佈式數據庫的星辰大海,絕不僅限於對交易核心數據庫的替代。SequoiaDB的「湖倉一體」是從「多模數據湖」、「實時數據湖」結合「實時數倉」發展而來,爲客戶提供「數據核心」所需的全量數據存儲,實時對客服務,及基於統一數據源的分析能力,充分激活客戶的離線數據。SequoiaDB正通過湖倉一體架構提供面向多模、實時、分析的需求,與各類集中式及分佈式交易核心數據庫成爲上下游合作伙伴,驅動數字化業務創新,釋放全量數據價值

 

60年前誕生的第一代數據湖,以網格型、層次型數據庫爲代表,至今還有不少企業依然在使用;第二代數據庫,以處理交易核心業務的關係型數據庫爲代表,是當前業界的主流。第一、第二代數據庫大都基於集中式架構,因架構、數據結構的限制,導致大量的數據產生後,無法對業務流水、用戶過程數據等全量數據做保存沉澱。往往需要將全量數據異步導出到大數據等後端平臺,無法提供給終端用戶實時查詢分析,成爲了僅對內部使用的離線數據,難以滿足終端用戶實時查詢需求。

 

巨杉數據庫SequoiaDB通過基於「湖倉一體」架構,支撐企業的「數據核心」。從企業多個「交易核心」數據庫所產生的業務流水數據,可以以流式入湖的方式,秒級匯聚到SequoiaDB形成全量數據底座。
實時數據湖:爲不同業務的跨系統查詢,或多年流水數據獲取,提供高併發的實時查詢能力,所有數據實時可得。相比原來跨多系統進行數據異構訪問的方式,SequoiaDB協助客戶將業務響應時間從分鐘、小時級延遲,到秒級延遲的改變,讓用戶滿意度獲得大幅提升。
多模數據湖:爲影像系統、遠程銀行等需要大量管理非結構化數據的系統,提供多模數據湖技術重點優化非結構化對象數據的高併發實時存取能力,實現跨多數據類型的一體化管理,提升研發及運維的“人效”。
實時數倉:在數據湖內提供高性能分析引擎,可以協助企業基於準確而且統一的數據源,進行數據的實時探索及分析、統計、加工,降低數據再次流動的開銷,提升數據處理“能效”,構建綠色低碳的數據基礎設施。

培育數據沃土,打造產學研生態鏈

 

數據庫的發展不但需要技術的創新迭代,同時也需要建立良好的技術生態。
憑藉南沙“立足灣區、協同港澳、面向世界”的發展定位,在過去的一年間,巨杉數據庫積極打造產學研生態鏈。通過分佈式人才培養、高校協同、上下游企業賦能等,攜手客戶、合作伙伴、高校共同推進分佈式技術的發展。目前,通過巨杉數據庫培訓認證的技術工程師已經超過一萬人。

 

在高校協同方面,巨杉數據庫先後在華南理工大學、深圳大學設立長期的「巨杉數據庫獎學金」,推動中國分佈式數據庫人才培育。在產業生態方面,巨杉積極推動行業標準、團標及生態聯盟的建設,致力於建設一個開放的基礎軟硬件企業級生態,特別是已經與鯤鵬、飛騰、海光、麒麟、統信等廠商的150多款信創上下游產品完成互認證。

 

發佈會上,賽迪諮詢也對全國首篇《湖倉一體技術研究報告》進行深度解讀,將湖倉一體技術定義爲未來發展趨勢。
未來,巨杉數據庫SequoiaDB也將持續聚焦於分佈式特性,通過「湖倉一體」架構爲客戶打造「數據核心數據庫」,成爲數字化時代下堅實的數據基礎設施。在“信創”產業中,堅持踐行信息技術應用創新的理念,服務於企業全量數據實時業務場景,與各類集中式及分佈式交易核心數據庫成爲上下游合作伙伴,驅動數字化的業務的創新發展,釋放全量數據價值。
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章