袋鼠雲數據中臺專欄2.0 | 數據中臺之數據集成

關於袋鼠雲數據中臺專欄V2.0

數據中臺如何定義?企業數據化與數據中臺的關係是什麼?數據中臺如何支撐企業戰略轉型?袋鼠雲近兩年來,先後爲國內數十家大型龍頭企業提供數據中臺諮詢與實施落地服務,積累了大量的實戰經驗,同時也在爲客戶服務的過程中,不斷完善和昇華自身的數據中臺理論體系和實踐方法論。希望通過後續文章的分享,與諸位讀者交流,共同加快企業全面數據化進程。本專欄每週更新1-2篇,敬請期待~

數據中臺之數據集成

1

在現代企業中,由於使用場景、業務形態、技術選型、開發架構的差異,往往有多個異構的、基於不同的軟硬件平臺上的信息系統同時運行,這些系統的數據源彼此獨立、相互封閉,使得數據難以在系統之間交流、共享和融合,從而形成了「信息孤島」。隨着信息化應用的不斷深入,企業內部、企業與外部信息交互的需求日益強烈,急切需要對已有的信息進行整合,聯通“信息孤島”,共享信息。

在企業構建數據數據中臺來解決數據互通和共享的要求下,「數據集成」是打通信息系統和數據中臺的管道和橋樑,是構成數據中臺全、統、通的重要基礎。

袋鼠雲數據中臺專欄2.0 | 數據中臺之數據集成

數據中臺 全 統 通

本文所講的數據集成,主要指的是從不同的數據存放介質將數據同步至數據中臺的環節,在某些場景下,也可以稱作「數據採集」、「數據同步」、「數據上雲」。

2 準備工作

在數據集成實施開發前,我們一般要進行以下調研和準備工作:

  • 數據源分類:見上一期的 數據中臺之數據源,確定數據源種類,並根據數據及時性要求,確定採集的技術組件

  • 網絡和環境:確定數據源的網絡和環境信息,根據實施集成方案,對現有的網絡和環境進行必要的改造和優化

袋鼠雲數據中臺專欄2.0 | 數據中臺之數據集成

  • 數據內容:調研數據的全量大小、增量大小、分佈情況

  • 數據質量:調研數據的增量標記、索引、主鍵信息等

  • 數據範圍:調研需要集成的數據範圍,篩選出需要集成到數據中臺的相關數據,一般以支撐業務流程或帶業務屬性的數據爲主

3 業務架構

針對採集的業務內容,以及常見的同步分類,我們將數據集成的業務架構整理如下:

袋鼠雲數據中臺專欄2.0 | 數據中臺之數據集成
數據集成的業務架構

4 集成流程

以下通過幾個典型的數據同步場景案例,來介紹數據同步流程。

3.1 關係型數據庫離線同步流程

袋鼠雲數據中臺專欄2.0 | 數據中臺之數據集成
關係型數據庫離線同步流程

3.2 API類數據同步

袋鼠雲數據中臺專欄2.0 | 數據中臺之數據集成

API類數據同步

3.3 實時類數據同步

袋鼠雲數據中臺專欄2.0 | 數據中臺之數據集成
實時類數據同步

5 袋鼠雲數棧 DTinsight - 數據同步模塊

數據同步模塊是在各個存儲單元之間執行數據交換的管道。

爲了在「DTinsightIDE」進行大規模數據集的挖掘與計算,通常的做法是在任務執行前將數據傳輸至DTinsightIDE,並在任務執行結束後將計算結果傳輸至外部存儲單元(例如MySQL等應用數據庫)。

數據集成的作用如下圖所示:
袋鼠雲數據中臺專欄2.0 | 數據中臺之數據集成

袋鼠雲數棧-數據同步模塊

袋鼠雲數棧-數據同步模塊的具有以下

  • 豐富的數據源支持
    數據同步模塊可對MySQL、Oracle、SQLServer、PostgreSQL、HDFS、Hive、HBase、FTP、ElasticSearch、ODPS、ElasticSearch、Redis、MongoDB等數據源,支持對這些數據源進行讀取或寫入數據。使用時僅需配置數據源的連接信息(例如填寫Oracle數據庫的JDBC URL、用戶名、密碼等信息),再配置對應的數據同步任務即可。

  • 分佈式系統架構
    數據同步模塊在系統架構上採用先進的分佈式系統架構(FlinkX[1]),可實現多個節點併發讀取、寫入數據,可極大的提升數據同步的吞吐量,相比Sqoop、Kettle等開源數據同步方案,數據吞吐能力更高、配套功能。

  • 可視化配置
    用戶在使用數據同步模塊時,可快速通過可視化配置的方式完成同步任務的創建與配置,主要包括同步任務選擇源庫源表、目標庫目標表、配置字段映射、配置同步速度等。

  • 全量/增量同步
    從業務系統讀取數據的過程中,爲了最小化對業務系統的影響,通常需要進行數據的增量同步。在源數據庫表中具備數據變更時間字段的情況下,支持對關係型數據庫進行增量數據同步,用戶僅需輸入相應的數據過濾語句即可實現。

  • 同步速度的控制
    支持數據同步速度控制,通過設置同步速率上限來調整,此參數需根據硬件配置和數據量來調整,用戶根據業務需求選擇設定的值。

  • 髒數據管理
    支持對髒數據是否需要記錄進行配置,可指定髒數據的存儲表名、生命週期,同時可配置當髒數據量超過一定數量或一定比例時任務置爲失敗,提示用戶及時排查髒數據問題,並生成分析報告。

更多精彩

關於袋鼠雲數據中臺系列專欄V2.0請添加鏈接描述

關於袋鼠雲

袋鼠雲是企業數據化整體解決方案提供商,是數據中臺架構倡導者、引領者,通過打通數據供應鏈,構建企業數據化驅動引擎,加速企業數據化進程,讓數據成爲企業核心競爭力。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章