原创 DataX系列6- MysqlWriter介紹 一. 快速介紹 二. 實現原理 三. 功能說明 四. 測試案例 參考:

一. 快速介紹   MysqlWriter 插件實現了寫入數據到 Mysql 主庫的目的表的功能。在底層實現上, MysqlWriter 通過 JDBC 連接遠程 Mysql 數據庫,並執行相應的 insert into ... 或者 (

原创 DataX系列5- MysqlReader介紹 一. 快速介紹 二. 實現原理 三. 功能說明 參考:

一. 快速介紹   MysqlReader插件實現了從Mysql讀取數據。在底層實現上,MysqlReader通過JDBC連接遠程Mysql數據庫,並執行相應的sql語句將數據從mysql庫中SELECT出來。   不同於其他關係型數據庫,

原创 DataX系列2- 安裝DataX 一.系統要求 二.下載及安裝 三.啓動datax 參考:

一.系統要求 Linux JDK(1.8以上,推薦1.8) Python(推薦Python 2.6.x) Apache Maven 3.x(編譯DataX時才需要)   此處使用二進制安裝包的方式安裝,所以無需使用Maven,相關軟件配

原创 DataX系列1-DataX介紹 一. DataX 概述 二. DataX3.0框架設計 三. DataX3.0插件體系 四. DataX3.0核心架構 五. DataX 3.0六大核心優勢 參考:

一. DataX 概述   DataX 是一個異構數據源離線同步工具,致力於實現包括關係型數據庫(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各種異構數據源之間穩定高效的數據同步功能。   此前已經開

原创 Atlas介紹 一. Apache Atlas簡介 二. 整體架構 參考:

一. Apache Atlas簡介 1.1 簡介 在當今大數據的應用越來越廣泛的情況下,數據治理一直是企業面臨的巨大問題。 大部分公司只是單純的對數據進行了處理,而數據的血緣,分類等等卻很難實現,市場上也急需要一個專注於數據治理的技術框架,

原创 CDH 6.3.1 集成Atlas 一. Atlas下載 二.ATLAS源碼編譯 三. ATLAS安裝 四. ATLAS啓動 五. ATLAS與HIVE集成 FAQ: 參考:

備註: 安裝之前 先要準備好 JDK1.8 Zookeeper Kafka Hbase Solr 一. Atlas下載 現在linux環境通過git下載: git clone -b release-2.1.0-rc3 https://gi

原创 數據倉庫系列9- 大數據分析 一. 大數據概覽 二. 推薦的應用於大數據的最佳實踐 參考:

一. 大數據概覽   什麼是大數據 ?所謂的 “大” 實際上並不是大數據的最有趣的特徵 。大數據是結構化、 半結構化、非結構化以及衆多不同格式的原始數據 ,某些情況下 ,它看起來與您 30 多年來 在數據倉庫 中存儲的清楚的標量數字和文本存

原创 數據倉庫系列10- 數據倉庫規範 一. 數據模型架構原則 二. 數倉公共開發規範 三. 數倉各層開發規範 四. 數據倉庫命名規範 參考:

一. 數據模型架構原則 1.1 數據倉庫分層 分層的好處: 清晰數據結構; 數據血緣追蹤; 減少重複開發; 數據關係條理化; 屏蔽原始數據的影響。 當前DW結構現況 1.1.1 ODS(源數據層)   ODS 層,是最接近數據源中數

原创 數據倉庫系列8-ETL系統設計與開發過程和任務 一. ETL 過程概覽 二. ETL 開發規劃 三. 開發一次性的歷史加載過程 四. 開發增量式 ETL 過程 五. 實時的影晌 參考:

一. ETL 過程概覽   本章將按照 ETL 系統規劃與實現的流程組織討論 。其中隱含地討論上一章所討論的 34 個 ETL 子系統 ,大致按照獲取數據 、清洗與一致性、用於展現的發佈 、ETL 環境的管理等分類 。   在開始談論針對維

原创 數據倉庫系列6-維度建模過程與任務 一. 建模過程概述 二. 組織工作 三. 維度模型設計 參考:

一. 建模過程概述   開始討論維度建模設計工作前,必須考慮正確的人選 。最值得注意的是,我們強烈主張業務代表參加建模會議 。他們的加入與合作必然會增加最終模型解決用戶需求的可能性。同樣,組織的業務數據 管理人員也應該參加 ,特別是當討論

原创 數據倉庫系列5-Kimbal DW/BI生命週期概述 一. 生命週期初始活動 參考:

一. 生命週期初始活動 1.1 程序/項目規劃與管理 毫無疑問,DW/BI 始於一系列的程序和項目規劃活動 。 1.1.1 評估準備   在開始 DW/Bl工作前 ,有必要花點時間評估組織的準備工作 。基於與上百家客戶約談所積累的經驗 ,

原创 Flink案例系列1-本地運行Flink報錯java.lang.NoClassDefFoundError 一.問題描述 二.解決方案

一.問題描述 環境介紹 Flink版本 1.9.0 Kafka版本 2.12 代碼: package org.example; /* @author 只是甲 * @date 2021-08-30 * @remark Fl

原创 數據倉庫系列3-事實表 一. 事實表介紹 二. 事實表分類 2.1 事務事實表 三. 如何設計事實表 四. 高級事實表技術 參考:

一. 事實表介紹 1.1 事實表結構   發生在現實世界中的操作型事件,所產生的可度量數值 ,存儲在事實表中。從最低 的粒度級別來看 ,事實錶行對應一個度量事件 ,反之亦然 。因此,事實表 的設計完全依賴 於物理活動,不受可能產生的最終報表

原创 數據倉庫系列4-維度表 一. 維度表技術基礎 二. 使用一致性維度集成 三. 處理緩慢變化維度屬性 四. 處理維度層次關係 五. 高級維度表技術 參考:

一. 維度表技術基礎 1.1 維度表結構   每個維度表都包含單一的主鍵列 。維度表的主鍵可以作爲與之關聯的任何事實表的外鍵,維度錶行的描述環境應與事實錶行完全對應 。維度表通常比較寬 ,是扁平型非規範表 ,包含大量的低粒度的文本屬性 。操

原创 數據倉庫系列1-數據倉庫介紹 一. 數據倉庫定義 二. 操作型系統和分析型系統 三. 數據倉庫的用途 參考:

一. 數據倉庫定義 數據倉庫(Data Warehouse,簡稱DW)是面向主題的、集成的、穩定的、反映歷史變化的數據集合。 面向主題 主題是業務數據特點的一種抽象表達,一般從主題名稱字面意思即可大致瞭解主題下數據的業務意義。常見主題如