原创 ID-Mapping Hive Sql 初始化

背景 例:A、B、C 設備屬於同一個用戶, C、D 屬於同一個用戶, D、E 屬於同一個用戶。 則可以將 A、B、C、D、E 當作同一個用戶。 1、數據初始化 create table test_id_mapping ( i

原创 跑滿YARN資源-優化方向

背景: YARN資源使用情況 如圖從內存使用佔比、Pending數量 可以看到 YARN的資源使用情況是很緊張的。 優化方向 1、JOB的執行引擎 MR -> Spark Sql 2、監控YARN資源在隊列和整體使用情況:

原创 HIVE元數據收集(python版本)

收集指標查看 數倉-HIVE元數據收集指標 一、已有工具 1、ZEUS (任務調度工具) 2、Dr-Elephant (任務調優工具) 3、Apache Griffin (數據質量工具) 二、最終落地Hbase表結構 row_

原创 數據倉庫是什麼,如何建立(總結)

一、是什麼 官方解釋:面向主題的、集成的、相對穩定、反應歷史變化,用於企業的管理決策分析。 開發者角度:通過接入各種數據源,打破數據壁壘,根據業務方的需求,設計方便使用和準確的數據模型,高效將結果輸出給業務方。 業務方角度:能快

原创 bitmap和布隆過濾器簡單總結

一、BitMap 解決的問題:大數據量下的排序、查找、去重。 1、關鍵 通過 bit位 表示一個數值的狀態(是否存在),那麼1MB能大約表示 800萬數值 (1,000,000B * 8 bit ) 2、侷限性: 1、內存限制:1

原创 數倉-HIVE元數據收集指標

通過對HIVE表進行打標籤,構建基礎元數據表 1、存儲 2、應用場景 3、數據質量 4、重要等級 5、調度任務 6、計算資源 7、被使用情況 1、存儲 HIVE表是否分區、量級(可定閾值 設定等級) 優化集羣存儲資源時、快速找

原创 元數據-血緣分析-應用場景總結

1、異常定位 假設有指標異常,想知道是什麼造成的。 通過 血緣分析配合數據質量,瞭解底層數據的波動情況,方便定位原因。 2、提升調度性能 通過收集 調度任務的開始結束時間,瞭解 關鍵任務 ETL鏈路的時間瓶頸,再根據JOB任務的執

原创 數據倉庫-元數據簡單總結

是什麼 數據的數據。 對使用者提供解釋說明,方便快速找到想要的數據。 對開發者提供開發模型指導,提供優化方向,監控異常質量。 元數據主要分爲兩大類:技術、業務 一、技術元數據 1、表的基本信息、存儲信息 (MetaStore、

原创 Hive Sql - Multi Distinct(多個distinct在同一個query中) 優化

背景 當多個 distinct 操作同時出現在 select 中,數據會分發多次。容易造成Reduce數據傾斜 優化點 1、如果不要求精確值,可以使用 spark-sql approx_count_distinct函數 (基數計數

原创 Griffin編譯失敗,kafka-schema-registry-client-3.2.0.jar下載地址

Griffin 編譯報錯如下 Failed to execute goal on project service: Could not resolve dependencies for project org.apache.gri

原创 HDFS文件壓縮工具,支持各種壓縮格式

工具文檔 https://github.com/mullerhai/HsunTzu/blob/master/README.md 核心方法調用 將textfile文件類型 壓縮成 gz文件類型 hadoop jar /data/so

原创 Dr Elephant(HIVE JOB監控調優)安裝使用

一、簡單介紹 Dr.elephant是一款對Hadoop和Spark任務進行性能監控和調優的工具 官方介紹 github地址 安裝文檔(Must-Read) 二、安裝中注意的問題 1、編譯失敗,測試用例通不過 可把 test

原创 數據倉庫解決問題和分層設計好處

數據倉庫解決什麼問題 1、將各種數據源整合到一起統一數據中心,解決數據壁壘。 <倉庫的集成性特點> 2、髒數據清洗,簡化業務複雜結構數據。 3、規範表、字段名稱,統一字段數據格式,完善註釋內容。 4、保留歷史變更數據,提供對細節

原创 阿武的博客文檔索引

1、Hadoop組件安裝 搭建CDH 阿里雲 (Step 1: 啓動hdfs) 搭建CDH 阿里雲 (Step 2: 啓動yarn) 搭建CDH 阿里雲 (Step 3: 搭建Hive) Hive On Spark搭建(cdh)

原创 YARN隊列資源、NameNode等數據指標監控

整體流程 1、通過各組件的JMX接口,獲取待監控的數據指標 2、將數據指標寫入OpenTSDB 3、Grafana接入OpenTSDB數據源,配置展示頁面 展示頁面如下 通過各組件的JMX接口,獲取待監控的數據指標 Nam