台部落阿武z

背景例：A、B、C 設備屬於同一個用戶， C、D 屬於同一個用戶， D、E 屬於同一個用戶。則可以將 A、B、C、D、E 當作同一個用戶。 1、數據初始化 create table test_id_mapping ( i

2020-03-06 00:42:52

背景： YARN資源使用情況如圖從內存使用佔比、Pending數量可以看到 YARN的資源使用情況是很緊張的。優化方向 1、JOB的執行引擎 MR -> Spark Sql 2、監控YARN資源在隊列和整體使用情況：

2020-02-25 17:32:18

收集指標查看數倉-HIVE元數據收集指標一、已有工具 1、ZEUS （任務調度工具） 2、Dr-Elephant （任務調優工具） 3、Apache Griffin （數據質量工具）二、最終落地Hbase表結構 row_

2020-02-25 17:32:18

一、是什麼官方解釋：面向主題的、集成的、相對穩定、反應歷史變化，用於企業的管理決策分析。開發者角度：通過接入各種數據源，打破數據壁壘，根據業務方的需求，設計方便使用和準確的數據模型，高效將結果輸出給業務方。業務方角度：能快

2020-02-25 17:32:18

一、BitMap 解決的問題：大數據量下的排序、查找、去重。 1、關鍵通過 bit位表示一個數值的狀態（是否存在），那麼1MB能大約表示 800萬數值（1,000,000B * 8 bit ） 2、侷限性： 1、內存限制：1

2020-02-25 17:32:18

通過對HIVE表進行打標籤，構建基礎元數據表 1、存儲 2、應用場景 3、數據質量 4、重要等級 5、調度任務 6、計算資源 7、被使用情況 1、存儲 HIVE表是否分區、量級（可定閾值設定等級）優化集羣存儲資源時、快速找

2020-02-25 17:32:18

1、異常定位假設有指標異常，想知道是什麼造成的。通過血緣分析配合數據質量，瞭解底層數據的波動情況，方便定位原因。 2、提升調度性能通過收集調度任務的開始結束時間，瞭解關鍵任務 ETL鏈路的時間瓶頸，再根據JOB任務的執

2020-02-25 17:32:18

是什麼數據的數據。對使用者提供解釋說明，方便快速找到想要的數據。對開發者提供開發模型指導，提供優化方向，監控異常質量。元數據主要分爲兩大類：技術、業務一、技術元數據 1、表的基本信息、存儲信息（MetaStore、

2020-02-25 17:32:07

背景當多個 distinct 操作同時出現在 select 中，數據會分發多次。容易造成Reduce數據傾斜優化點 1、如果不要求精確值，可以使用 spark-sql approx_count_distinct函數（基數計數

2020-02-25 17:32:07

Griffin 編譯報錯如下 Failed to execute goal on project service: Could not resolve dependencies for project org.apache.gri

2019-10-28 09:36:16

工具文檔 https://github.com/mullerhai/HsunTzu/blob/master/README.md 核心方法調用將textfile文件類型壓縮成 gz文件類型 hadoop jar /data/so

2019-10-26 11:37:14

一、簡單介紹 Dr.elephant是一款對Hadoop和Spark任務進行性能監控和調優的工具官方介紹 github地址安裝文檔(Must-Read) 二、安裝中注意的問題 1、編譯失敗，測試用例通不過可把 test

2019-10-26 11:37:14

數據倉庫解決什麼問題 1、將各種數據源整合到一起統一數據中心，解決數據壁壘。 <倉庫的集成性特點> 2、髒數據清洗，簡化業務複雜結構數據。 3、規範表、字段名稱，統一字段數據格式，完善註釋內容。 4、保留歷史變更數據，提供對細節

2019-10-26 11:37:14

1、Hadoop組件安裝搭建CDH 阿里雲 (Step 1: 啓動hdfs) 搭建CDH 阿里雲 (Step 2: 啓動yarn) 搭建CDH 阿里雲 (Step 3: 搭建Hive) Hive On Spark搭建(cdh)

2019-10-26 11:37:14

整體流程 1、通過各組件的JMX接口，獲取待監控的數據指標 2、將數據指標寫入OpenTSDB 3、Grafana接入OpenTSDB數據源，配置展示頁面展示頁面如下通過各組件的JMX接口，獲取待監控的數據指標 Nam

2019-10-26 11:37:14