1、Hadoop組件安裝
搭建CDH 阿里雲 (Step 1: 啓動hdfs)
搭建CDH 阿里雲 (Step 2: 啓動yarn)
搭建CDH 阿里雲 (Step 3: 搭建Hive)
Hive On Spark搭建(cdh)
2、元數據
3、JOB計算管理
Dr Elephant(HIVE JOB監控調優)安裝使用
獲取YARN上執行時間最長的JOB列表,並查看是否存在數據傾斜
HIVE SQL數據傾斜情況以及解決辦法
4、HDFS存儲管理
HIVE表 佔用HDFS空間 TOP表查詢
HDFS文件壓縮工具,支持各種壓縮格式
5、集羣運維
YARN隊列資源、NameNode等數據指標監控
YARN集羣資源如何分配
hadoop yarn組件
YARN假死處理(JOB超過10000個)
6、數據倉庫建模
數據倉庫解決問題和分層設計好處
一致性維度表 設計思路
一致性事實表 設計思路
7、調度工具
zeus調度工具啓動慢(zeus_action數據量太大)
一、Hera調度系統基本數據結構(Event、Listener、Dispatcher)
二、Hera調度系統初始化、生成和清理版本
三、Hera調度系統 待執行隊列 入隊和出隊時機
8、HIVE 相關整合
Sqoop 同步Parquet partition Hive表
Hive元數據 表結構
Hive Metastore部署方式
HIVE SQL 計算留存率 思路
HIVE分區表添加字段cascade 執行時間過長出現bug
hive collect_set 結果順序不一致
Hive orc表 刪除字段
同一個sql 在Hive和spark-sql 跑出結果不一樣記錄