阿武的博客文檔索引

1、Hadoop組件安裝

搭建CDH 阿里雲 (Step 1: 啓動hdfs)
搭建CDH 阿里雲 (Step 2: 啓動yarn)
搭建CDH 阿里雲 (Step 3: 搭建Hive)
Hive On Spark搭建(cdh)

2、元數據

HIVE 字段級血緣分析 寫入Neo4j

3、JOB計算管理

Dr Elephant(HIVE JOB監控調優)安裝使用
獲取YARN上執行時間最長的JOB列表,並查看是否存在數據傾斜
HIVE SQL數據傾斜情況以及解決辦法

4、HDFS存儲管理

HIVE表 佔用HDFS空間 TOP表查詢
HDFS文件壓縮工具,支持各種壓縮格式

5、集羣運維

YARN隊列資源、NameNode等數據指標監控
YARN集羣資源如何分配
hadoop yarn組件
YARN假死處理(JOB超過10000個)

6、數據倉庫建模

數據倉庫解決問題和分層設計好處
一致性維度表 設計思路
一致性事實表 設計思路

7、調度工具

zeus調度工具啓動慢(zeus_action數據量太大)
一、Hera調度系統基本數據結構(Event、Listener、Dispatcher)
二、Hera調度系統初始化、生成和清理版本
三、Hera調度系統 待執行隊列 入隊和出隊時機

8、HIVE 相關整合

Sqoop 同步Parquet partition Hive表
Hive元數據 表結構
Hive Metastore部署方式
HIVE SQL 計算留存率 思路
HIVE分區表添加字段cascade 執行時間過長出現bug
hive collect_set 結果順序不一致
Hive orc表 刪除字段
同一個sql 在Hive和spark-sql 跑出結果不一樣記錄

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章