分享一套關於Hive企業級架構優化、 Hive Sql優化、壓縮和分佈式緩存的視頻教程,熱門技術,當前網絡比較少有的教程資料。
課程大綱
第一章:架構方面優化策略(5講)
Hadoop的主要性能瓶頸是IO負載,降IO負載是優化的重頭戲。
本章大綱:
作業架構優化手段大探底
多個降IO負載的策略和場景...
分表、源表歸納
合理設計表分區、動態分區
壓縮、分佈式緩存
第二章:Hive Sql語法層面和Properties參數層面優化(4講)
語法優化手段歸納
Map數和Reduce數的決定和控制及案例分析
數據傾斜的避免和解決辦法
執行計劃剖析,從執行計劃上找傾斜根本
Properties參數
高效Join、MapJoin、SEMI JOIN
減少Job 合併MR
Mapreduce中間參數
第三章:Impala熟悉和使用(1講)
Impala是Cloudera 公司推出仿Hive的一個產品,目前已經有穩定的發行版本。
理論上性能比Hive好,但目前版本功能和擴展性上遠不能替代Hive。
未來該產品或會有一定影響力。
特點:同Hive一樣是類sql產品
公用Hive的元數據庫
第一講:Hive體系結構及Hive作業形式
第二講:Hive優化策略大探底及架構優化案例一
第三講:架構優化案例二之降IO負載策略I
第四講:架構優化案例二之降IO負載策略II
第五講:架構優化案例二之降IO負載策略III—壓縮和分佈式緩存
第六講:Hive語法、參數層面優化一
第七講:Hive語法、參數層面優化二
第八講:Hive語法、參數層面優化三
二、課程環境:
Cloudera Hadoop 4 (Hadoop 2.0)
Hive-0.90
三、所需技術基礎:
Hadoop基礎、Hive基礎、Linux基礎,其他不限制(不分Java和.Net方向,皆適合)。
下載地址:
360:http://yunpan.cn/QDmJ8LgSdijpp (提取碼:85a6)
百度:http://pan.baidu.com/s/1xjxOJ