大數據架構師+精英必備技能

（一）架構師技能樹

大數據基礎鞏固（錄播）

HDFS分佈式文件系統
1.HDFS架構設計
2.HDFS設計思想
3.數據塊
4.機架感知
5.容錯策略
6.數據本地性策略
7.讀寫流程分析
8.HDFS高可用原理

MapReduce分佈式計算模型
1.基本原理
2.作業執行流程
3.深入理解shuffle流程
4.MapReduce執行流程
5.Partition分區
6.Join算法
7.MapReduce調優

YARN 資源調度系統
1.YARN基本架構
2.YARN核心設計原理
3.YARN核心運行機制
4.容量和公平調度器
5.MapReduce ON YARN執行流程
6.YARN 高可用原理
7.YARN 容錯

Zookeeper分佈式鎖服務
1.基本架構
2.工作原理
3.讀寫流程分析
4.數據結構-znode
5.znode基本操作
6.watcher監聽機制
7.持久節點與臨時節點
8.Zookeeper客戶端操作
9.集羣監控
10.Leader選舉
11.CAP理論
12.高可用HA應用案例
13.同步隊列與FIFO隊列
14.分佈式集羣配置分發

大數據架構（直播）

大數據正確認知
1.學習大數據認知陷阱
2.大數據生態到底是什麼樣的
3.大數據按照技術場景如何細分
4.真實企業大數據部門編制
5.大數據崗位設置與職業發展路線
6.轉型大數據的必備技能
7.典型大數據平臺架構
8.教學思路解析

大數據平臺構建與運維
1.集羣部署前準備
2.基於Ambari+HDP大數據平臺構建
3.Hadoop集羣性能調優
4.Kerberos權限控制
5.Hadoop集羣高級運維
6.Zabbix監控
7.Hadoop2.x特性
8.Hadoop3.x新特性

數據獲取層

Python爬蟲
1.Python基礎
2.Numpy
3.Pandas
4.多數據源接口
5.數據可視化
6.Python爬蟲
7.Scrapy爬蟲
8.數據探索及預處理

Flume 架構
1.Flume Agent架構
2.Flume 組件
3.Flume 不同架構介紹
4.Flume單節點安裝及配置詳解
5.Flume高可用及負載均衡
6.Flume分佈式集羣安裝
7.Flume監控

Flume典型Source
1.Spooling directory source
2.Taildir source
3.Kafka source
4.自定義source

Flume典型Sink
1.HDFS sink
2.HBase sink
3.Kafka sink
4.自定義sink

Flume典型Interceptor
1.Timestamp Interceptor
2.Host Interceptor
3.Static Interceptor
4.Search and Replace Interceptor
5.Regex Extractor Interceptor
6.自定義 Interceptor

Kafka數據交換中心
1.消息隊列內部實現原理
2.Kafka架構
3.Kafka分佈式集羣構建
4.Kafka常用命令使用
5.Kafka Topic更改與刪除
6.深入理解Kafka生產消息原理
7.深入理解Kafka消費消息原理
8.深入理解Kafka存儲消息原理
9.Kafka生產者開發
10.Kafka消費者開發
11.Kafka Producer攔截器（含案例）
12.Kafka Streams（含案例）
13.Kafka監控
14.Kafka高級調優

DBus數據採集平臺
1.傳統數據採集遇到的難題
2.DBus特性與應用場景
3.總體架構
4.貼源數據採集
5.多租戶數據分發
6.核心功能概覽
7.DBus一鍵部署和快速使用
8.DBus生成環境部署
9.DBus 數據採集實戰

數據存儲層

HBase數據庫建模
1.HBase體系架構
2.物理存儲與邏輯存儲
3.核心功能模塊
4.HFile與HLog File
5.Region定位流程分析
6.HBase讀寫流程分析
7.Shell管理員常用操作
8.Java API操作

HBase進階
1.預建分區
2.Rowkey設計
3.HBase表結構設計
4.數據遷移
5.數據批量導入與導出
6.數據備份與恢復
7.性能調優
8.企業應用場景
9.Hive+HBase實現大數據分析
10.Phoenix+HBase搞定隨機讀寫

Kudu隨機讀寫+分析
1.應用場景
2.與HBase對比
3.架構解析
4.分佈式集羣構建
5.kudu常用API
6.kudu與Impala整合
7.kudu與Spark整合
8.schema與分區設計
9.運維與監控
10.性能優化

數據計算層

深入講解Spark架構
1.Spark-Application
2.Spark-Driver
3.Spark-ClusterManager
4.Spark-Master
5.Spark-Worker
6.Spark-Executor及線程池

Spark核心RDD
1.RDD彈性分佈式數據集
2.RDD的五大特徵
3.RDD寬依賴與窄依賴

Spark RDD轉換算子
1.RDD Map
2.RDD FlatMap
3.RDD Filter
4.RDD MapPartition
5.RDD Distinct
6.RDD union
7.RDD groupby

Spark RDD行動算子
1.RDD collect
2.RDD take
3.RDD first
4.RDD reduce
5.RDD saveAsTextFile
6.RDD count

Spark 持久化算子
1.RDD persist
2.RDD cache
3.RDD checkpoint

Spark作業提交及參數調優
1.Spark-submit作業提交命令
2.executor-core設置
3.executor-memory設置
4.Spark-submit--jars
5.Spark-submit deploy-mode
6.Spark-submit--conf
7.Spark-submit--driver-memory

Spark運行模式
1.Local模式
2.Standalone模式
3.Spark ON YARN模式

Spark任務調度詳解
1.Spark Context初始化
2.DAG有向無環圖構建
3.Job 的Stage劃分
4.Stage的Task劃分
5.DAGScheduler
6.TaskScheduler
7.Cluster Manager
8.Spark shuffle過程詳解

Spark Streaming實時計算框架
1.SparkStreaming數據模型DStream
2.SparkStreaming Job執行流程
3.SparkStreaming Receiver接收器
4.SparkStreaming核心算子使用
5.SparkStreaming窗口操作
6.Checkpoint檢查點機制
7.SparkStreaming容錯
8.SparkStreaming高級調優

Spark Streaming與Kafka整合
1.讀取Kafka數據進度設置
2.消費Kafka相關參數設置
3.Direct模式整合與使用
4.Kafka高併發能力設置
5.Direct模式offset管理
6.代碼升級checkpoint無法恢復問題解決
7.消費Kafka的數據丟失和重複問題解決
8.Spark Streaming配置參數詳解
9.實操：Spark Streaming實時計算案例

Flink新一代計算引擎
1.Flink架構
2.Flink應用場景
3.Job提交作業
4.Local模式
5.Standalone 模式
6.Flink ON YARN 模式
7.轉換操作
8.廣播變量
9.分佈式緩存
10.Flink容錯
11.Flink與HBase整合

Flink DataStream實時計算
1.編程模型
2.DataStreamContext
3.常用轉換操作
4.延時調度
5.DataStream支持的三種time
6.Watermarks水位線機制
7.固定延時
8.延時數據處理
9.窗口分配器
10.窗口函數
11.觸發器
12.驅逐器
13.Broadcast State的妙用
14.Checkpointing使用
15.Barrier
16.Savepoint
17.性能調優
實操：Flink DataStream實時計算案例

作業調度層

Azkaban
1.Azkaban架構原理
2.Azkaban快速部署
3.Dependency作業的使用
4.HDFS作業在Azkaban中的使用
5.MapReduce作業的使用
6.Hive作業的使用
7.定時作業
8.SLA與郵件設置
9.two server模式部署
10.短信告警改造
11.AJAX API的使用
12.Plugin與Jobtype的使用
13.生產環境下的使用和改造思路

Easy Scheduler
1.Easy Scheduler介紹
2.Easy Scheduler部署
3.Easy Scheduler快速入門
4.Easy Scheduler架構設計
5.擴展Easy Scheduler
6.實操：Easy Scheduler實踐

OLAP/Sql On Hadoop

Hive大數據分析
1.Hive體系架構
2.元數據庫MySQL搭建
3.Hive安裝部署
4.Metastore存儲
5.表與視圖
6.Hive高級函數
7.數據批量導入與導出
8.Hive Server2
9.beeline的使用
10.數據管理
11.實操：Hive案例分析

Spark SQL大數據分析
1.Spark SQL運行架構
2.Spark session詳解
3.DataFrame用法
4.DataSet用法
5.Spark SQL與MySQL整合
6.Spark SQL與Hive整合
7.Spark SQL與HBase整合
8.實操：SparkSQL案例分析

Presto大數據分析
1.Presto架構和原理
2.集羣構建與管理
3.Presto安全
4.常規連接器的使用
5.自定義連接器/UDF
6.性能調優
7.集羣管理工具
8.Presto 第三方庫
9.實操：Presto案例分析

Kylin大數據分析
1.多維立方體理論
2.kylin技術架構
3.kylin工作原理
4.部署kylin集羣環境
5.Cuboid剪枝
6.Rowkey優化
7.增量構建
8.流式構建
9.Kylin擴展
10.Kylin安全
11.監控診斷
12.Kylin日常運維
13.實操：Kylin+Superset實現用戶行爲分析

大數據治理

Atlas元數據管理框架
1.Atlas原理與架構
2.Atlas基礎環境
3.Atlas源碼編譯
4.Atlas部署
5.元數據查詢
6.實操：Atlas與Hive整合

Ranger大數據安全
1.大數據安全現狀與背景
2.Kerberos、Sentry、Ranger
3.Ranger架構
4.Ranger核心組件
5.權限模型
6.HDFS權限實現
7.HBase權限實現
8.Yarn權限實現
9.Hive權限實現
10.實操：Ranger組權限實現

機器學習/數據挖掘

機器學習理論基礎
1.機器學習人工智能數據挖掘的區別
2.機器學習的分類
3.常見模型和算法梳理
4.主流機器學習庫介紹

Spark ML基礎入門
1.Spark基礎簡單回顧
2.Spark ML介紹
3.機器學習平臺構建

Spark ML Pipelines（ML管道）
1.Pipelines的主要概念
2.Pipelines實例講解
3.ML操作的代碼實操
4.實操：案例實現

Spark ML數學基礎
1.ML矩陣向量計算
2.分類效果評估指標及ML實現詳解
3.交叉-驗證方法及ML實現詳解
4.實操：案例實現

Spark ML特徵的提取、轉換和選擇
1.特徵的提取及ML實現詳解
2.特徵的轉換及ML實現詳解
3.特徵的選擇及ML實現詳解
4.實操：案例實現

Spark ML線性迴歸/邏輯迴歸算法
1.線性迴歸算法
2.邏輯迴歸算法
3.ML迴歸算法參數詳解
4.ML實例
5.實操：案例實現

Spark ML決策樹/隨機森林/GBDT算法
1.決策樹算法
2.隨機森林算法
3.GDBT算法
4.ML樹模型參數詳解
5.ML實例
6.實操：案例實現

Spark ML KMeans聚類算法
1.KMeans聚類算法
2.ML KMeans模型參數詳解
3.ML實例
4.實操：案例實現

Spark ML LDA主題聚類算法
1.LDA主題聚類算法
2.ML LDA主題聚類模型參數詳解
3.ML實例
4.實操：案例實現

Spark ML協同過濾推薦算法
1.協同過濾推薦算法
2.ML協同過濾分佈式實現邏輯
3.ML協同過濾源碼開發
4.ML實例
5.實操：案例實現

大數據分析挖掘項目實戰

《稅票實時數倉系統》實戰項目

項目目的：
打造企業級數據倉庫平臺，提供稅票數據全方位分析

課程思路：
1、課程從數據倉庫基本理論入手，先從一個高度認識數據倉庫；
2、然後帶着大家瞭解主流數倉基礎平臺的架構，並從零搭建一個數倉基礎平臺，同時完成數倉的規劃；
3、緊接着按照數倉開發的真實流程，以稅務發票數據分析爲背景，帶着學員完成一個數據主題從需求調研、指標設計、模型設計、數據採集、ETL、數據二次加工、可視化全鏈路的開發流程；
4、最後幫大家梳理離線數倉改造爲實時數倉的思路，並完成主線的改造工作。

數據規模：
全量數據百萬企業用戶級別，數十億財稅數據

核心技術棧：
HBase+Hive+Dbus+Kafka+Flink/Spark SQL/Spark Streaming+Kylin+Easy Scheduler+Davinci+Wormhole

預期目標：
1、理解數據倉庫的基本理論；
2、掌握數倉基礎平臺及數倉規劃與構建；
3、掌握一個數據主題從需求調研（指標設計、模型設計）、數據採集、數據開發(ETL、數據加工、指標計算)、可視化全鏈路的開發流程；
4、學會在實際數倉項目中如何思考並解決疑難問題，體會數據的價值。

授課內容一：數倉整體介紹
1.數據庫與數倉
2.數倉基礎知識
3.傳統數據與大數據數倉
4.數倉應用場景
5.數倉建設流程

授課內容二：數倉規劃和構建
1.主流數倉基礎平臺架構
2.數倉基礎平臺規劃
3.數倉基礎平臺構建
4.分層設計/主題域劃分/其他設計

授課內容三：稅票數倉系統開發
1.需求調研
1)背景
2)需求分析
2.模型設計
1)需求細化
2)模型設計
3)指標設計
3.數據源
1)MySQL稅票數據源
2)稅票數據基本格式
3)稅票數據核心字段介紹
4.增量實時數據採集
1)不同數據源採集難點
2)Dbus貼源數據採集
3)消息順序性保證
4)Flink實時增量模塊開發
5.數據交換與數據存儲
1)Kafka順序性問題解決
2)數據落地存儲冪等性問題解決
3)數據增量採集順序不一致性問題解決
6.數據倉庫開發
1)數據接入ODS
2)星型模型、雪花模型、DataValue模型
3)數據模型設計
4)維度設計/指標設計
5)維度剪枝優化
6)數據立方體構建
7.Davinci大數據可視化
1)稅後總金額
2)總稅費
3)總利潤
4)訂單總金額
5)城市銷售額排名
6)品類銷售排名
8.作業調度
1)Easy Scheduler實現相關作業調度

授課內容四：實時數倉改造
1.實時數倉的必要性
2.主流實時數倉架構
1)Lambda架構
2)Kappa架構
3.實時數倉改造思路
4.基於Kylin3.0打造實時數倉

《個性化新聞推薦系統》實戰項目
項目目的：
打造類今日頭條的個性化新聞推薦系統

課程思路：
1、課程打破一般推薦系統課程的常規，首先從推薦系統概述入手，闡述推薦系統價值，與廣告、搜索系統的區別，並介紹推薦系統的常見業務場景；
2、然後介紹一個推薦系統整體的架構(而不僅僅是一段協同過濾的代碼)；
3、在對推薦系統常見召回和排序算法進行深入講解；
4、最後帶着大家動手打造一個類今日頭條的新聞推薦系統。

核心技術棧：
Java Web+Hadoop+Hive+HBase+Spark+Spark ML+Mahout+Easy Scheduler+基於協同過濾的推薦算法（Collaborative Filtering）+基於內容相似度的推薦算法（Content-based Recommendation)

數據規模：
全量數據用戶上億級別

預期目標：
1、理解推薦系統理論
2、掌握主流召回算法
3、掌握主流排序算法
4、掌握推薦系統架構
5、學會從零打造一個個性化新聞推薦系統

授課內容一：認識推薦系統
1.啥是推薦與推薦系統
2.推薦系統的價值
3.常見業務場景
4.推薦系統、廣告系統、搜索系統的不同
5.企業推薦系統實踐與思考

授課內容二：推薦系統構建流程
1.數據獲取階段
2.推薦系統構建階段
1)數據分析挖掘
2)召回算法設計
3)排序算法設計
3.推薦評價與反饋階段

授課內容三：數據獲取階段
1.藉助已有數據倉庫
2.用戶行爲數據
3.爬蟲數據
4.公開數據集

授課內容四：推薦系統構建階段
1.數據挖掘工具
2.協同過濾/基於內容推薦/頻繁模式推薦
3.GBDT-LR排序模型/Wide & Deep排序模型/DeepFM排序模型

授課內容五：推薦評價與反饋階段
1.離線評估
2.在線評估
3.藉助數據分析工具評估

授課內容六：典型推薦系統架構
1.數據集市/數據倉庫
2.計算系統
3.在線服務
4.調度系統
5.監控系統
6.推薦干預

授課內容七：個性化新聞推薦系統實戰
1.需求分析
2.詳細設計
1)整體架構設計
2)模塊劃分
3)數據庫設計
3.數據採集
爬蟲採集模塊開發
4.推薦模塊設計與開發
1)推薦流程設計
2)多算法召回目標新聞(CF、Content-based、頻繁模式、Hot News Recommendation)
3)GBDT-LR排序模型設計與編碼
4)解決冷啓動問題
5.推薦引擎周邊模塊開發
6.推薦系統優化

源碼分析
1.Hadoop HA實現源碼分析
2.Spark 任務調度流程源碼分析
3.Flink Checkpoint 機制源碼分析

面試寶典
1.選公司
2.項目經驗怎麼寫
3.面試技巧
4.面試陷阱
1)生小孩沒
2)結婚沒
3)買房沒
4)住的近不近
5)怎麼看待我們公司
6)你的未來規劃是什麼
7)你還有什麼問題問我嗎
5.面試五大忌
6.BAT面試真題講解

（二）項目部分大屏展示