大數據入門學習路線分享,請大家收下

大數據的學習技術點
Hadoop核心(1) 分佈式存儲基石:HDFSHDFS簡介 入門演示 構成及工作原理解析:數據塊,NameNode, DataNode、數據寫入與讀取過程、數據複製、HA方案、文件類型、 HDFS常用設置 Java API代碼演示(2) 分佈式計算基礎:MapReduceMapReduce簡介、編程模型、Java API 介紹、編程案例介紹、MapReduce調優(3) Hadoop集羣資源管家:YARNYARN基本架構 資源調度過程 調度算法 YARN上的計算框架離線計算(1) 離線日誌收集利器:FlumeFlume簡介 核心組件介紹 Flume實例:日誌收集、適宜場景、常見問題(2) 離線批處理必備工具:HiveHive在大數據平臺裏的定位、總體架構、使用場景之Access Log分析 Hive DDL&DML介紹 視圖 函數(內置,窗口,自定義函數) 表的分區、分桶和抽樣 優化(3) 速度更快的Hive:ImpalaImpala在大數據架構中的角色 架構 數據處理過程 一般使用步驟:創建表,分區表,查詢等 常用查詢演示:統計,連接等、Impala與Hive的比較 常用配置與最佳使用建議(查錯,調優等)(4) 更快更強更好用的MR:SparkScala&Spark簡介 基礎 Spark編程(計算模型RDD、算子Transformation和Actions的使用、使用Spark製作倒排索引)Spark SQL和DataFrame 實例:使用Spark SQL統計頁面PV和UV實時計算(1) 流數據集成神器:KafkaKafka簡介 構成及工作原理解析 4組核心API 生態圈 代碼演示:生產並消費行爲日誌(2) 實時計算引擎:Spark StreamingSpark Streaming簡介 工作原理解剖 編寫Streaming程序的一般過程 如何部署Streaming程序? 如何監控Streaming程序? 性能調優(3) 海量數據高速存取數據庫:HBaseHBase簡介 架構及基本組件 HBase Table設計 HBase基本操作 訪問HBase的幾種方式大數據ETL(1) ETL神器:Sqoop,Kettle數據同步ETL介紹 Kettle常用組件介紹 、抽取Mysql數據到Hive實戰 Sqoop介紹、抽取Hive數據到Mysql實戰(2) 任務調度雙星:Oozie,AzkabanETL與計算任務的統一管理和調度簡介 Crontab調度的方案 自研調度系統的方案 開源系統Oozie和Azkaban 方案總結與經驗分享大數據應用與數據挖掘(1) 大數據全文檢索引擎:Elasticsearch全文檢索基礎知識,ES安裝及初級介紹,ES深入理解,使用經驗介紹(2) 數據倉庫搭建爲什麼要構建大數據平臺 大數據平臺的的經典架構 深入剖析“五橫一縱”的架構實踐 知名互聯網公司大數據平臺架構簡介(3) 數據可視化什麼是數據可視化,數據可視化常用工具與必備技能介,Tableau和ECharts實操講解 ECharts介紹,知名互金公司可視化經驗介紹(4) 算法介紹介紹數據挖掘,機器學習,深度學習的區別,R語言和python的介紹,邏輯迴歸算法的介紹與應用,以及主要的推薦算法介紹

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章