10分鐘瞭解大數據學習的方向和路徑，助你快速入行

摘要：10分鐘瞭解大數據學習的方向和路徑，助你快速入行

大數據學習路徑

當然如果你想要做一個數據分析師或者數據挖掘師，那麼，你首先要做的不是馬上去買很多的相關書籍，也不是馬上去報一個數據分析師培訓課程，我覺得你最先應該做的是弄明白大數據是什麼意思。瞭解了大數據的含義之後，不管是你自學也好，跟班學習也好，都是可以受益匪淺的。所以，我們先來回答一下大家可能比較關心的一些問題。

初識大數據

大數據是一個龐大的體系，其中大致包括以下幾方面：想學習好大數據可以加我vx號（VIP452141 ）有視頻資源分享一起學習

1.數據存儲階段（用戶信息，行爲信息存儲進硬盤）。

2.數據挖掘清洗篩選（根據產品需求篩選出符合企業用於盈利需求的數據）

3.數據分析（通過數學分析，商業分析，將挖掘出來的數據進行產品匹配盈利分析）

4.產品調整（根據分析進行產品的上下架，迭代開發，達到產品迎合更多用戶的選擇或者銷售出更多的產品。）

5.產品下一步的規劃（譬如新開一個產品線，可以根據數據來進行分析。）

選擇我適合那個階段的職位

1.數據存儲階段（SQL，oracle，IBM等等都有相關的課程，根據公司的不同，學習好這些企業的開發工具，基本可以勝任此階段的職位）

2.數據挖掘清洗篩選（大數據工程師，要學習JAVA，Linux，SQL，Hadoop，數據序列化系統Avro，數據倉庫Hive，分佈式數據庫HBase，數據倉庫Hive，Flume分佈式日誌框架，Kafka分佈式隊列系統課程，Sqoop數據遷移，pig開發，Storm實時數據處理。學會以上基本可以入門大數據工程師，如果想有一個更好的起點，建議前期學習scala編程，Spark，R語言等基本現在企業裏面更專業的技能。）

3.數據分析（此階段本人涉獵不是很多，所以大致說明。需要有比較強悍的商業頭腦以及數字分析能力。好的數據分析師基本都是碩士起步，數學，經濟類專業。）

4.產品調整（經過分析後的數據交由老闆和PM經過協商後進行產品的更新，然後交由程序員進行修改（快消類進行商品的上下架調整））

大數據工程師的技能要求

必須技能10條:

01.Java高級(虛擬機、併發)

02.Linux 基本操作

03.Hadoop（此處爲俠義概念單指HDFS+MapReduce+Yarn ）

04.HBase（JavaAPI操作+Phoenix ）

05.Hive(Hql基本操作和原理理解）

06.Kafka

07.Storm

08.Scala需要

09.Python

10.Spark (Core+sparksql+Spark streaming ）

高階技能6條::

1.機器學習算法以及mahout庫加MLlib

2.R語言

3.Lambda 架構

4.Kappa架構

5.Kylin

6.Aluxio

大數據的學習技術點

Hadoop核心

(1) 分佈式存儲基石：HDFS

HDFS簡介入門演示構成及工作原理解析：數據塊，NameNode, DataNode、數據寫入與讀取過程、數據複製、HA方案、文件類型、 HDFS常用設置 Java API代碼演示

(2) 分佈式計算基礎：MapReduce

MapReduce簡介、編程模型、Java API 介紹、編程案例介紹、MapReduce調優

(3) Hadoop集羣資源管家：YARN

YARN基本架構資源調度過程調度算法 YARN上的計算框架

離線計算

(1) 離線日誌收集利器：Flume

Flume簡介核心組件介紹 Flume實例：日誌收集、適宜場景、常見問題

(2) 離線批處理必備工具：Hive

Hive在大數據平臺裏的定位、總體架構、使用場景之Access Log分析 Hive DDL&DML介紹視圖函數（內置，窗口，自定義函數）表的分區、分桶和抽樣優化

(3) 速度更快的Hive：Impala

Impala在大數據架構中的角色架構數據處理過程一般使用步驟：創建表，分區表，查詢等常用查詢演示：統計，連接等、Impala與Hive的比較常用配置與最佳使用建議（查錯，調優等）

(4) 更快更強更好用的MR：Spark

Scala&Spark簡介基礎 Spark編程（計算模型RDD、算子Transformation和Actions的使用、使用Spark製作倒排索引）Spark SQL和DataFrame 實例：使用Spark SQL統計頁面PV和UV

實時計算

(1) 流數據集成神器：Kafka

Kafka簡介構成及工作原理解析 4組核心API 生態圈代碼演示：生產並消費行爲日誌

(2) 實時計算引擎：Spark Streaming

Spark Streaming簡介工作原理解剖編寫Streaming程序的一般過程如何部署Streaming程序？如何監控Streaming程序？性能調優

(3) 海量數據高速存取數據庫：HBase

HBase簡介架構及基本組件 HBase Table設計 HBase基本操作訪問HBase的幾種方式

大數據ETL

(1) ETL神器：Sqoop，Kettle

數據同步ETL介紹 Kettle常用組件介紹、抽取Mysql數據到Hive實戰 Sqoop介紹、抽取Hive數據到Mysql實戰

(2) 任務調度雙星：Oozie，Azkaban

ETL與計算任務的統一管理和調度簡介 Crontab調度的方案自研調度系統的方案開源系統Oozie和Azkaban 方案總結與經驗分享

大數據應用與數據挖掘

(1) 大數據全文檢索引擎：Elasticsearch

全文檢索基礎知識，ES安裝及初級介紹，ES深入理解，使用經驗介紹

(2) 數據倉庫搭建

爲什麼要構建大數據平臺大數據平臺的的經典架構深入剖析“五橫一縱”的架構實踐知名互聯網公司大數據平臺架構簡介

(3) 數據可視化

什麼是數據可視化，數據可視化常用工具與必備技能介，Tableau和ECharts實操講解 ECharts介紹，知名互金公司可視化經驗介紹

(4) 算法介紹

介紹數據挖掘，機器學習，深度學習的區別，R語言和python的介紹，邏輯迴歸算法的介紹與應用，以及主要的推薦算法介紹

大數據世界的三大學習方向

數據開發師

數據運維師

數據架構師

什麼是大數據開發師？

圍繞大數據系平臺系統級的研發人員，熟練Hadoop、Spark、Storm等主流大數據平臺的核心框架。深入掌握如何編寫MapReduce的作業及作業流的管理完成對數據的計算，並能夠使用Hadoop提供的通用算法，熟練掌握Hadoop整個生態系統的組件如： Yarn，HBase、Hive、Pig等重要組件，能夠實現對平臺監控、輔助運維繫統的開發。

通過學習一系列面向開發者的Hadoop、Spark等大數據平臺開發技術，掌握設計開發大數據系統或平臺的工具和技能，能夠從事分佈式計算框架如Hadoop、Spark羣集環境的部署、開發和管理工作，如性能改進、功能擴展、故障分析等。

什麼是大數據運維師

瞭解Hadoop、Spark、Storm等主流大數據平臺的核心框架，熟悉Hadoop的核心組件：HDFS、MapReduce、Yarn；具備大數據集羣環境的資源配置，如網絡要求、硬件配置、系統搭建。熟悉各種大數據平臺的部署方式，集羣搭建，故障診斷、日常維護、性能優化，同時負責平臺上的數據採集、數據清洗、數據存儲，數據維護及優化。熟練使用Flume、Sqoop等工具將外部數據加載進入大數據平臺，通過管理工具分配集羣資源實現多用戶協同使用集羣資源。通過靈活、易擴展的Hadoop平臺轉變了傳統的數據庫和數據倉庫系統架構，從Hadoop部署實施到運行全程的狀態監控，保證大數據業務應用的安全性、快速響應及擴展能力！

什麼是大數據架構師