按照這個路線,讓你4個月學會Hadoop開發

學習hadoop,首先我們要知道hadoop是什麼?

說到底Hadoop只是一項分佈式系統的工具,我們在學習的時候要理解分佈式系統設計中的原則以及方法,只有這樣才能以不變應萬變。再一個就是一定要動手,有什麼案例,有什麼項目一定要親自動手去敲。

學習的時候不要害怕遇到問題,問題是最好的老師。其實學習的過程就是逐漸解決問題的過程,當你遇到的問題越來越少的時候,就說明已經學的差不多了。

 

下面說一下hadoop的學習路線。

1.我們要掌握Linux的安裝及基本操作、Python安裝及編程基礎、java基礎。

需要學習Linux的常用命令、基本網絡配置、進程管理、shell語法;Python的常用語法,能夠基於Python搭建一個常用的Server服務器和java的基礎知識。

這時候只需要掌握基礎即可,後邊遇到問題再學習,這樣纔不會混亂,學的才紮實。

2. 搭建Hadoop分佈式環境

我們要做的是在自己的電腦上安裝Linux,然後準備環境nat配置,搭建Hadoop集羣先讓Hadoop在自己的電腦上跑起來。使用VMware來搭建。

這時候我們會Host配置、IP配置、SSH免密登錄等。

3.學習HDFS分佈式文件系統

 這一步要學習架構分析、容災容錯策略、local數據策略、數據塊概念、機架感應,功能邏輯實現等。要真正的去敲敲,掌握Linux下HDFS Shell常用命令的使用。

4.學習MapReduce計算框架

MapReduce是Hadoop核心編程模型。在Hadoop中,數據處理核心就是MapReduce程序設計模型。這一步需要學的東西很多,大家一定要有耐心,把MR的知識學牢固。

首先我們需要學習MR的基本原理、任務執行流程、Shuffle策略。自己動手寫一個MR任務,來實現wordcount。然後要學習表單join、表單查詢、數據清洗、全局排序、多目錄輸入輸出、自定義partition分區,掌握二分法算法。

接下來學習自然語言處理方法(NLP),掌握如何提取關鍵詞,TF-IDF算法。這裏我們可以實踐一下,統計文本中的詞頻。

學習中文分詞,分詞的質量直接影響數據挖掘的質量。

5.學習Strom流式計算

Storm是一個開源分佈式實時計算系統,它可以實時可靠地處理流數據。

這一步我們要知道Hadoop和Storm的區別,知道他們如何進行互補。瞭解Storm的體系架構、Zookeeper在架構中的作用和數據流處理的過程。弄懂Storm的工作原理和核心組件(Spout、Bolt)

6.學習Zookeeper分佈式協作服務

這一步我們學會數據管理的樹形結構,學會根據應用場景選擇不同類型的節點、節點權限管理ACL和監控機制。學會Zookeeper開源自帶Client工具的Shell使用,開發java代碼實現不同類型的節點進行新建、修改、刪除和節點的監控。

7.學習數據倉庫工具Hive

這一步要了解Hive的體系架構和其與mysql的對比。要掌握Mysql的基本知識、系統搭建標準SQL語(增刪查改)。

8.學習分佈式存儲系統Hbase

這一步要掌握Hbase的體系架構(HMaster、HRegionServer、HStore、HFile、HLog),物理存儲、數據邏輯存儲、核心功能模塊。

細化一點要掌握Hbase表結構設計、Shell操作(增刪查改)、javaAPI操作、數據遷移、備份與恢復。與MR結合實現批量導入與導出,與Hive結合使用,集羣管理和性能調優。

9.學習Spark

這一步要掌握SPark的編程模型、運行框架、作業提交、緩存策略、RDD、MLLib。

10.學習Scala語言

這一步要掌握Scala的常用語法、函數、元組等操作,不熟Spark。

11.學習Spark開發技術

這一步要能夠熟練使用MLLib,能夠自己開發Scala的Spark任務,完成表格join、連接和文本串過濾等。

12.學習推薦系統

前面我們學了那麼多,最終所學的技術要能落地,我學的是現在主流的推薦系統,現在各大公司都需要這方面的人才。

這一步我們可以找一些案例在學習,要掌握主流的推薦算法,Content Base、Collab Filter。

a.學習基於MR的協同過濾算法

b.學習Mahout,掌握Mahout的適用場景、環境搭建與部署。

  學習基於Mahout的協同過濾算法,與MR進行效果對比。

C.學習基於Spark的協同過濾算法

到這裏,按照上邊的路線認真學習,肯定能學好hadoop開發,在學習的時候一定要親自動手去敲,要去不斷的嘗試,把看到的知識儘快轉化爲自己的技能,這樣才能高效率的學會hadoop,學任何一門技術都是一樣,需要實際動手。

如何用4個月學會Hadoop開發並找到年薪25萬工作?

 

免費分享一套17年最新Hadoop大數據教程100Hadoop大數據必會面試題

因爲鏈接經常被和諧,需要的朋友請加微信 ganshiyun666 來獲取最新下載鏈接,註明“51CTO”


教程已幫助300+人成功轉型Hadoop開發,90%起薪超過20K,工資比之前翻了一倍。

內容包括0基礎入門、Hadoop生態系統、真實商業項目實戰3大部分。其中商業案例可以讓你接觸真實的生產環境,訓練自己的開發能力。

wKioL1mdQGiDPhHeAAAuZtp-5xs706.png


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章