hadoop基礎知識

     剛開始入職,被分配到數據分析平臺組,入職第一天,不瞭解相關知識,學習hadoop相關基礎知識。

   Hadoop是作爲一個集羣,爲分佈式計算結構提供便利,使用戶並不需要了解底層結構就可以來實現分佈式的相關實現。Hadoop有兩種實現,第一種是重點在存儲的HDFS,其優勢是容錯率高,能耗低,採用數據流的方式來訪問數據;另一種是重點在於計算的MapReduce,其包括Map跟Reduce兩個部分,MapReduce將大數據進行分解,將其放到不同的split中,然後master將機器分爲Mapper以及Reducer,分解後的數據在Mapper中進行計算,獲得中間鍵值對,並將這些中間鍵值對存儲到本地存儲中,Reducer將數據從存儲中取出,對中間鍵值對進行加工,合併爲規模更小的值。例如求一堆數據的最大值,可將數據分解分配到不同的Mapper中,在Mapper中對相關數據進行處理,得到各組的最大值,而這些最大值將在Reducer中進行處理,獲得最終的最大值。

    MapReduce工作的相關圖示如下:


     另外,瞭解到在這個過程中的數據流會首先是將Int等數據分解成二進制數據流,然後到達目的端時再重構成Int等數據格式。而Inwritable就是講DataInput接口中的二進制流重構成相關的數據類型。

    相關的網址如下:http://www.360doc.com/content/12/0827/09/9318309_232551844.shtml

    Hadoop採用ssh進行通信,ssh是一種基於軟件的網絡安全技術,明天繼續看。

發佈了12 篇原創文章 · 獲贊 2 · 訪問量 4萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章