hadoop基礎知識

原創

2020-02-20 17:04

剛開始入職，被分配到數據分析平臺組，入職第一天，不瞭解相關知識，學習hadoop相關基礎知識。

Hadoop是作爲一個集羣，爲分佈式計算結構提供便利，使用戶並不需要了解底層結構就可以來實現分佈式的相關實現。Hadoop有兩種實現，第一種是重點在存儲的HDFS，其優勢是容錯率高，能耗低，採用數據流的方式來訪問數據；另一種是重點在於計算的MapReduce，其包括Map跟Reduce兩個部分，MapReduce將大數據進行分解，將其放到不同的split中，然後master將機器分爲Mapper以及Reducer，分解後的數據在Mapper中進行計算，獲得中間鍵值對，並將這些中間鍵值對存儲到本地存儲中，Reducer將數據從存儲中取出，對中間鍵值對進行加工，合併爲規模更小的值。例如求一堆數據的最大值，可將數據分解分配到不同的Mapper中，在Mapper中對相關數據進行處理，得到各組的最大值，而這些最大值將在Reducer中進行處理，獲得最終的最大值。

MapReduce工作的相關圖示如下：

另外，瞭解到在這個過程中的數據流會首先是將Int等數據分解成二進制數據流，然後到達目的端時再重構成Int等數據格式。而Inwritable就是講DataInput接口中的二進制流重構成相關的數據類型。

相關的網址如下：http://www.360doc.com/content/12/0827/09/9318309_232551844.shtml

Hadoop採用ssh進行通信，ssh是一種基於軟件的網絡安全技術，明天繼續看。

xuzhengzheng32

發佈了12 篇原創文章 · 獲贊 2 · 訪問量 4萬+

私信關注

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

hadoop基礎知識

探究職業發展的關鍵：能力模型解讀

如何在低代碼平臺中引用 JavaScript ？

高效率使用windows

智能決策新時代：可視化大屏是否能夠超越傳統白板？

解密Prompt系列28. LLM Agent之金融領域摸索：FinMem & FinAgent

分享幾個.NET開源的AI和LLM相關項目框架

memcpy拷貝內存內容

spark的相關基礎知識

weka初步一

當觸發一個RDD的action後DAGScheduler的動作

.chm文件打開顯示找不到網址

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結