【Hadoop學習】_01Hadoop的組成

一、Hadoop主要組件

  • HDFSHadoop分佈式文件系統,主要用於數據存儲
  • YARN是一種資源管理器,主要用於資源調度
  • MapReduce主要用於計算
  • Common是輔助工具

二、HDFS架構概述

  • NameNode(nn):存儲文件的元數據,如文件名、目錄結構、屬性,以及每個文件的塊列表和塊所在的DataNode
  • DataNode(dn):存儲文件塊數據以及其校驗和
  • Secondry NameNode(2nn):用來監控HDFS狀態的輔助後臺程序,每隔一段時間獲取HDFS元數據的快照
    1. 輔助NameNode,分擔其工作量,比如定期合併FsimageEdits,並推送給NameNode
    2. 在緊急情況下,可輔助恢復NameNode
    3. 注意:Secondry NameNode(2nn)並非NameNode的熱備,當NameNode掛掉的時候,它並不能馬上替換NameNode並提供服務。
  • 個人理解:NameNode類似索引,存儲目錄,DataNode存儲相關數據,Secondry NameNode用於輔助NameNode

三、YARN架構概述

  • ResourceManager(RM):用於處理客戶端請求;監控NodeManager;啓動或監控ApplicationMaster;資源的分配與調度
  • NodeManager(NM):管理單個節點上的資源;處理來自ResourceManager的命令;處理來自ApplicationMaster的命令
  • ApplicationMaster(AM):負責數據切分;爲應用程序申請資源並分配給內部的任務;任務的監控與容錯
  • ContainerYARN中資源的抽象,它封裝了某個節點上的多維度資源,如內存、CPU、磁盤、網絡等
  • 目前重點理解ResourceManagerNodeManager

四、MapReduce架構概述

MapReduce將計算分爲兩個階段:

  1. Map階段:並行處理輸入數據
  2. Reduce階段:對Map結果進行彙總
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章