一、Hadoop 1.x 和 2.x 的區別
二、HDFS架構
1)NameNode(nn)
:存儲文件的元數據,如文件名,文件目錄結構,文件屬性(生成時間、副本數、文件權限),以及每個文件的塊列表和塊所在的DataNode等。(筆者把它簡單理解爲書的目錄)
2)DataNode(dn)
:在本地文件系統存儲文件塊數據,以及塊數據的校驗和。(筆者把它簡單理解爲書中真正的內容)
3)Secondary NameNode(2nn)
:用來監控HDFS狀態的輔助後臺程序,每隔一段時間獲取HDFS元數據的快照。
三、YARN架構
1)ResourceManager(RM)
- 處理客戶端請求
- 監控NodeManager
- 啓動或監控ApplicationMaster
- 資源的分配與調度
2)NodeManager(NM)
- 管理單個節點上的資源
- 處理來自ResourceManager的命令
- 處理來自ApplicationMaster的命令
3)ApplicationMaster(AM)
- 負責數據的切分
- 爲應用程序申請資源並分配給內部的任務
- 任務的監控與容錯
4)Container
yarn中的資源抽象,它封裝了某個節點上的多維度資源,如內存、CPU、磁盤等