主要包含4個模塊:
Hadoop Common:Hadoop工具包,支持其他模塊的工具模塊(Configuration、RPC、序列化機制、日誌操作)
Hadoop HDFS:一個高可靠、高吞吐量的分佈式文件系統,對海量數據的存儲。
1)NameNode(nn):存儲文件的元數據。如文件名、文件目錄結構、文件屬性,以及每個文件的塊列表和塊所在的DataNode等。
2)DataNode(dn):在本地文件系統存儲文件塊數據,以及塊數據的校驗和。
3)Secondary NameNode(2nn):監控HDFS狀態的輔助後臺程序,每隔一段時間獲取HDFS元數據的快照。
Hadoop MapReduce:一個分佈式的資源調度和離線並行計算框架。
1)Map階段並行處理輸入數據。
2)Reduce階段對Map結果進行彙總。
Hadoop Yarn:一個新的MapReduce框架,用於作業調度和集羣資源管理的框架。