一、Hadoop架構分析
ØHadoop分佈式文件系統特點
1.按需定製MapReduce
2.目標在於多次的文件流讀取
3.寫入成本很高
4.高度數據冗餘(副本,默認3)
5.每個節點不需要RAID-獨立磁盤冗餘陣列 redundant array of independent disks
6.Blocksize較大(128m)
7.定製節點的位置感知
ØNameNode
1.存儲文件元數據,比如目錄結構(路徑),對數據進行的增刪改查實質是針對元數據進行的;
2.運行NameNode的服務器至關重要,只有1個
3.只對元數據的增刪做日誌記錄,不對block和文件流做記錄;對數據的操作不做日誌記載。
4.DataNode故障時,負責創建更多的副本block
ØDataNode
1.存儲真實數據
2.可運行在多種文件系統上(ext3/4,NTFS …)
3.通知NameNode自己有哪些block
4.NameNode在同一機架創建放置一個副本,另一機架放置2個副本