hadoop基礎知識

Hadoop是一個開發和運行處理大規模數據的軟件平臺,是Apache的一個用java語言實現的開源分佈式系統框架,
用戶可以在不瞭解分佈式底層細節的情況下,開發分佈式程序。充分利用集羣的威力進行高速運算和存儲。
實現在大量計算機組成的集羣中對海量數據進行分佈式計算。

它的目的是從單一的服務器到上千臺機器的擴展,每一個臺機都可以提供本地計算和存儲。

Hadoop框架中最核心設計就是:MapReduce和HDFS。MapReduce提供了對數據的計算,HDFS提供了海量數據的存儲。


hdfs是hadoop分佈式文件系統的簡稱,由若干臺計算機組成。
用於存放PB、TB數量級的文件,每份文件可以有多個副本,所以HDFS是一個具有高冗餘、高容錯的文件系統。

hdfs結構:
名稱節點(NameNode):
    分爲兩部分:
    1.塊兒信息:文件位置映射信息,幫助快速查找某個文件在那個數據節點上。
    2.輔助名稱節點(SecondaryNameNode)通過鏡像文件和變更日誌備份NameNode原數據,如果NameNode掛了,可以通過這些數據進行恢復。

若干個數據節點(DataNode):
用於存放文件及文件的副本,最小的存儲單元是塊兒,默認大小爲64M.
所有的DataNode會定期向NameNode發送心跳。如果NameNode長時間沒有收到某個節點發送的心跳,
則認爲他掛掉了。



hadoop2移除了hadoop1原有的jobTracker和TaskTracker,改由yarn平臺的ResourceManager負責集羣中
所有資源的統一管理和分配,NodeManager管理Hadoop集羣中單個計算節點。

hadoop2的yarn設計減少了jobTracker的 資源消耗,減少了hadoop1中發生單點故障的風險。我們還可以在
yarn平臺上運行spark和storm作業,充分利用資源。
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章