hadoop基礎知識

原創

2018-08-26 01:21

Hadoop是一個開發和運行處理大規模數據的軟件平臺，是Apache的一個用java語言實現的開源分佈式系統框架，
用戶可以在不瞭解分佈式底層細節的情況下，開發分佈式程序。充分利用集羣的威力進行高速運算和存儲。
實現在大量計算機組成的集羣中對海量數據進行分佈式計算。

它的目的是從單一的服務器到上千臺機器的擴展，每一個臺機都可以提供本地計算和存儲。

Hadoop框架中最核心設計就是：MapReduce和HDFS。MapReduce提供了對數據的計算，HDFS提供了海量數據的存儲。

hdfs是hadoop分佈式文件系統的簡稱，由若干臺計算機組成。
用於存放PB、TB數量級的文件，每份文件可以有多個副本，所以HDFS是一個具有高冗餘、高容錯的文件系統。

hdfs結構：
名稱節點(NameNode)：
    分爲兩部分：
    1.塊兒信息：文件位置映射信息，幫助快速查找某個文件在那個數據節點上。
    2.輔助名稱節點(SecondaryNameNode)通過鏡像文件和變更日誌備份NameNode原數據，如果NameNode掛了，可以通過這些數據進行恢復。

若干個數據節點(DataNode):
用於存放文件及文件的副本，最小的存儲單元是塊兒，默認大小爲64M.
所有的DataNode會定期向NameNode發送心跳。如果NameNode長時間沒有收到某個節點發送的心跳，
則認爲他掛掉了。

hadoop2移除了hadoop1原有的jobTracker和TaskTracker，改由yarn平臺的ResourceManager負責集羣中
所有資源的統一管理和分配，NodeManager管理Hadoop集羣中單個計算節點。

hadoop2的yarn設計減少了jobTracker的資源消耗，減少了hadoop1中發生單點故障的風險。我們還可以在
yarn平臺上運行spark和storm作業，充分利用資源。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

hadoop基礎知識

[軟件工具百科] 互聯網資源歷史快照歸檔站點與數字圖書館

網易面試：SpringBoot如何開啓虛擬線程？

杭州的 IT 崩盤了麼？

程序員常見的文本查看工具

VS2022 解決方案打不開 .NET Framework 4.0 、 4.5 等老項目

Vue3 運行可以，build 打包發佈報錯，app.config.globalProperties 用法坑

既然測試也要求寫代碼，那乾脆讓開發兼任測試不就好了嗎？

ITSM落地經驗之建設藍圖規劃

PDF 補丁丁 1.0.2 版更新

奇怪！應用的日誌呢？？

CI框架set_rules自定義錯誤

docker3步驟安裝node

跨域原理及解決而思路

nignx將請求轉發給docker-compose容器

html+css前端筆記

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結