大數據學習筆記3--HDFS擴展和mapreduce工作過程

原創

程序小小望

2018-08-25 09:59

HDFS配置：

客戶端中的配置參數可以覆蓋服務端的參數。
例如：副本數，切塊大小

HDFS文件存儲：

服務端存儲block的實際大小，但是不適合存儲小文件，小文件會佔用namenode的元數據空間。
對於小文件數據的優化，可以在上傳之前先合併再上傳。
例如：壓縮、文本文件合併

HDFS擴展：

hdfs支持rest API，與平臺無關
jetty 容器
hdfs支持rest command

分佈式任務傳統方式：

任務資源分發 jar配置文件。。。硬件資源的分配
任務在各個任務節點上設置運行環境，啓動執行
監視各個階段任務執行狀態
任務失敗，重試
中間結果調度，彙總

hadoop對分佈式抽象

yarn：資源調度器，負責硬件資源調度、任務分配、環境配置、啓動任務。
mapredce：分佈式運算框架，監視任務執行、失敗重試、中間結果調度。
spark、storm：實時計算

mapreduce

mapper：
一次讀取一行數據
輸出一組keyValue
mapper個數等於block塊數
shuffle：
合併數據
reduce：
業務邏輯處理

hadoop序列化機制：

hadoop中目前的序列化機制是writable，後續版本中會替換爲avro

mapreduce任務提交方式

jar包，hadoop jar wordcount.jar Count
mr會被提交到集羣，屬於集羣的運行方式
local模式
在eclipse裏直接運行main方法
eclipse hadoop 插件

mapreduce任務執行流程

RunJar：客戶端
ResourceManager：資源管理器，老大
NodeManager：執行任務管理器
MrAppMaste：任務啓動、監控、失敗重試
yarnchild：mapper和reducer

RunJar向ResourceManager申請提交一個job
ResourceManager返回jobid和一個job的提交的路徑（hdfs://）
RunJar提交job任務的相關文件（jar，配置job.xml,split.xml）到hdfs
RunJar上報給ResourceManager任務已經提交完成
ResourceManager分配資源，並將任務任務寫入到任務隊列中
NodeManager主動向ResourceManager領取任務
NodeManager在一個容器中啓動MrAppMaster
MrAppMaster向ResourceManager註冊
ResourceManager向MrAppMaster返回資源信息
MrAppMaster啓動mapper(mapper reducer詳細流程。。。)
MrAppMaster啓動reducer
任務執行完成，向ResourceManager註銷資源

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

智慧家庭場景的推薦系統的發展歷程和方向 | InfoQ《公開課》

直播概要：隨着計算機的蓬勃發展，互聯網進入大數據和人工智能時代，爲了解決信息過載和長尾商品，推薦系統成爲唯一選擇，而面對不同的業務場景，爲了解決業務痛點，會根據不同的場景特點尋找不同的方法和手段來解決推薦中實際遇到的問題。在智慧家庭領域，

InfoQ 中文站

2021-12-21 10:54:01

開源80萬行代碼，微衆銀行如何在小團隊規模下煉出一套一站式大數據平臺 | 卓越技術團隊訪談錄

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragr

2021-12-21 10:53:51

RocketMQ Streams：將輕量級實時計算引擎融合進消息系統

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

2021-12-07 10:29:04

數據也需要滴血認親？

{"type":"doc","content":[{"type":"heading","attrs":{"align":null,"level":2},"content":[{"type":"text","text":"背景","attrs

2021-12-05 12:33:58

爲什麼Netflix“永不宕機”？

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

2021-11-25 15:48:52

RocketMQ 在金融企業技術中臺的落地實踐

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

2021-11-25 10:53:56

數據讓您與衆不同

作爲數據分析領域的領導者，Google Cloud 一直致力於解決用戶最關注的問題，幫助用戶在數字化轉型的過程中更加有效的利用數據，最大化數據所帶來的價值，進而驅動業務的發展，包括打破數據孤島, 高效的實時和預測分析以及最大化數據洞察的應用

2021-11-23 11:18:54

開源雲原生數據編排軟件開發商Alluxio宣佈完成5000萬美元C輪融資

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

2021-11-18 22:08:53

2021 GitHub年度報告：僅有 11% 的開發者想重返辦公室辦公；JavaScript依然最受歡迎

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

2021-11-18 22:03:52

Databricks與Snowflake創始人開撕：“未來十年數據倉庫要麼不存在要麼大變樣”

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"blockq

2021-11-18 18:03:58

通過優化S3讀取來提高效率和減少運行時間

{"type":"doc","content":[{"type":"heading","attrs":{"align":null,"level":1},"content":[{"type":"text","text":"概述"}]},{"t

Bhalchandra Pandit

2021-11-11 10:23:52

基礎軟件創業 8 年，星環科技如何精準“踩點”？ | C位面對面

在大數據領域創業 12 年，眼見計算引擎經歷了數輪迭代，雲原生興起砸中了一批做容器的，數據雲因爲 Snowflake 上市走入大衆認知，回回都能在風口到來前兩三年做好佈局，這是一種什麼判斷和體驗？本期 C 位面對面，我們邀請到了星環科技創

InfoQ 中文站

2021-11-08 14:38:55

DataOps指南：數據管理新時代來了？

{"type":"doc","content":[{"type":"blockquote","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null

2021-11-08 10:58:53

谷歌自研芯片Tensor正式亮相：5nm，8核CPU，支持手機運行AI模型

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

2021-10-20 15:53:52

從入職到放棄再到改革成功：我是如何從0到1建立數據團隊的？

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

Erik Bernhardsson

2021-10-09 08:18:53

24小時熱門文章

最新文章

最新評論文章