Hadoop基礎(2)

原創

2020-06-15 17:56

1.在Job初始化時，設定input format，output format，key和value。

2.將HDFS中的block劃分成split分給map（在hdfs.xml中dfs.block.size設置block大小）。

3.map通過input format讀取(key, value)並處理。處理後將生成數據放入buffer（buffer大小可設定）。

buffer結構：除了key和value之外，還包括meta。一個meta包括了index，key length，value length，partition number。index表示meta所對應的(key, value)的索引座標，partition number表示對應(key, value)的partition號。

4.當buffer放滿時，將buffer放入sort and spill中進行排序，排序時以partition爲主鍵，key爲副鍵。

（partitions可由用戶定義，數量由reduce個數確定。例如：terasort設定的partitions確保了：partition0的所有key一定大於partition1。這樣就保證了，sort and spill之後在整個map output文件中key是有序的。grep設定的partitions確保了：partition0的所有key(也就是匹配到的詞)都相同，這樣，sort and spill之後partition中key的個數就是匹配到詞的個數。）

5.排序結束後，生成多個（有可能只有一個）map output文件和對應的index文件(標記着mapout的partition的索引，也就是partition0，partition1...partitionN在mapout文件的起始位置)，將多個（如果只有1個就不需要merge）mapout和對應的index文件merge成兩個文件，最後在一個slave上只有一個mapout和對應的一個index。

6.Reduce根據index文件通過shuffle，fetch對應partition號的數據（也就是reduce0 fetch partition0）。

（fetch過程在集羣中是通過網絡完成的，如果是pesudo模式shuffle會直接讀取本地文件，也就是繞過了真正的shuffle）。

7.多個Reduce處理後進行merge，直到只剩下一個文件爲止，通過output format輸出結果。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

阿里雲 MaxCompute 2020-12 月刊

【12月新發布功能】 1、MaxCompute 查詢編輯器支持查詢加速提升數據分析能力 MaxCompute 數據分析支持查詢加速，當分析師通過SQL查詢數據時，速度可提升至秒級，爲數據分析師提供更優的數據分析體驗。適用客戶及場景數據分

2021-01-05 14:43:48

微服務分佈式事務

阿里雲最佳實踐頻道：【點擊查看更多上雲最佳實踐】這裏有豐富的企業上雲最佳實踐，從典型場景入門，提供一系列項目實踐方案，降低企業上雲門檻的同時滿足您的需求！場景描述本文檔適用於在分佈式應用中，多個服務間存在分佈式事務的場景。通過阿里雲

最佳實踐小文

2020-09-22 09:58:59

Spring Cloud Netflix應用遷移EDAS

阿里雲最佳實踐頻道：【點擊查看更多上雲最佳實踐】這裏有豐富的企業上雲最佳實踐，從典型場景入門，提供一系列項目實踐方案，降低企業上雲門檻的同時滿足您的需求！場景描述 Spring Cloud Netflix微服務應用遷移到EDAS服務（

最佳實踐小文

2020-09-22 09:58:59

阿里雲 MaxCompute 2020-8 月刊

【8月新功能發佈】 1. MaxCompute 數據備份與恢復功能中國大陸區域（商業化）發佈 MaxCompute備份與恢復功能提供持續備份用戶修改/刪除歷史數據，支持快速恢復，持續保護數據安全。適用客戶· 對數據保護有強需求客戶· 擔

2020-09-04 14:25:55

10個微服務架構設計的最佳實踐

雲棲號資訊：【點擊查看更多行業資訊】在這裏您可以找到不同行業的第一手的上雲資訊，還在等什麼，快來！微服務極大的改變了服務端引擎的架構方式。微服務不是一個單一的巨型的用來託管應用程序所有業務邏輯的代碼庫，而是反映了分佈式系統模型，在該模型

雲棲號資訊小哥

2020-08-06 15:10:48

探索區塊鏈在製造業中的應用

雲棲號資訊：【點擊查看更多行業資訊】在這裏您可以找到不同行業的第一手的上雲資訊，還在等什麼，快來！區塊鏈可以在製造業的許多方面發揮重要作用。自動化設備配件供應商EU Automation公司美洲地區銷售總監Claudia Jarrett對

雲棲號資訊小哥

2020-08-05 13:49:49

轉向邊緣計算？考慮一下

雲棲號資訊：【點擊查看更多行業資訊】在這裏您可以找到不同行業的第一手的上雲資訊，還在等什麼，快來！數據爲王，特別是在當前數據驅動業務的時代，數據思維和分析能力是決定未來成功的重要因素。隨着大量數據的挖掘和貨幣化，越來越多的公司開始認識到邊

雲棲號資訊小編

2020-08-04 13:13:52

圖解分佈式DB/redis的幾種路由算法（一致性哈希）

雲棲號資訊：【點擊查看更多行業資訊】在這裏您可以找到不同行業的第一手的上雲資訊，還在等什麼，快來！背景隨着應用的越做越大，數據量越來越多，不論是MySQL數據庫的單庫單表還是單臺redis都無法滿足高併發的讀寫操作和大數據量的存儲功能

雲棲號資訊小哥

2020-08-03 14:19:51

迎來下一個黃金十年雲計算進入普惠發展期

雲棲號資訊：【點擊查看更多行業資訊】在這裏您可以找到不同行業的第一手的上雲資訊，還在等什麼，快來！雲計算成新基建重要組成，工信部、發改委、網信辦等部委先後發文，鼓勵雲計算與大數據、人工智能、5G 等新興技術融合，實現企業信息系統架構和運營

雲棲號資訊小編

2020-07-31 11:19:54

高併發系統設計的 2 個要點，一定要看！

雲棲號資訊：【點擊查看更多行業資訊】在這裏您可以找到不同行業的第一手的上雲資訊，還在等什麼，快來！在系統設計時，如果能預先看到一些問題，並在設計層面提前解決，就會給後期的開發帶來很大的便捷。一、Session共享問題單系統中的Sess

雲棲號資訊小哥

2020-07-28 13:55:55

有哪些大數據處理工具？

雲棲號資訊：【點擊查看更多行業資訊】在這裏您可以找到不同行業的第一手的上雲資訊，還在等什麼，快來！阿里妹導讀：近幾年裏，大數據行業發展勢頭迅猛，故而相應的分佈式產品和架構層出不窮，本文分享作者在大數據系統實踐過程中接觸過的一些工具及使

雲棲號資訊小編

2020-07-22 12:37:48

四種常見的系統架構，目前你處於哪個階段呢？

雲棲號資訊：【點擊查看更多行業資訊】在這裏您可以找到不同行業的第一手的上雲資訊，還在等什麼，快來！軟件架構（software architecture）就是軟件的基本結構。合適的架構是軟件成功的最重要因素之一。大型軟件公司通常有專門的架

雲棲號資訊小哥

2020-07-21 13:55:54

面試被問高併發流量控制，我臉都綠了...

雲棲號資訊：【點擊查看更多行業資訊】在這裏您可以找到不同行業的第一手的上雲資訊，還在等什麼，快來！前言在實際項目中，曾經遭遇過線上5W+QPS的峯值，也在壓測狀態下經歷過10W+QPS的大流量請求，本篇博客的話題主要就是自己對高併發流量

雲棲號資訊小哥

2020-07-17 13:55:50

利用Makisu構建容器鏡像

雲棲號資訊：【點擊查看更多行業資訊】在這裏您可以找到不同行業的第一手的上雲資訊，還在等什麼，快來！本系列文章深入研究了容器鏡像構建的最新技術。我們已經介紹了Podman和Buildah、Img、Kaniko，而這次輪到Makisu了。

雲棲號資訊小哥

2020-07-09 15:46:51

雲計算與大數據合體，能給我們帶來什麼？

雲棲號資訊：【點擊查看更多行業資訊】在這裏您可以找到不同行業的第一手的上雲資訊，還在等什麼，快來！雲計算和大數據的結合可以說是相輔相成，因爲雲計算爲大數據提供了可以彈性擴展相對便宜的存儲空間和計算資源，使得中小企業也可以像大型企業一樣通過

雲棲號資訊小編

2020-07-08 18:46:59

24小時熱門文章

最新文章

最新評論文章