《hadoop權威指南》讀書摘要

原創

2020-07-05 21:46

1、MapReduce執行流程

RecordReader->讀取文件數據，將數據拆分爲kv對
map階段->調用用戶定義程序處理kv對，並對數據進行分區（job.setPartitionerClass）後存儲到“環形內存緩衝區”，
當緩衝區達到一定閾值時（默認80%），會啓動後臺線程將部分數據溢出寫入（spill）磁盤的臨時文件中，
將數據寫入文件前會先進行排序（job.setSortComparatorClass）後執行合併（combine）操作（可選）。
當整個map任務完成溢出寫入（spill）後，會將所有臨時文件執行歸併（merge）操作，生成一個大文件
此時的歸併會將spill文件中所有的相同partition合併到一起，並對每個partition中的數據按照key進行排序（sort）操作，生成key和對應的value-list，文件歸併時，如果溢寫文件數量超過參數min.num.spills.for.combine的值（默認爲3）時，可以再次進行合併（combine）。

reduce階段-> reduce task會從不同的job里拉取map task的最終結果，並將相同的partition數據歸併(merge)成一個大文件，對文件中的數據按key進行排序。
之後會對數據進行分組(job.setGroupingComparatorClass)。之後調用reduce進行數據處理
ps:如果：reduce數=1，所有分區都在一個reduce中處理，生成一個文件
1<reduce數<分區數，會報錯，有的分區找不到處理的reduce
reduce數>分區數，會有本分reduce沒有數據處理，生成空文件

一個分組調用一次reduce()方法

參考：https://blog.csdn.net/asn_forever/article/details/81233547

https://blog.csdn.net/u014374284/article/details/49205885

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

《分佈式服務架構：原理、設計與實戰》

1 分佈式微服務架構設計原理 1.1 從傳統單體架構到服務化架構 JEE架構針對企業級應用定義，進行了邏輯分層，包括Web層、業務邏輯層、數據存取層，大多數項目仍然部署在同一個應用服務器上的一個JVM進程中。 SSH架構仍然以

2020-07-08 11:23:27

黃階低級 - 《 Java 核心》- 4.2 使用預定義類 - 修改0次

使用預定義類在 Java 中，沒有類就無法做任何事情！並不是所有類都有面向對象特徵，例如， Math 類。 1、對象和對象變量要想使用對象，就必須首先構造對象，並指定其初始狀態，然後，對對象應用方法通常，我們

2020-07-08 06:59:06

黃階低級 - 《 Java 核心》- 3.2 註釋 - 修改0次

Java 註釋在 Java 中，有三種註釋方式 1、單行註釋（短註釋）註釋內容從 // 開始到本行結束 System.out.println("we will not use 'Hello World !'");//這是單

2020-07-08 06:59:06

黃階低級 - 《 Java 核心》- 4.4 靜態域和靜態方法 - 修改0次

靜態域和靜態方法在絕大多數的面向對象程序設計語言中，靜態域被稱爲類域，術語“ static ”只是沿用了 C++ 的叫法，並無實際意義 1、靜態常量和靜態方法靜態變量用的比較少，靜態常量卻用的比較多一個常用的靜態常

2020-07-08 06:59:06

黃階低級 - 《 Java 核心》- 3.5 運算符 - 修改0次

1、自增自減運算符有兩種形式，前綴和後綴，前綴先進行加1運算，後綴使用變量原來的值。 int m = 7; int n = 7; int a = 2 * ++m;// now a is 16, m is 8 int b =

2020-07-08 06:59:06

黃階低級 - 《 Java 核心》- 4.0 對象和類 - 修改0次

對象和類開始新的一章，主要介紹: 1、面向對象程序設計 2、如何創建標準 Java 類庫中的類的對象 3、如何編寫自己的類

2020-07-08 06:59:06

深度之眼《Python基礎+數據科學入門》筆記

文|Seraph 00 | 緒論和環境配置通常學員機器學習實戰過程中的問題：寫的代碼不夠簡潔、高效、強壯。 Python是解釋型動態語言，與編譯型靜態語言（C++等）的區別是：靜態語言編譯的時候就已經知道數據類型，而動態語言執

2020-07-08 00:56:51

《Java高併發編程詳解-多線程架構與設計》線程安全與數據同步

摘自《Java高併發編程詳解-多線程架構與設計》第四章文章目錄定義Synchronized使用深入 synchronized關鍵字使用synchronized注意的問題4.容易死鎖的原因死鎖檢測定義共享資源：多個線程對同

2020-07-07 22:20:30

《Java高併發編程詳解-多線程架構與設計》Thread API

摘自《Java高併發編程詳解-多線程架構與設計》第三章文章目錄1.sleep不會釋放monitor鎖的所有權2.使用TimeUnit.XX.sleep代替Thread.sleep3.yield讓出CPU資源4.yield與s

2020-07-07 22:20:30

《Java高併發編程詳解-多線程架構與設計》線程間的通信

摘自《Java高併發編程詳解-多線程架構與設計》第五章文章目錄同步、異步、阻塞、非阻塞概念Monitor鎖wait 與 notify使用wait的注意事項使用notify的注意例子：測試主動interrupt對if中使用wa

2020-07-07 22:20:30

第三章存儲與檢索

第二章關注的是將數據錄入數據庫系統的格式，以及檢索出來的機制，這章關注同樣的問題，但是是從數據庫的視角來看：數據庫如何存儲我們的數據，以及如何檢索出我們需要的數據。書中開篇列舉了一個使用bash 命令製作的簡單數據庫的例子：

理想你今年几岁

2020-07-07 21:58:12

【讀書筆記】金融理財，半佛推薦，小狗錢錢_2020.05.01

【概述】書名：小狗錢錢作者：博多·舍費爾日期：2020年05月01日讀書用時：413頁，8小時。【讀書筆記】 ◆ 童話與理財 >> 我們從教科書中知道，很久很久以前，貨幣（金錢）是爲方便人們進行貨物交換而誕生的，是爲人服務的

2020-07-07 21:54:02

【讀書筆記】管理技巧-逆商思維，逆商：我們該如何應對壞事件_2020.07.01

【概述】書名：逆商：我們該如何應對壞事件作者：保羅·史託茲日期：2020年07月01日讀書用時：1028頁，8.5小時。【讀書筆記】 ◆ 推薦序一逆風飛揚 >> 逆商的CORE四個維度[CORE是英文單詞Control（掌控感

2020-07-07 21:54:01

淘寶海量數據產品技術架構

轉自： http://blog.csdn.net/smarttony/article/details/6667944 淘寶數據魔方技術架構解析淘寶網擁有國內最具商業價值的海量數據。截至當前，每天有超過30億的店鋪、商品瀏覽記錄，

迷失的小书童

2020-07-07 20:59:04

百度筆試題，求解答

轉載於：http://blog.csdn.net/smarttony/article/details/1478600 百度筆試題，求解答一、選擇題：15分共10題 1. 在排序方法中，關鍵碼比較次數與記錄地初始排列無關的

迷失的小书童

2020-07-07 20:59:04

24小時熱門文章

最新文章

最新評論文章