Hadoop 的核心（2）—— MapReduce & YARN

原創

2020-02-20 17:16

MapReduce 簡介

MapReduce 是一種編程模型，是一種編程方法，是抽象的理論。

YARN 概念

YARN 是 Hadoop 2.0 版本以後的資源管理器，即 MapReduce 2.0，相比於 1.0 版本，架構中的各個模塊分工明確，在性能和穩定性上都有所提升。YARN 負責整個集羣資源的管理和調度，也就是說所有的 MapReduce 都需要通過它來進行調度，支持多種計算框架。

YARN 的幾個概念：

ResourceManager
ApplicationMaster
NodeManager

1、ResourceManager

負責接受客戶端提交的 job，分配和調度資源
啓動 ApplicationMaster，判斷 job 所需資源
監控 ApplicationMaster，在其失敗的時候進行重啓
監控 NodeManager

2、ApplicationMaster

爲 MapReduce 類型的程序申請資源，並分配任務
負責相關數據的切分
監控任務的執行及容錯

3、NodeManager

管理單個節點的資源，向 ResourceManager 進行彙報
接收並處理來自 ResourceManager 的命令
接收並處理來自 ApplicationMaster 的命令

MapReduce 編程模型

場景：輸入一個大型文件，通過 split 將其分成多個文件分片
Map：每個文件分片由單獨的機器進行處理，這就是 Map 方法
Reduce：將各個機器的計算結果進行彙總，得到最終的結果，這就是 Reduce 方法

Map 任務處理

讀取輸入文件的內容，解析成鍵值對，把文件的每一行解析成鍵值對，每個鍵值對調用一次 map 函數；(Input)
寫自定義的邏輯，對輸入的鍵值對進行處理，轉換成新的鍵值對輸出；(Map)
對不同分區的數據，按照鍵（key）進行排序和分組，key 相同的值（value）放到一個集合中；(Sort -> Combine)
把輸出的鍵值對（此時只是中間結果）按照 key 的範圍進行分區處理；(Partition)
分組後的數據進行 reduce 處理。

Reduce 任務處理

對多個 map 任務的輸出，按照不同分區，通過網絡 copy 到不同的 reduce 節點；
對多個 map 任務的輸出進行合併和排序，自定義 reduce 函數的邏輯，對輸入的鍵（key）和值（value）進行處理，轉換成新的鍵值對輸出；(Reduce)
把 reduce 的輸出保存到文件中。(Output)

MapReduce 的整個工作流程可以歸結爲：

Input -> Map -> Sort -> Combine -> Partition -> Reduce -> Output

歡迎關注我的知乎專欄【數據池塘】，專注於分享機器學習、數據挖掘乾貨：https://zhuanlan.zhihu.com/datapool

⬇️ 微信公衆號 ⬇️

發佈了38 篇原創文章 · 獲贊 23 · 訪問量 7萬+

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

灰度預測——關聯度求解

灰度預測適用範圍：在實際中，若得到的是離散的，規律性不強的數據，此時線性迴歸就不適用了，我們需要採用灰度預測的方法。灰度預測法則是一種對含有不確定因素的系統進行預測的方法。白色系統、黑色系統、灰度系統：白色系統：指一個系統

2020-07-07 21:50:48

python數據科學——四分位準則及繪製箱線圖

繪製箱線圖一般有兩種方法： 1.pandas方法： import pandas as pd import matplotlib.pyplot as plt df = pd.read_csv("26_finaldata_lowfr

2020-07-07 21:50:48

四參數擬合之LMF法（無約束)

文章目錄前言LM 算法Matlab代碼前言寫到這裏，已經發現了前面兩篇文章的重大bug。那就是牛頓法也好，LM法也好，都是針對無約束的問題，而四參數擬合問題是一個有約束的問題，參數一般設置爲0到正無窮。這也解釋了爲何之前的計

2020-07-06 12:30:45

四參數擬合算法之高斯牛頓法

文章目錄介紹牛頓法Matlab Code 介紹前面提到了牛頓法，那其實相當於求根的算法。跟一般最小二乘法的區別是，它並沒有顯示的最小二乘目標式子。 F(A,B,C,D,xi)=0F(A,B,C,D,x_i) = 0F(A,B,

2020-07-06 12:30:45

四參數擬合算法之牛頓法

背景：因爲工作需要用C/C++實現四參數擬合算法，在網上搜了一圈，沒找到合適的現成代碼,就是現成其他語言的代碼，也沒有找到完整實現的，效果最好的要數L4P 的matlab代碼，可惜它最終調用的fit函數是matlab內置的，

2020-07-06 12:30:44

維納濾波及其簡單實現

文章目錄介紹基本概念簡單實現過程matlab實現結果小結介紹隨機信號包括了確定信號和隨機噪聲兩部分。維納濾波的本質是設計一組衝擊響應的函數，抑制信號中的隨機噪聲部分，或者說非預期信號部分，使得信號與預期值的均方誤差達到最小。

2020-07-06 12:30:43

Cardinal B-Splines 曲線擬合

文章目錄前言目標Cardinal B-SplinesCardinal B-Spline 曲線擬合基本原理代碼結果參考文獻前言前面介紹了spline的基函數，沒想到以前覺得很簡單的東西，能夠玩出這麼多花樣。我的初衷本不過是想

2020-07-06 12:30:43

四參數擬合之LM(有約束)

文章目錄前言目標變換matlab Code運算結果前言之前幾篇文章寫的都是四參數的無約束的優化方法，問題是，四參數本身是有約束的。這裏，通過變化法，將一個有約束的問題轉換爲無約束的問題，再使用LMF法求得最優解。目標變換原

2020-07-06 12:30:43

爲何QR分解收斂於特徵值

QR分解求特徵值的方法很簡單，計算過程如下： QR本身可以看作一個將矩陣A轉化爲上三角矩陣R的過程，通過householder，givens轉換等手段，構造一系列的變換矩陣T，將矩陣轉換爲上三角矩陣R，而變換矩陣的逆矩陣則構成了Q。

2020-07-06 12:30:42

隱馬爾可夫模型與語音識別

文章目錄前言隱馬爾可夫(HMM)馬爾可夫鏈隱馬爾可夫HMM中的語音識別（孤立詞）HMM 語音識別過程GMM總結參考文獻前言隱馬爾科夫鏈結合語言識別，在細節上，涉及到的知識挺多，沒有一定的時間投入難以很好的去把握。這篇文章只想

2020-07-06 12:30:39

論文閱讀理解：Understanding Black-box Predictions via Influence Functions

文章目錄Cook DistanceInfluence Function參數影響Iup,params(z)\mathcal{I}_{up,params}(z)Iup,params(z)損失影響Iup,loss(z,ztest)\m

2020-07-06 12:30:39

魯棒最小二乘法的三種優化形式（CVX）

文章目錄數據初始部分(a) robust least-squares problem(b)least-squares problem with variable weights(c)quadratic program參考魯棒最小

2020-07-06 12:30:39

異常檢測 cook distance

前面寫了leverage 槓桿的計算以及其意義主要是爲後面的內容做一些鋪墊.Cook’s distance起源於提出這個名詞的統計學家Cook，用於刪除一個樣本後，對模型的影響。假設有如下模型 y=Xβ+ϵ,X∈Rm×p {\

2020-07-06 12:30:39

異常檢測：Leverage of observation

Leverage槓桿是一個指標，描述了樣本對模型的影響程度高槓杆點本質是一種離羣點，但是它不同於普通離羣點，和擬合直線比較遠，而是離開羣體遠，卻在擬合直線附近。爲了，擬合得更好，擬合直線需要靠近這點以減少擬合誤差。這樣導致了直線

2020-07-06 12:30:39

最小二乘法的對偶形式（CVX）

文章目錄數據生成部分第一種形式第二種形式第三種形式第四種形式第五種形式參考最小二乘法的表示形式很多，其對偶形式也很多。這裏學習了CVX官網的例子，求解最小二乘法的幾種形式，這裏進行簡單的分析，看看是怎麼得到的。數據生成部分 r

2020-07-06 12:30:39

24小時熱門文章

最新文章

最新評論文章