MapReduce的原理及執行過程

原創

Datalover_Cindy

2018-11-20 00:12

MapReduce簡介

MapReduce是一種分佈式計算模型，是Google提出的，主要用於搜索領域，解決海量數據的計算問題。
MR有兩個階段組成：Map和Reduce，用戶只需實現map()和reduce()兩個函數，即可實現分佈式計算。

MapReduce執行流程

MapReduce原理

MapReduce的執行步驟：

1、Map任務處理

　　1.1 讀取HDFS中的文件。每一行解析成一個<k,v>。每一個鍵值對調用一次map函數。 <0,hello you> <10,hello me>

　　1.2 覆蓋map()，接收1.1產生的<k,v>，進行處理，轉換爲新的<k,v>輸出。　　　　　　　　　　<hello,1> <you,1> <hello,1> <me,1>

　　1.3 對1.2輸出的<k,v>進行分區。默認分爲一個區。詳見《Partitioner》

　　1.4 對不同分區中的數據進行排序（按照k）、分組。分組指的是相同key的value放到一個集合中。　排序後：<hello,1> <hello,1> <me,1> <you,1> 分組後：<hello,{1,1}><me,{1}><you,{1}>

　　1.5 （可選）對分組後的數據進行歸約。詳見《Combiner》

2、Reduce任務處理

　　2.1 多個map任務的輸出，按照不同的分區，通過網絡copy到不同的reduce節點上。（shuffle）詳見《shuffle過程分析》

　　2.2 對多個map的輸出進行合併、排序。覆蓋reduce函數，接收的是分組後的數據，實現自己的業務邏輯，　<hello,2> <me,1> <you,1>

　　　　處理後，產生新的<k,v>輸出。

　　2.3 對reduce輸出的<k,v>寫到HDFS中。

轉載自：https://www.cnblogs.com/ahu-lichang/p/6645074.html

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

HIVE 權限配置 [沒有趟過坑的人生是不完美的]

這兩天被hive的權限問題,折騰的不輕.記錄一下 Hive的基本配置我就不細說了,自行配置,網上一堆堆的. 1.背景要求可以使用hdfs和hive用戶操作自己創建的數據庫. 權限不可亂. 要求,如下,[基本就是裸奔,沒做任何配置,但依舊

2020-07-08 02:23:22

Hive 窗口函數（Windowing Functions）

窗口函數對點擊流處理，和類似的時間序列/滑動窗分析很有用。最近在做時間序列分析，希望趁這個機會對窗口函數有進一步深入的瞭解。 Lead & Lag Lead 和Lag是金融方面的術語，意思是提前和延期。按照時間段統計時，有些

2020-07-08 12:17:40

hive使用tez環境配置

Tez引擎包下載： https://mirrors.tuna.tsinghua.edu.cn/apache/tez/0.8.4/apache-tez-0.8.4-bin.tar.gz 1：將下載的安裝包解壓 $ pwd /opt/ubd/

梦里却知是客

2020-07-08 11:59:58

tez 0.9.0 的安裝和測試

文章目錄1 tez的概覽1.1 tez介紹1.1.1 介紹2 tez的安裝2.1 tez下載2.2 tez源碼編譯2.3 tez的安裝2.3.1 解壓並配置環境2.3.2 配置配置文件2.4 tez、hadoop、hive整合2.

Aidon-东哥博客

2020-07-08 11:21:42

hive常用窗口函數

1 hive窗口函數在平時的開發中常用那些hive函數？？ 1、字符串操作函數？split、concat、ifnull、cast 2、聚合函數： hive適用於分析，所以常用。 3、時間函數：數倉的特徵隨時間變化而變化，所

Aidon-东哥博客

2020-07-08 11:21:42

hive配置教程詳解

使用到的工具 xshell centos7 xtpf apache-hive-2.3.6-bin mysql的驅動第一步：將下載好的hive安裝包上傳到/usr/local目錄下解壓解壓命令 tar -zxvf apache-

2020-07-08 11:12:13

datax同步mysql數據到hive

datax hdfswriter文檔 https://github.com/alibaba/DataX/blob/master/hdfswriter/doc/hdfswriter.md 需要注意的是，hdfswriter寫入時的字段分隔符

2020-07-08 10:43:36

Apache Hive+Kerberos安裝配置及 Kettle訪問帶 Kerberos 認證的 Hive的集成

目錄1 連接2 KDC 安裝2.1 安裝 Kerberos 服務2.2 配置 /var/kerberos/krb5kdc/kdc.conf2.3 配置 /var/kerberos/krb5kdc/kadm5.acl2.4 配置 /

2020-07-08 09:55:10

hive鎖的問題

hive鎖的問題最近在insert into 插入數據的時候遇到了hive鎖表的問題，下面是報錯信息，原因就是一張hive的臨時表被鎖造成報錯。 1.Hive中定義了兩種鎖的模式：共享鎖（S）和排它鎖（X），顧名思義，多個共

2020-07-08 09:11:58

Hive批量刪除一段時間分區和動態分區更新數據

Hive批量刪除一段時間分區和動態分區更新數據 1.hive動態分區 -- 批量刪除分區數據 alter table dm.dm_call_gateway_bill_time_detail drop partition(dt >=

2020-07-08 09:11:58

如何批量修改hive local的存儲位置

1、背景由於公司原有的oss訪問AK被泄露，引發安全問題，AK被運維禁用，大數據同學發現原來正常訪問hive，現在不能訪問了，仔細看了一下原因是AK被禁用導致。於是只能替換新的AK。我們建表語句是 CREATE DATABA

2020-07-08 05:08:59

spark-sql使用hive的自定函數配置

1、spark-sql可以直接使用hive的自定義函數，而不需要重新寫一套spark-sql的自定義函數，這裏較大家一個簡單的配置方式即可 2、將hive的自定義函數jar拷貝到/usr/lib/spark-current/jars，我們

2020-07-08 05:08:59

hive 存儲格式對比

hive 存儲格式對比 Apache Hive支持Apache Hadoop中使用的幾種熟悉的文件格式，如TextFile，RCFile，SequenceFile，AVRO，ORC和Parquet格式。 Cloudera Impa

weixin_41734687

2020-07-08 01:20:46

hive 數據傾斜原因及解決

轉載添加鏈接描述 🚗 Index 什麼是數據傾斜數據傾斜的原因 Hadoop計算框架的特點優化的常用手段優化案例 🔍 什麼是數據傾斜我們在用hive取數的時候，有的時候只是跑一個簡單的join語句，但是卻跑了很長的時間，

weixin_41734687

2020-07-08 01:20:46

大數據 java01 hive udf函數（手機號碼脫敏）

Hive UDFHive UDF 函數1 POM 文件2.UDF 函數3 利用idea打包4 添加hive udf函數4.1 上傳jar包到集羣4.2 修改集羣hdfs文件權限4.3 註冊UDF4.4 使用UDF Hive UDF

weixin_41734687

2020-07-08 01:20:46

24小時熱門文章

最新文章

最新評論文章