M/R推测性的执行（Speculative execution）

原創

2020-06-18 21:23

　　Hadoop系统有一个问题，它把任务分派到很多个节点，其中很有可能有一些慢的节点会限制剩下程序的执行速度。举个例子，如果有个节点内有一个比较慢的磁盘控制器，那它读取输入数据的速度可能只有所有其它节点的速度的10%。所以当99个map任务都已经完成了，系统仍在等待最后那个比较耗时的map任务完成。
　　通过强迫任务独立运行于其它的任务，使得单个任务之间不会知道它们的输入数据来自哪里。任务相信Hadoop平台会派送合适的输入到它们那里。因此，对于相同的输入数据，我们可以并行多次处理以利用不同机器的负载能力。因为作业中大多数的任务都已经完成了，Hadoop平台会在几个空闲的节点上调度执行剩余任务的拷贝，这个过程叫做推测性的执行。当任务完成时，它会向JobTracker通告。任何一个首先完成的拷贝任务将成为权威拷贝，如果其他拷贝任务还在推测性的执行中，Hadoop会告诉TaskTracker去终止这些任务并丢弃它们的输出，接着Reducer会从首先完成的Mapper那里获取输入数据。

　　推测性的执行默认是启用的，你可以通过设置JobConf中以下参数为false来禁用mapper和reducer的推测性的执行。

mapred.map.tasks.speculative.execution
mapred.reduce.tasks.speculative.execution

来源：http://www.cnblogs.com/spork/archive/2010/01/11/1644350.html

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

cdh设置hdfs权限

通常會把 root 或者需要的用戶添加到 supergroup組，但Linux下默認是沒有supergroup組。 # Linux下默認是沒有supergroup組的 # hadoop:x:994:hdfs,mapred,yarn cat

2022-12-19 09:37:26

开源80万行代码，微众银行如何在小团队规模下炼出一套一站式大数据平台 | 卓越技术团队访谈录

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragr

2021-12-21 10:53:51

Uber容器化Apache Hadoop基础设施的实践

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

Uber 技术团队

2021-11-19 09:03:49

基础软件创业 8 年，星环科技如何精准“踩点”？ | C位面对面

在大數據領域創業 12 年，眼見計算引擎經歷了數輪迭代，雲原生興起砸中了一批做容器的，數據雲因爲 Snowflake 上市走入大衆認知，回回都能在風口到來前兩三年做好佈局，這是一種什麼判斷和體驗？本期 C 位面對面，我們邀請到了星環科技創

InfoQ 中文站

2021-11-08 14:38:55

基础软件创业 8 年，如何精准“踩点”？｜ C位面对面

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

2021-11-02 09:28:56

抛弃Hadoop，数据湖才能重获新生

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"blockq

2021-10-28 14:23:59

Hadoop 生态里，为什么 Hive 活下来了？

{"type":"doc","content":[{"type":"blockquote","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null

Einat Orr 博士

2021-10-08 19:08:56

成功从 Hadoop 迁移到 Lakehouse 架构的 5 个关键步骤

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

2021-10-08 10:38:57

基于阿里云部署的CDP产品详情

雲與AI時代的到來，爲當下的數據存儲，數據分析帶來了一些顛覆性的變革，企業上雲已是大勢所趨。但企業採用雲服務可能會帶來數據管理方面的挑戰，因爲數據可能被存儲在孤島中，從而使企業難以在所有IT環境中發現、獲取、信任和兼容數據。此外，還存在被單

2021-08-18 15:43:52

伴鱼数仓演进

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

伴鱼技术团队

2021-08-14 08:03:57

架构师（2021年7月）

卷首語：淺談架構現狀：設計越來越複雜，行業缺乏系統性思考採訪嘉賓 | 黃浩從之前單純的高流量到現在高流量、高併發，企業面對的業務場景越來越多，對系統的各項要求也越來越高，這意味着對系統架構的要求也越來越高。在過去很長的時間裏，集中式單

InfoQ 中文站

2021-07-08 08:03:58

从广告监测到知识图谱，明略千亿大数据处理能力是如何炼成的？

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

2021-05-18 11:03:58

11天里13个Apache开源项目宣布退休，Hadoop的时代结束了

{"type":"doc","content":[{"type":"blockquote","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null

2021-05-18 10:03:54

Hadoop 的“遗产”

{"type":"doc","content":[{"type":"blockquote","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null

2021-05-08 09:58:53

大数据技术升级脉络及认知陷阱 | InfoQ 大咖说

直播內容：多年來，大數據技術經歷了幾輪更迭，在計算、存儲、大規模落地等層面均取得了不錯的進展，並在不斷的成長和成熟，整個生態領域也得到了快速發展。目前，基於分析的大數據計算平臺在各大公司發揮着非常重要的基礎設施的作用。本期，網易數據科學

InfoQ 中文站

2021-04-26 10:43:51

24小時熱門文章

最新文章

最新評論文章