Hive 调整 Map 的个数

原創

2020-06-15 13:32

摘录自《Hive 性能调优实战》

在调优时不希望生成太多的 Map，而把计算任务的等待时间都耗费在 Map 的启动上；或者不希望生成太多的 Map 对某个文件进行操作，以免引起资源的争用。这时候就需要对 Map 进行控制。在 Hive 中配置“set mapred.map.tasks=task 数量”无法控制 Map 的任务数，调节 Map 任务数需要一套算法，该算法也和 InputFormat 有密切的关系，具体如下：

在默认情况下 Map 的个数 defaultNum = 目标文件或数据的总大小 totalSize/hdfs 集群文件块的大小 blocksize；
当用户指定 mapred.map.tasks，即为用户期望的 Map 大小，用 expNum 表示，这个期望值计算引擎不会立即采纳，它会获取 mapred.map.tasks 与 defaultNum 的较大值，用 expMaxNum 表示，作为待定选项；
获取文件分片的大小和分片个数，分片大小为参数 mapred.min.split.size 和 blockSize 间的较大值，用 splitMaxSize 表示，将目标文件或数据的总大小除以 splitMaxSize 即为真实的分片个数，用 realSplitNum 表示；
获取 realSplitNum 和 expMaxNum 较小值则为实际的 Map 个数；

上述算法用代码表达如下：

defaultNum = totalSize/blockSize;
expNum = mapred.map.tasks;
expMaxNum = max(expNum, defaultNum);

splitMaxSize = max(mapred.min.split.size, blockSize)
realSplitNum = totalSize/splitMaxSize;

实际的 map 个数 = min(expMaxNu, realSplitNum)

通过上面的逻辑知道：

减少 Map 个数，需要增大 mapred.min.split.size 的值，减少 mapred.map.tasks 的值；
增大 Map 个数，需要减少 mapred.min.split.size 的值，增大 mapred.map.tasks 的值；

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

5月21日相聚上海张江！与文心大模型一起共建大模型产业应用生态圈

5月21日，文心中國行將走進上海，在張江科學會堂舉行。屆時，政府、企業與高校的相關專家和業界同仁將現場分享生成式人工智能與大模型最新進展，主要圍繞大模型技術如何賦能產業級應用創新展開探討，還有百度風投從投資視角帶來的觀點，讓參會者全方位瞭解

2024-05-17 00:28:21

白鲸开源CEO郭炜在2024 DataOps发展大会上获聘专家

2024年5月15日，白鯨開源CEO郭煒在2024 DataOps發展大會上被正式聘任爲DataOps專家，並獲得了榮譽證書。本次大會由中國通信標準化協會主辦，中關村科學城管委會提供支持，大數據技術標準推進委員會（CCSATC601）承辦，

2024-05-16 11:28:50

2024数据标注公司20强排行榜（附榜单）

近日，德本諮詢發佈“2024數據標註公司排行”。數據標註行業作爲人工智能領域的重要組成部分，其需求正在不斷增長。近年來，數據標註行業發展迅速，規模實現了顯著增長。以2023年爲例，該行業的規模已經達到了60.8億元，同比增長了約19.69

2024-05-16 02:09:44

企业大模型如何成为自己数据的“百科全书”？

作者 | 郭煒編輯 | Debra Chen 在當今的商業環境中，大數據的管理和應用已經成爲企業決策和運營的核心組成部分。然而，隨着數據量的爆炸性增長，如何有效利用這些數據成爲了一個普遍的挑戰。本文將探討大數據架構、大模型的集成，以及如

2024-05-15 21:22:50

多点 Dmall x TiDB：出海多云多活架构下的 TiDB 运维实战

作者：多點，唐萬民導讀時隔 2 年，在 TiDB 社區成都地區組織者馮光普老師的協助下，TiDB 社區線下地區活動再次來到成都。來自多點 Dmall 的國內數據庫負責人唐萬民老師，在《出海多雲架構，多點 TiDB 運維實戰》的主題分享

2024-05-15 10:48:37

神策数据付力力入选福布斯中国 30 Under 30 十周年名人堂

福布斯中國30 UNDER 30 持續關注青年才俊。在 U30 十週年之際，福布斯中國通過跟蹤、梳理、比較歷年Under 30們入選後的表現、社會影響力事件，以及創業精神詮釋，編制了福布斯中國U30名人堂名單。神策數據聯合創始人 & 技術

2024-05-14 21:51:58

企业IT架构治理之道

一、什麼是架構和治理 1.1 架構的起源開篇還是要說說大家理解的架構，何爲架構，架構跟我們的工作和生活有什麼關係。英文Architecture本源來自於拉丁語，最早起源於建築領域，建築是文明社會一個重要的標誌，同時也是人類社會最早

京東雲開發者

2024-05-13 23:59:32

内嵌专业接口的RISC-V架构MCU，谁家有？

前一陣，蘋果推出了M1處理器，相比關注具體指標，業內其實更關心M1推出後會引領產業往哪個方向發展，不少人的結論是RISC-V會成爲未來芯片發展的熱點，因爲RISC-V有很多巧妙的方法可以提高性能。計算機界泰斗David Patterso

2024-05-13 23:26:39

免费报名|Zabbix受邀出席上海开源技术沙龙，探讨开源软件赋能新质生产力

大家好！5月25日我們將舉辦今年第三期上海開源技術沙龍活動。本次的主題是——開源軟件賦能新質生產力。在上海開源信息技術協會 (SHOpen) 的指導下，隨着活動的持續開展，上海開源技術沙龍獲得了越來越多開發者的關注與

2024-05-13 22:34:43

神策数据：详解保险 OMO 一体化的关键步骤

近年來，保險行業數字化發展相關政策陸續發佈，推動着保險行業基於業務與科技發展的實際需求，加速數字化轉型，將數字保險高質量發展持續提升至新的高度。本文將圍繞保險數字化，詳細解讀險企實現 OMO 一體化的關鍵步驟。一、洞察：雙利見底，

2024-05-11 22:04:29

数仓安全：数据脱敏技术深度解析

本文分享自華爲雲社區《GaussDB(DWS)安全管理之數據脫敏原理與使用方法介紹》，作者： VV一笑。 1. 前言適用版本：8.2.0及以上版本 GaussDB (DWS)產品數據脫敏功能，是數據庫產品內化和夯實數據安全能力的重要

2024-05-10 23:30:54

以全要素数据资产连接为核心的数据治理与运营

“數據中臺新範式”雲端峯會，深入解析湖倉一體、批流一體、治理與運營“三位一體”的數據中臺新範式特徵，普元信息大數據首席顧問李書超在峯會發表演講《以全要素數據資產連接爲核心的數據治理與運營》。以下爲演講提綱及完整視頻，添加元寶微信，還可

2024-05-09 13:12:55

【开启报名】同学看过来，Apache DolphinScheduler开源之夏课题任务正式发布！

如果你還擁有着一張有效的“學生證”，在這個充滿機遇的夏天，我們誠邀你加入一個充滿挑戰和機遇的開源冒險——開源之夏。這不僅是一個簡單的編程開發活動，假如你成功參加並結項之後，還能獲得中科院軟件所官方頒發的證書和獎金，簡直太有趣啦！ Apa

2024-05-09 11:55:30

爱奇艺数据湖实战 - 实时湖仓一体化

01 概述數據是洞察用戶、市場、運營決策的基礎資料，在愛奇藝被廣泛應用在推薦、廣告、用戶增長、營銷等場景中。愛奇藝大數據業務之前採用 Lambda 架構，滿足海量

愛奇藝技術產品團隊

2024-05-09 01:18:23

企业IT架构治理之道| 京东云技术团队

一、什麼是架構和治理 1.1 架構的起源開篇還是要說說大家理解的架構，何爲架構，架構跟我們的工作和生活有什麼關係。英文Architecture本源來自於拉丁語，最早起源於建築領域，建築是文明社會一個重要的標誌，同時也是人類社會最早形

2024-05-07 23:17:13

24小時熱門文章

最新文章

最新評論文章