MapReduce的input为小文件和har文件的相关实验

原創

2020-02-21 02:24

如果MapReduce的input是一些小文件（文件size小于hdfs的默认block大小），那么MapReduce job将会为每一个小文件开启一个单独的map——最后导致有大量的map，而每一个map其实只处理一小部分数据，却花了很大的时间在map自身的启动和停止上。

以下的实验将会验证小文件数量对map数量的影响，以及input为har文件时map数量的情况。

实验一：WordCount——input为5个小文件

执行WordCount job：$hadoop jar hadoop-example.jar wordcount /input01 /output01

Job执行完后，我们可以看到该Job一共启动了5个map：

实验二：WordCount——input为6个小文件

执行WordCount job：$hadoop jar hadoop-example.jar wordcount /input01 /output01

Job执行完后，我们可以看到该Job一共启动了6个map：

实验三：WordCount——input为1个har文件，它包含了6个小文件

首先，我们把上面的6个小文件打包成为一个har文件：

hadoop archive -archiveName files.har -p /input01 /input-har

查看该har文件：

执行WordCount job：$hadoop jar hadoop-example.jar wordcount har://hdfs-host:9000/input-hars/files.har /output-hars

Job执行完后，我们可以看到该Job同样根据har包中的小文件数量一共启动了6个map：

从MapReduce job的角度看，har 文件并没有带来什么变化。但是，由于使用har文件归档小文件，hdfs上的文件数变少了，namenode的压力也变小了。

发布了29 篇原创文章 · 获赞 6 · 访问量 22万+

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

AI赋能数据安全体系化落地，出席网安标委2024年第一次标准周“数据安全标准与能力建设研讨会”

6月13日，全國網絡安全標準化技術委員會（以下簡稱“網安標委”）2024年第一次標準周“數據安全標準與能力建設研討會”在南昌召開。中央網信辦網絡數據管理局範雪煒、工業和信息化部網絡安全管理局周睿康、國家信息中心外網辦安全管理處處長羅海寧、

2024-06-14 21:41:55

CVPR 2024 | 美团技术团队精选论文解读

CVPR全稱爲IEEE Conference on Computer Vision and Pattern Recognition，國際計算機視覺與模式識別會議。該會議始於1983年，與ICCV和ECCV並稱計算機視覺方向的三大頂級會議。根

2024-06-14 21:18:14

数智教育创新如何向未来？腾讯云与你探索革新之路

引言隨着科技革命的快速發展，掀起教育領域的變革，新理念、新技術、新模式、新應用正不斷湧現，正塑造着教育的未來形態。未來科技還將如何賦能教育創新？ 5月31日，由騰訊雲TVP 與西安電子科技大學聯合舉辦的「數智教育的創新與技術融合

2024-06-14 11:45:25

【运维技巧】海豚调度工作流实例卡在正在停止&任务实例卡在正在运行怎么办？

在大數據調度系統中，，大家可能會碰到任務實例狀態更新不及時的情況。對於Apache DolphinScheduler用戶來說，這可能意味着前端顯示的任務狀態與實際情況不一致，即使任務已經在後臺停止運行，前端仍顯示爲"正在運行"。這種現

2024-06-13 21:22:20

首批！华为云盘古研发大模型通过代码大模型评估，获当前最高等级

本文分享自華爲雲社區《首批！華爲雲盤古研發大模型通過代碼大模型評估，獲當前最高等級》，作者：華爲雲頭條。近日，在中國信通院組織的首輪代碼大模型評估中，華爲技術有限公司的華爲雲盤古研發大模型最終獲得4+級，成爲國內首批通過該項評估的企業之

2024-06-13 10:57:02

深度解读数据库引入LLVM技术后如何提升性能

GaussDB作爲企業級的數據庫，經過了多年的技術發展，具備豐富的技術特性，使用LLVM技術後提升了系統的查詢性能，使得開發者在OLAP和OLTP多場景中均受益。 Hi，別急！讓技術觸達每一個角落，賦能更多的人，GaussTech第3期

2024-06-12 10:56:55

ClickHouse内幕（1）数据存储与过滤机制

本文主要講述ClickHouse中的數據存儲結構，包括文件組織結構和索引結構，以及建立在其基礎上的數據過濾機制，從Part裁剪到Mark裁剪，最後到基於SIMD的行過濾機制。數據過濾機制實質上是構建在數據存儲格式之上的算法，所以在介紹過濾

2024-06-07 23:54:51

一文搞懂DevOps、DataOps、MLOps、AIOps：所有“Ops”的比较

引言近年來，"Ops"一詞在 IT 運維領域的使用迅速增加。IT 運維正在向自動化過程轉變，以改善客戶交付。傳統的應用程序開發採用 DevOps 實施持續集成（CI）和持續部署（CD）。但對於數據密集型的機器學習和人工智能（AI）應用，精

2024-06-07 14:08:38

JimuReport 积木报表 v1.7.5 版本发布，免费的JAVA报表工具

項目介紹一款免費的數據可視化報表工具，含報表和大屏設計，像搭建積木一樣在線設計報表！功能涵蓋，數據報表、打印設計、圖表報表、大屏設計等！ Web 版報表設計器，類似於excel操作風格，通過拖拽完成報表設計。秉承“簡單、易用、專業”

2024-06-07 01:13:43

营销系统黑名单优化：位图的应用解析

背景營銷系統中，客戶投訴是業務發展的一大阻礙，一般會過濾掉黑名單高風險賬號，並配合頻控策略，來減少客訴，進而增加營銷效率，減少營銷成本，提升營銷質量。營銷系統一般是通過大數據分析建模，在CDP（客戶數據平臺，以客戶爲核心，圍繞數據融

京東雲開發者

2024-06-06 11:54:12

跨越云端，华为云技术专家分享高效跨云迁移实践

本文分享自華爲雲社區《【華爲雲Stack】【大架光臨】第18期：跨越雲端，華爲雲Stack的高效跨雲遷移實踐》，作者：大架光臨。 1 背景在企業雲化的浪潮中，混合多雲已經是企業IT部署的新常態，虛擬機承載的業務佔據很大的比重。在上雲

2024-06-06 10:56:54

高效启动DolphinScheduler工作流：Java URL调用详解

轉載自牛肉胡辣湯在大數據分析和處理的領域中，DolphinScheduler是一個開源的分佈式工作流調度系統，可以用於調度和管理複雜的工作流任務。本文將介紹如何使用Java中的URL類來調用DolphinScheduler的API，實現啓

2024-06-04 21:21:59

【数智化人物展】白鲸开源CEO郭炜：大模型时代下DataOps驱动企业数智化升级

本文由白鯨開源CEO郭煒投遞並參與由數據猿聯合上海大數據聯盟共同推出的《2024中國數智化轉型升級先鋒人物》榜單/獎項評選。隨着大數據、人工智能技術的飛速發展，我們已邁入了一個全新的時代------大模型時代。在這個時代背景下，企業提高

2024-06-04 21:21:58

Opal 机器学习平台：爱奇艺数智一体化实践

01 綜述 Opal 是愛奇藝大數據團隊研發的機器學習平臺，包含特徵生產、樣本構建、模型訓練、模型部署在內的多環節 Bigdata + AI 開發服務，內置多種訓練鏡像、

愛奇藝技術產品團隊

2024-06-01 02:21:16

基于对比稀疏扰动技术的时间序列解释框架 ContraLSP

開篇近日，由阿里雲計算平臺大數據基礎工程技術團隊主導，與南京大學、賓夕法尼亞州立大學、清華大學等高校合作，解釋時間序列預測模型的論文《Explaining Time Series via Contrastive and Locally

2024-06-01 00:25:50

24小時熱門文章

最新文章

最新評論文章