mapreduce分佈式緩存

原創

2020-07-01 18:25

概述

作用
應用場景
示例

作用

將hdfs中的文件copy到本地map/reduce程序端，供map/reduce端代碼使用

應用場景

大文件與小文件合併操作，如大文件10G，小文件10M，並且輸入格式可以完全不一樣

示例

主函數端代碼

public static void main(String[] args) throws Exception {
		Configuration conf = new Configuration();
		Job job = new Job(conf);
		job.getConfiguration().set("xyz", "fileHdfsLocation");
}

map或reduce類端

public static class LogMapper extends
			Mapper<Object, LongWritable, xxx, xxx> {
		private static HashSet<String> smallCollection = null;

		protected void setup(Context context) throws IOException,
				InterruptedException {
			smallCollection = new HashSet<String>();
			Path fileIn = new Path(context.getConfiguration().get("xyz"));
			FileSystem hdfs = fileIn.getFileSystem(context.getConfiguration());
			FSDataInputStream hdfsReader = hdfs.open(fileIn);
			Text line = new Text();
			LineReader lineReader = new LineReader(hdfsReader);
			while (lineReader.readLine(line) > 0) {
				//you can do something here
				System.out.println(line.toString());
				smallCollection.add(line.toString());
			}
			lineReader.close();
			hdfsReader.close();
		}
		public void map(Object key, Text value, Context context)
				throws IOException, InterruptedException {
			// use this Hashset
		}
}

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

Hive引擎底層初探

1、什麼是Hive Hive是一個基於Hadoop的數據倉庫工具,用於處理和分析大規模結構化數據。Hive提供了類似SQL的查詢語言(HiveQL)，使得熟悉SQL的用戶能夠查詢數據。Hive將SQL查詢轉換爲MapReduce任務，以在

2024-04-17 11:18:21

hive 、spark 、flink之想一想

hive 1：hive是怎麼產生的？ 2：hive的框架是怎麼樣的？ 3：hive 執行流程是什麼？ 4：hive sql是如何把sql語句一步一步到最後執行的？ 5：hive sql任務常用參數調優做過什麼？ spark 6：sp

2024-03-27 01:22:41

使用Hadoop和Nutch構建音頻爬蟲：實現數據收集與分析

1. 背景介紹隨着音頻內容在互聯網上的廣泛應用，如音樂、播客、語音識別等，越來越多的企業和研究機構希望能夠獲取和分析這些數據，以發現有價值的信息和洞察。而傳統的手動採集方式效率低下，無法滿足大規模數據處理的需求，因此需要利用自動化爬

2024-02-22 01:13:43

分佈式場景怎麼Join | 京東雲技術團隊

背景最近在閱讀查詢優化器的論文，發現System R中對於Join操作的定義一般分爲了兩種，即嵌套循環、排序-合併聯接。在原文中，更傾向使用排序-合併聯接邏輯。考慮到我的領域是在處理分庫分表或者其他的分區模式，這讓我開始不由得聯想我們

2024-02-21 01:10:25

老知識覆盤-SQL從提交到執行到底經歷了什麼 | 京東雲技術團隊

一、什麼是SQL sql(Structured Query Language: 結構化查詢語言)是高級的費過程化編程語言,允許用戶在高層數據結構上工作, 是一種數據查詢和程序設計語言, 也是(ANSI)的一項標準的計算機語言. but...

2023-11-22 12:37:34

MaxCompute 發佈按量付費閒時版，計算成本最高節省66.66%！

什麼是按量付費閒時版開通MaxCompute按量付費閒時版，意味着用戶可以使用MaxCompute閒時計算資源（os_SpotQuota），它是一種共享型按量付費計算資源，閒時計算資源池與按量付費標準版計算資源共享，與包年包月計算資源隔

2023-08-17 00:29:28

開源大數據平臺 E-MapReduce Serverless StarRocks 產品介紹

摘要：本文將分享阿里雲與 StarRocks 社區合作打造的雲上 StarRocks 極速湖倉的雲原生產品實踐。主要包括四個部分，第一部分介紹 StarRocks 全託管形態，以及免運維服務的 OLAP 雲產品；第二部分介紹 Star

2023-06-06 00:24:27

YARN監控管理與資源管理

文章目錄 1 YARN Web UI服務 1.1 WebUI V1服務 1.2 JobHistoryServer服務 1.3 TimelineServer服務 2 YARN操作維護命令 2.1 User用戶命令 2.1.1 applicat

2023-04-05 00:04:18

關係代數和SQL語法

數據分析的語言接口 OLAP計算引擎是一架機器，而操作這架機器的是編程語言。使用者通過特定語言告訴計算引擎，需要讀取哪些數據、以及需要進行什麼樣的計算。編程語言有很多種，任何人都可以設計出一門編程語言，然後設計對應的編譯器做解析。編程語言

2023-01-31 00:01:22

既然有MySQL了，爲什麼還要有MongoDB？

大家好，我是哪吒，最近項目在使用MongoDB作爲圖片和文檔的存儲數據庫，爲啥不直接存MySQL裏，還要搭個MongoDB集羣，麻不麻煩？讓我們一起，一探究竟，瞭解一下MongoDB的特點和基本用法，實現快速入門，豐富個人簡歷，提高面試l

2023-01-07 00:10:45

如何通過鏈路追蹤進行定時任務診

背景簡介什麼是定時任務定時任務是業務應用系統中存在定時週期性運行的業務邏輯。由於其運行於後端進程中往往存在執行狀態和執行鏈路的不可見性《常見定時任務技術方案》。什麼是鏈路追蹤隨着分佈式微服務化架構在企業中大規模運用，業務運行的

2022-12-26 11:55:42

hadoop本地運行官方Grep案例 wordCount案例

環境準備點擊此處查看 Grep案例第一步: 在Hadoop文件夾下 mkdir input cp etc/hadoop/*.xml input/ hadoop jar share/hadoop/mapreduce//hadoop-ma

2021-12-25 21:38:32

什麼是OLAP？主流八大開源OLAP技術架構對比

隨着大數據技術在各行各業的深入應用，對於海量數據的分析需求也愈加凸顯，OLAP技術也逐漸走入人們的視野。本文將圍繞常見的開源OLAP引擎展開，介紹什麼是OLAP以及OLAP的常見操作和分類，並對目前主流的開源OLAP引擎進行對比和特點的總結

2021-12-25 21:30:41

深入淺出學習Hive

本文是基於CentOS 7.9系統環境，進行hive的學習和使用一、Hive的簡介 1.1 Hive基本概念 (1) 什麼是hive Hive是用於解決海量結構化日誌的數據統計工具，是基於Hadoop的一個數據倉庫工具，可以將結構化的

2021-12-25 21:19:49

關於HIVE做MapReduce報錯:return code 2 from org.apache.hadoop.hive.ql.exec.mr.MapRedTask

大部分人沒有交換分區的問題。因爲在做Linux的時候交換分區是按照內存的2倍來做的。但是我的是用VM快速裝機做的。所以交換分區被設置成了等於內存。擴展交換分區：https://blog.csdn.net/Ares_song/articl

2021-12-25 21:14:20

24小時熱門文章

win11關閉自動檢測病毒刪文件

最新文章

最新評論文章