awk and hadoop之mapper

原創

2020-06-22 09:51

1. 在awk 中mapper的时候我们经常会合并不同的文件，取我们想要的不同的字段。

awk -F "\t" '
{
  filename = ENVIRON["mapreduce_map_input_file"];
  if (index(filename, "xxxx") > 0) {
    // xxx
  }
  else {
    //xxxx
  }
}

这样来取文件的名字，来判断当前处理的行属于哪个文件，以此进行相应的处理。

2. 在hadoop 中我们经常需要对两个文件做一个join操作，即取两个文件的交集，或者在一个集合中过滤掉特定的集合，如果这个一个集合很小，我们可以把这个集合加入到一个字典中，然后过滤, 在mapper 中这么写。

awk -F "\t" -v file=${smail_set} '
BEGIN{
  while (getline < file > 0) {
    dict[$1] = 1; 
  }  
}
{
   if($1 in dict)
     //xxxx
   else 
     print xxxx
}
'

reducer 直接 uniq 即可

3. 如果两个集合做 join 或者补集的操作，那么只能对集合打标签，在mapper中我们这么写：

awk -F "\t" '
{
  filename = ENVIRON["mapreduce_map_input_file"];
  if (index(filename, "xxxx") > 0) {
     print  $1"\t0\t"$0
  }
  else {
     print $1"\t1\t"$0
  }
}

第二列一个0 一个1 用$1 让他们combine的时候到一起去，结合shuffle时候的二次排序，可以搞定

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

hadoop-2单节点和hive安装

1、下載hadoop-x.y.x.tar.gz 2、解壓：tar -zxvf hadoop-2.y.x.tar.gz 3、配置環境變量：$JAVA_HOME、$HADOOP_HOME、$PATH 4、修改配置：$HADOOP_HOME/et

2024-05-24 23:51:33

DolphinScheduler 3.3.0版本更新一览

Apache DolphinScheduler即將迎來3.3.0版本的發佈，屆時將有一系列重要的更新和改進。在近期的社區5月份用戶線上分享會上，項目PMC 阮文俊爲大家介紹了3.3.0版本將帶來的主要更新和改進，併爲大家指出瞭如何參與社區的

2024-05-23 21:22:09

CDH配置Kerberos和Sentry详解

1.安全之Kerberos安全認證 1 Kerberos概述 1.1 什麼是Kerberos Kerberos是一種計算機網絡授權協議，用來在非安全網絡中，對個人通信以安全的手段進行身份認證。這個詞又指麻省理工學院爲這個協議開發的一套計算

2024-05-20 21:36:31

高效调度新篇章：详解DolphinScheduler 3.2.0生产级集群搭建

轉載自tuoluzhe8521 導讀：通過簡化複雜的任務依賴關係， DolphinScheduler爲數據工程師提供了強大的工作流程管理和調度能力。在3.2.0版本中，DolphinScheduler帶來了一系列新功能和改進，使其在生產環

2024-05-15 21:22:54

14 hive安装

1.hive 1.1 解壓 tar -zxf apache-hive-1.2.2-bin.tar.gz -C .. mv apache-hive-1.2.2-bin/ hive-1.2.2 1.2 修改配置

2024-05-14 00:41:14

Kubernetes 生命周期事件处理函数 postStart 和 preStop

在 Kubernetes 中，您可以通過爲容器的生命週期事件設置處理函數來執行命令。Kubernetes 支持兩種生命週期事件處理函數：postStart 和 preStop。 postStart 處理函數：在容器創建後立即執行。這個處

2024-05-31 14:05:26

云效 Flow 配置备忘

腳本項目根目錄下創建shell文件夾，創建 cabinet.sh 腳本： #!/bin/bash # 應用名 APP_NAME=cabinet-service-test PROG_NAME=$0 ACTION=$1 APP_START

2024-05-30 11:43:23

[oeasy]python019_ 如何在github仓库中进入目录_找到程序代码_找到代码

繼續運行 🥋 回憶上次內容上上次真寫了萬行代碼這萬行代碼都是寫在明面上的這次使用git命令下載了 github上面的倉庫

2024-05-30 00:35:24

记录一次cnvd事件型证书漏洞挖掘

事件起因是因爲要搞畢設了，在爲這個苦惱，突然負責畢設的老師說得到cnvd下發的證書結合你的漏洞挖掘的過程是可以當成畢設的，當時又學習了一段時間的web滲透方面的知識，於是踏上了廢寢忘食的cnvd證書漏洞挖掘的日子。前言：聽羣友們說，一般可

2024-05-28 11:16:19

记一次攻防演练中的若依（thymeleaf 模板注入）getshell

記一次攻防演練中幸運的從若依弱口令到後臺getshell的過程和分析。 0x01 漏洞發現首先，我會先把目標的二級域名拿去使用搜索引擎來搜索收集到包含這個目標二級域名的三級域名或者四級域名的網站。這樣子可以快速的定位到你所要測試的漏洞

2024-05-27 23:16:06

智能的PHP开发工具PhpStorm v2024.1全新发布——支持PHPUnit 11.0

PhpStorm是一個輕量級且便捷的PHP IDE，其旨在提高用戶效率，可深刻理解用戶的編碼，提供智能代碼補全，快速導航以及即時錯誤檢查。可隨時幫助用戶對其編碼進行調整，運行單元測試或者提供可視化debug功能。立即獲取PhpStorm

2024-05-24 12:20:21

linux加载动态库失败

一般我們在Linux下執行某些外部程序的時候可能會提示找不到共享庫的錯誤, 比如: tmux: error while loading shared libraries: libevent-1.4.so.2: cannot open sha

2024-05-21 00:52:55

Shell/Python中的用户名获取

一、幾個基本概念登錄用戶（login user）：通過登錄方式進入系統的用戶，強調登錄身份。當前用戶（current user）：執行一個進程或者命令時所使用的用戶身份，強調執行身份。舉

2024-05-19 00:44:35

Linux中的tty和pts

一、幾個基本概念 tty（Teletypewriter）來源於“電傳打印機”，Linux系統中則是終端設備的統稱，同時也代指操作系統中支持終端設備的tty子系統。 console（控制檯）

2024-05-18 00:45:13

Netgear无线路由器漏洞复现（CVE-2019-20760）

漏洞概述漏洞服務： uhttpd 漏洞類型：遠程命令執行影響範圍： 1.0.4.26之前的NETGEAR R9000設備會受到身份驗證繞過的影響解決建議：更新版本漏洞復現操作環境： ubuntu:22.04 qemu-ve

2024-05-14 23:17:30

24小時熱門文章

最新文章

最新評論文章