awk and hadoop之mapper

原創

2020-06-22 09:51

1. 在awk 中mapper的時候我們經常會合並不同的文件，取我們想要的不同的字段。

awk -F "\t" '
{
  filename = ENVIRON["mapreduce_map_input_file"];
  if (index(filename, "xxxx") > 0) {
    // xxx
  }
  else {
    //xxxx
  }
}

這樣來取文件的名字，來判斷當前處理的行屬於哪個文件，以此進行相應的處理。

2. 在hadoop 中我們經常需要對兩個文件做一個join操作，即取兩個文件的交集，或者在一個集合中過濾掉特定的集合，如果這個一個集合很小，我們可以把這個集合加入到一個字典中，然後過濾, 在mapper 中這麼寫。

awk -F "\t" -v file=${smail_set} '
BEGIN{
  while (getline < file > 0) {
    dict[$1] = 1; 
  }  
}
{
   if($1 in dict)
     //xxxx
   else 
     print xxxx
}
'

reducer 直接 uniq 即可

3. 如果兩個集合做 join 或者補集的操作，那麼只能對集合打標籤，在mapper中我們這麼寫：

awk -F "\t" '
{
  filename = ENVIRON["mapreduce_map_input_file"];
  if (index(filename, "xxxx") > 0) {
     print  $1"\t0\t"$0
  }
  else {
     print $1"\t1\t"$0
  }
}

第二列一個0 一個1 用$1 讓他們combine的時候到一起去，結合shuffle時候的二次排序，可以搞定

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

CDH配置Kerberos和Sentry詳解

1.安全之Kerberos安全認證 1 Kerberos概述 1.1 什麼是Kerberos Kerberos是一種計算機網絡授權協議，用來在非安全網絡中，對個人通信以安全的手段進行身份認證。這個詞又指麻省理工學院爲這個協議開發的一套計算

2024-05-20 21:36:31

高效調度新篇章：詳解DolphinScheduler 3.2.0生產級集羣搭建

轉載自tuoluzhe8521 導讀：通過簡化複雜的任務依賴關係， DolphinScheduler爲數據工程師提供了強大的工作流程管理和調度能力。在3.2.0版本中，DolphinScheduler帶來了一系列新功能和改進，使其在生產環

2024-05-15 21:22:54

14 hive安裝

1.hive 1.1 解壓 tar -zxf apache-hive-1.2.2-bin.tar.gz -C .. mv apache-hive-1.2.2-bin/ hive-1.2.2 1.2 修改配置

2024-05-14 00:41:14

Impala數據文件的碎碎念

Impala目前支持Hadoop中幾種常見的文件格式 Parquet 、 ORC 、 Text 、 Avro 、 RCFile 和 SequenceFile 。下面簡要說明各種格式的使用、限制和一些注意事項。不同的文件格式有着不同的適用場

2024-05-12 21:38:18

O2OA(翱途)開發平臺爲待辦創建配置郵件通知

O2OA(翱途)開發平臺[下稱O2OA開發平臺或者O2OA]的消息機制允許開發者通過配置實現郵件通知。本篇主要闡述如何實現待辦消息的郵件通知。一、先決條件： 1、O2Server服務器正常運行，系統安裝部署請參考

2024-05-09 23:10:17

從零開始學架構V2-初識架構設計-1

一、架構設計的主要目的爲了解決軟件系統複雜度帶來的問題二、複雜性來源軟件的架構設計是一個非常複雜的過程；基於業務&技術現狀、公司成本、團隊規模、團隊技術能力、近三年業務發展規模預測、技術發展趨勢等條件篩選出合適的技術、編寫多種架構設計

2024-04-25 23:56:25

linux加載動態庫失敗

一般我們在Linux下執行某些外部程序的時候可能會提示找不到共享庫的錯誤, 比如: tmux: error while loading shared libraries: libevent-1.4.so.2: cannot open sha

2024-05-21 00:52:55

Shell/Python中的用戶名獲取

一、幾個基本概念登錄用戶（login user）：通過登錄方式進入系統的用戶，強調登錄身份。當前用戶（current user）：執行一個進程或者命令時所使用的用戶身份，強調執行身份。舉

2024-05-19 00:44:35

Linux中的tty和pts

一、幾個基本概念 tty（Teletypewriter）來源於“電傳打印機”，Linux系統中則是終端設備的統稱，同時也代指操作系統中支持終端設備的tty子系統。 console（控制檯）

2024-05-18 00:45:13

Netgear無線路由器漏洞復現（CVE-2019-20760）

漏洞概述漏洞服務： uhttpd 漏洞類型：遠程命令執行影響範圍： 1.0.4.26之前的NETGEAR R9000設備會受到身份驗證繞過的影響解決建議：更新版本漏洞復現操作環境： ubuntu:22.04 qemu-ve

2024-05-14 23:17:30

記一些CISP-PTE題目解析

0x01 命令執行直接payload: 127.0.0.1 &whoami，發現可以成功執行whoami命令然後ls ../ ，發現有個key.php文件嘗試用cat命令查看發現不行被攔截了。（其實題目過濾了常用的查看文件的命

2024-05-11 23:51:24

dolphinscheduler 之變量篇

場景：查詢數據表總數，然後根據總數判斷走哪個分支節點 1.將sql結果輸出到變量 2.分支判斷 3.輸出結果小結本文總結了DophineSheduler上下游任務之間參數傳遞的方法，並對其中的易錯點進行了梳理，同時給出了具體

2024-05-11 00:57:01

MySQL 通過 systemd 啓動時 hang 住了……

mysqld：哥，我起不來了…… 作者：賁紹華，愛可生研發中心工程師，負責項目的需求與維護工作。其他身份：柯基鏟屎官。愛可生開源社區出品，原創內容未經授權不得隨意使用，轉載請聯繫小編並註明來源。本文約 2100 字，預計閱讀需要 7

2024-05-10 00:35:39

windows開機自啓動bat文件

步驟： 1、win+R，打開運行，輸入“shell:startup”，打開Windows啓動文件夾 2、將.bat快捷文件粘貼到Windows啓動文件夾中 3、重啓電腦後，系統自啓動.bat文件

2024-05-08 21:56:26

[oeasy]python0015_鍵盤改造_將esc和capslock對調_hjkl_移動_雙手正位

鍵盤改造 🥋 回憶上次內容上次練習了複製粘貼按鍵作用 <kb

2024-05-06 11:45:36

24小時熱門文章

最新文章

最新評論文章