mapreduce程序-awk腳本

原創

2020-02-25 18:40

mapper.awk

#!/bin/awk -f
BEGIN{
    RS = "\n";
	FS = " ";
	OFS = " ";   
}

{
	split($2, array_pname, ",");
	for(pname in array_pname) {
		array_counter[array_pname[pname]]++;
	}
}

END{
	for( pname in array_counter) {
		print pname, array_counter[pname];
	}
}

reducer.awk

#!/bin/awk -f
BEGIN{
    RS = "\n";
	FS = " ";
	OFS = " ";   
}

{
	array_counter[$1] += $2;
}

END{
	for( pname in array_counter ) {
		count = array_counter[pname];
		gsub(/\|/, " ", pname);
		print count, pname;
	}
}

hdpsubmit.sh

$HADOOP_HOME/bin/hadoop jar $HADOOP_HOME/contrib/streaming/hadoop-0.20.1.12-fb-streaming.jar \
    -D mapred.job.name=log_$yestoday \
    -D mapred.ignore.badcompress=true  \
    -D mapred.compress.map.output=true \
    -D mapred.map.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec \
    -D mapred.output.compress=true \
    -D mapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec \
    -D mapred.linerecordreader.maxlength=4096000 \
    -numReduceTasks 24 \
    -mapper $MAPRED_SCRIPT_DIR/mapper.awk   \
    -reducer $MAPRED_SCRIPT_DIR/reducer.awk \
    -file  $MAPRED_SCRIPT_DIR/mapper.awk    \
    -file  $MAPRED_SCRIPT_DIR/reducer.awk   \
    -input /home/hdp-zhushou/update_log/$yestoday/* \
    -output output_update_log/

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

[轉帖]Introducing Exadata Cloud@Customer X10M

https://blogs.oracle.com/database/post/introducing-exadata-cloudcustomer-x10m Extreme Scale with Dramatically

濟南小老虎

2024-05-04 13:29:33

[轉帖]Introducing Exadata X10M: Extreme Scalability and Dramatically Improved Price Performance

https://blogs.oracle.com/database/post/exadata-x10m Oracle is excited to announce the next generation of Exada

濟南小老虎

2024-05-04 13:29:33

[轉帖][PC硬件] 性能領先至多3倍！第四代AMD EPYC處理器上市：96核心

https://www.chiphell.com/thread-2459330-1-1.html AMD “Zen4”架構的銳龍7000系列在桌面處理器上已經展示了強勁的實力，現在又閃電殺到了服務器、數據中心市場。代號“

濟南小老虎

2024-05-04 13:29:33

[轉帖]10 Hardware Components of Oracle Exadata

https://docs.oracle.com/en/engineered-systems/exadata-database-machine/dbmso/hardware-components-exadata-db-machine.htm

濟南小老虎

2024-05-04 13:29:33

pthread 入門

pthread 入門 Author: ChrisZZ Link: https://www.cnblogs.com/zjutzz Time: 2024-05-03 23:55:21 0. 目的 pthread 是C接口的多線程庫，使用廣泛：l

2024-05-04 13:27:13

C語言回調日誌庫的實現

C語言回調日誌庫的實現 Author: ChrisZZ Link: https://www.cnblogs.com/zjutzz Time 2024-05-04 00:00:15 0. 目的參照 https://github.com/rx

2024-05-04 13:27:13

[網絡爬蟲] 網絡爬蟲實踐：大麥網演唱會預約搶票【待續】

1 正常的最優搶票流程 1. 提前準備事項: 設置登錄密碼、郵箱、解綁淘寶，賬號綁定中只綁定【支付寶】操作路徑：我的-賬號安全-登錄密碼、郵箱設置提前設置好觀演人、收貨地址操作路徑：我的

2024-05-04 13:14:02

redis7下載及安裝詳細步驟

Redis7詳細安裝步驟必備環境： centos7(64位) gcc檢查命令：出現下面內容，說明gcc安裝成功了如果沒有出現上圖的內容，則先進行gcc的安裝命令：yum -y install gcc -c++

2024-05-04 13:11:02

photoshop使用小技巧

如何按照選區新建文檔？選區情況下，按Ctrl+C，然後新建即可看見"新建剪貼板文檔"，這個就是尺寸一樣的了。

2024-05-04 13:09:12

BiTCN：基於卷積網絡的多元時間序列預測

在時間序列預測領域中，模型的體系結構通常依賴於多層感知器(MLP)或Transformer體系結構。基於mlp的模型，如N-HiTS, TiDE和TSMixer，可以在保持快速訓練的同時獲得非常好的預測性能。基於Transformer的模

2024-05-04 13:04:51

【每日一題】快照數組

1146. 快照數組實現支持下列接口的「快照數組」- SnapshotArray： SnapshotArray(int length) - 初始化一個與指定長度相等的類數組的數據結構。初始時，每個元素都等於 0。 void set(

2024-05-04 12:59:51

solidity進階（更新中）

開啓第二階段，主要學習合約部署、測試和預言機。 CryptoZombies的教程是用Truffle，現在主流是Hardhat，但學一學思想也有益無害。 ---------------------------- update 5.3 學完了T

2024-05-04 12:59:51

mORMot 1.18 第23章使用純SQL

mORMot 1.18 第23章使用純SQL 有時你可能不想使用ORM，或者由於現有且不可更改的數據庫與ORM不兼容而無法使用它。在這些情況下，你仍然可以依靠mORMot的其他功能，同時使用純SQL。你可以發出純SQL命令並以JSON格

2024-05-04 12:57:00

golang 官方代碼彙總

go1.22.2 -- 序章 golang 官網的代碼彙總，彙總到一起，方便查閱。注，如有侵權，請通知我處理🥂。 go.dev 首頁同 https://golang.google.cn 首頁。說明，go.dev 訪問時

2024-05-04 12:52:50

在線AI智能客服源碼|支持多國語言|人工客服坐席系統下載

此款客服系統可以對接ChatGPT，也可以對接國內大模型實現智能AI回覆訪客界面是可以切換多國語言，實現多語言客服系統客服後臺功能完善，高性能大併發支持，並且佔用資源很低，只要是服務器就能運行即時通訊實時消息接受，可以隨時獲取到訪客的

2024-05-04 12:52:00

24小時熱門文章

druid數據源 xml配置

最新文章

最新評論文章