awk實現groupby和join

原創

2020-05-31 19:35

1.awk實現join

最終要實現類似

select   a.a,a.b,b.name   
from a left join b 
on a.id=b.bid  
group by  a.a,a.b,b.name

shell的寫法

awk -f name.awk file1  file2 > file3

name.awk的寫法：

BEGIN{
    FS="\t";OFS="\t";   #設置分隔符
}

# argument index 1 file - id,dealid,impid,materialid  #根據id關聯出dealid和impid
ARGIND==1{
    arr_deal[$1] = $2;
    arr_imp[$1] = $3;
}
#文件2作爲主表，和文件1關聯，其中文件2的第4個字段和文件1的第1個字段關聯
ARGIND==2{
    if($4 in arr_deal){
        print $1,$2,$3,$4,$7,$6,arr_deal[$4],$5,$8;
    }
    else{
        print $1,$2,$3,$4,$7,$6,0,$5,$8;
    }
}

2.awk實現group by sum

實現類似sql：

select a,b,c,d,sum(income)  from table group by a,b,c,d

awk寫法如下

BEGIN{
    FS="\t";OFS="\t";
}
{
    #$1=a  $2=b  $3=c   $4=d  $5=income 
    income[$1"\t"$2"\t"$3"\t"$4]+=$5;
}
END{
    for(i in income){
        print i,income[i];
    }
}

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

二進制文件查看工具和方法

查看二進制文件可以通過多種方法實現，取決於你想要的具體信息和你使用的操作系統。以下是一些常見的方法和工具：使用十六進制編輯器十六進制編輯器可以顯示文件的十六進制表示和對應的ASCII字符。這些工具非常適合查看和編輯二進制文件。 Win

2024-05-30 02:27:38

scp遠程連接複製文件或目錄

文件拷貝將本地文件拷貝到遠程服務器中 scp 本地文件遠程服務用戶名@遠程服務器IP地址:指定拷貝到遠程服務器的文件夾路徑或 scp 本地文件遠程服務用戶名@遠程服務器名稱:指定拷貝到遠程服務器的文件夾路徑將遠程服務器

2024-05-30 00:06:48

乾貨收藏！Calico的BGP RouteReflector策略實踐

本文分享自華爲雲社區《Calico BGP RouteReflector策略實踐》，作者：可以交個朋友。一背景容器網絡組件Calico支持多種後端模式，有Overlay的IPIP、Vxlan模式，也有Underlay純路由的BGP模

2024-05-29 22:58:38

centos7按照MYSQL8（安裝包）

查詢Linux的clibc版本 rpm -qa | grep glibc 現在mysql官網找到對應glibc版本的下載url 然後在linux內下載 wget https://dev.mysql.com/get/Downloads

2024-05-29 22:15:17

由淺入深在實踐中玩轉Zabbix，解決剩下20%的監控需求！

本文整理自Zabbix中級認證專家李銘栓（滿分學員）在Zabbix Meetup廣州站的演講。掌握這幾種監控方式解決80%的監控問題，剩下的20%如何實現？這裏有答案！幾點經驗分享： 1

2024-05-24 22:33:53

Linux操作系統的安裝策略與過程

【關鍵詞】linux安裝【提問】如何在不同硬件配置和操作系統環境下成功安裝Linux？【文章】Linux操作系統的安裝策略與過程在現代計算機技術不斷演進的今天，Linux已成爲世界上最流行且功能強大的開源操作系統之一。它不僅廣泛應用於

2024-05-22 01:50:32

linux加載動態庫失敗

一般我們在Linux下執行某些外部程序的時候可能會提示找不到共享庫的錯誤, 比如: tmux: error while loading shared libraries: libevent-1.4.so.2: cannot open sha

2024-05-21 00:52:55

Docker on Centos-docker-compose

1、查看網絡 docker network ls docker network inspect $container_name 2、docker-compose微服務庫擴容前提：application.yml配置文件要做相應調整 dock

2024-05-20 11:27:29

Linux中的tty和pts

一、幾個基本概念 tty（Teletypewriter）來源於“電傳打印機”，Linux系統中則是終端設備的統稱，同時也代指操作系統中支持終端設備的tty子系統。 console（控制檯）

2024-05-18 00:45:13

個人開發者如何入門 Java 異步編程

標題：《從零開始：一份詳盡的Linux安裝教程》引言：在數字化的世界裏，Linux操作系統以其開源的特性、高度的安全性和穩定性，成爲了服務器和個人電腦的熱門選擇。無論是開發者、系統管理員還是技術愛好者，掌握Linux的安裝與配置都是一項

2024-05-17 01:49:09

在Linux操作系統的安裝過程中，如何選擇合適的發行版

【關鍵詞】{{linux安裝}} 【提問】{{question}} 在Linux操作系統的安裝過程中，如何選擇合適的發行版，並確保安裝過程順利進行？此外，對於不同硬件配置的用戶，有哪些特定的安裝注意事項和優化策略？【文章】{{Linux操

2024-05-17 01:49:06

流水線 YAML 高級用法來了！大幅降低重複代碼、靈活編排多任務

作者：木煙在 YAML 化配置流水線時，你是否會遇到以下問題？單流水線中批量執行類似任務場景時，YAML 中需要定義多個類似邏輯的 Job，Job 越多，流水線 YAML 配置的越長，YAML 中的重複代碼越多，代碼複用性低，可讀性差

2024-05-16 21:13:44

高效調度新篇章：詳解DolphinScheduler 3.2.0生產級集羣搭建

轉載自tuoluzhe8521 導讀：通過簡化複雜的任務依賴關係， DolphinScheduler爲數據工程師提供了強大的工作流程管理和調度能力。在3.2.0版本中，DolphinScheduler帶來了一系列新功能和改進，使其在生產環

2024-05-15 21:22:54

Spring 按條件裝配使用方法

條件註冊 Spring 4.0 引入條件註冊機制，暴露給用戶的API是@Conditional和Condition接口，把@Conditional聲明在一個 @Component類上，並接受一組條件（Condition實現），容器初始化期間

2024-05-15 11:50:12

界面組件DevExpress Reporting v24.1預覽版 - 擁有原生Angular報表查看器

DevExpress Reporting是.NET Framework下功能完善的報表平臺，它附帶了易於使用的Visual Studio報表設計器和豐富的報表控件集，包括數據透視表、圖表，因此您可以構建無與倫比、信息清晰的報表。下一個主要

2024-05-14 12:21:34

24小時熱門文章

最新文章

最新評論文章