LInux 命令awk學習

原創

2019-01-31 13:56

awk的學習：

今天去做數據準備的時候發現不知道怎麼準備，然後各種百度。

一、實現的功能：現有倆個文件a.txt(裏邊有倆列數據: bid，name)， b.txt（好幾列數據：bid, pv）。其中a.txt有3800w的數據量，b.txt有1300w的數據量，而且a.txt的數據包含b.txt的數據，要將b.txt的數據在a.txt裏邊刪除掉，並且還要給b.txt的bid 對應加上name。

二、實現步驟：

獲取b.txt文件第一列數據生成新的b_bid.txt文件： awk -F ‘\t’ ‘{print $1}’ b.txt > b_bid.txt (-F指定命令符：具體 https://www.cnblogs.com/xudong-bupt/p/3721210.html)
獲取倆個不同文件的數據，將b_bid.txt文件的$1(第一列)和a.txt的文件$1進行比較是否一樣，一樣的話就講a.txt的$1,$2 輸出到一個新的文件new_b_bid.txt(bid, name 是指的b.txt重構之後的文件)： awk ‘{if (NR==FNR) {arr1[$1]=$2}}NR>FNR{if($1 in arr1) {print $1,$2}}’ b_bid.txt a.txt > new_b_bid.txt（NR,FNR 具體：https://www.dwhd.org/20150614_005258.html）
將生成的new_b_bid.txt和a.txt進行對比（對比要注意倆文件的數據格式保持一致，特別列與列的空格）；先用命令 awk ‘print $0’ a.txt new_b_bid.txt > push_all_bid.txt 將倆文件進行合併（此命令是以追加的方式存進來的，就是先存放的是a.txt，再存放new_b_bid.txt）。最後排序去掉重複的值（sort | uniq -u > push_b_bid.txt），生成最終想要的文件push_b_bid.txt。
友情鏈接awk：https://www.dwhd.org/20150614_005258.html

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

LVM磁盤管理、限制用戶磁盤配額

管理LVM邏輯卷文章目錄管理LVM邏輯卷一、LVM（Logical Volume Manager）概述1、背景2、理解3、作用4、注意5、應用二、相關概念1、PV（Physical Volume）物理卷2、VG（Volume G

2020-07-08 11:41:40

進程與計劃任務管理

進程與計劃任務管理文章目錄進程與計劃任務管理一、查看進程（PID）1、靜態查看進程統計信息2、動態查看進程統計信息（top）二、查看進程1、查看進程信息pgrep2、查看樹形結構的進程信息（pstree）三、啓動進程的方式1、手

2020-07-08 11:41:39

系統安全及應用、PAM安全認證、弱口令監測，網絡端口掃描、賬號、系統引導和用戶登錄控制

系統安全及應用文章目錄系統安全及應用一、賬號安全控制【1】基本安全措施（1）系統賬號清理（2）密碼安全控制（chage）（3）命令歷史，自動註銷【2】用戶切換與提權（1）使用su命令切換用戶（2）查看su操作記錄（3）su命令的

2020-07-08 11:41:39

raid磁盤陣列原理、硬RAID配置、軟RAID管理

raid磁盤陣列文章目錄raid磁盤陣列一、RAID磁盤陣列原理（重要）1、RAID的概述2、RAID分類【1】raid0（傳輸速率高）【2】raid1（2塊盤組，互爲鏡像備份，磁盤爲偶數）【3】raid5（校驗機制，循環均衡存

2020-07-08 11:41:39

Linux文件系統與日誌文件（節點inode、塊block、恢復誤刪文件）

Linux文件系統與日誌文件文章目錄Linux文件系統與日誌文件一、inode與block詳解【1】概述【2】inode的內容【3】inode號碼【4】inode的大小【5】inode耗盡故障處理1、案例說明11】案例描述2】故

2020-07-08 11:41:39

操作系統的引導過程與服務控制

引導過程與服務控制文章目錄引導過程與服務控制一、引導過程管理1、引導過程【1】開機硬件自檢（BIOS）【2】MBR引導【3】GRUB菜單【4】加載內核（kernel）【5】systemd進程或init進程初始化2、Upstart

2020-07-08 11:41:39

centOS7.6本地yum源的創建及應用

本地yum源的創建文章目錄本地yum源的創建一、掛載光盤二、創建本地yum源1、作用：解決軟件包依賴關係2、步驟【1】進入yum的配置文件【2】新建目錄backup【3】在當前目錄下把centos的文件移動到backup中【4】

2020-07-08 11:41:39

RH436之iSCSI 配置

配置iSCSI 發佈磁盤一、創建邏輯卷二、安裝target 三、配置target 磁盤接受一、安裝iscsi-initiator-utils 二、配置iscsi 三、發現iscsi 四、掛載

2020-07-08 05:04:15

RH436之多路徑

多路徑一、Iscsi Storage發佈端配置默認storage是存在的二、Iscsi接受端（客戶端）配置需要安裝軟件包：iscsi-initiator-utils 三、Iscsi 客戶端掛載發現磁盤：掛載磁

2020-07-08 05:04:15

RH436之集羣GFS2文件系統

集羣GFS2文件系統一、創建分區分區同步必須加入集羣節點，否則無法完成下面的實驗二、創建GFS2文件系統 1、創建GFS2 2、掛載 3、下載gfs2.img.xz 三、擴展GFS2

2020-07-08 05:04:14

RH436之高級資源管理

高級資源管理一、資源管理 1、監控 2、刪除浮動IP 3、查看狀態二、創建NFS分區分+128M 名爲clusterstoragep3 mkfs -t ext4 /dev/mapper/clusterst

2020-07-08 05:04:14

Linux內核參數-共享內存信號量設置

共享內存：可以通過ipcs -lm命令查看目前系統共享內存的參數限制： # ipcs -lm —— Shared Memory Limits ——– max number of segments = 4096 max seg

2020-07-07 14:42:35

更改linux系統共享內存最大值

echo 1073741824 > /proc/sys/kernel/shmmax

2020-07-07 14:42:35

Linux bash基礎特性

目錄一、補全機制1、命令補全2、路徑補全3、小建議二、快捷鍵三、命令歷史1、history命令2、定製history功能3、history命令常用用法4、調用命令列表中（內存）的命令5、調用上條命令最後一個參數四、命令別名1、列出

2020-07-04 09:33:02

grep命令及正則表達式，你需要知道這些

目錄一、grep命令二、正則表達式1、什麼是正則表達式？2、正則表達式元字符 Ⅰ、字符匹配 Ⅱ、匹配次數 Ⅲ、位置錨定 Ⅳ、分組及引用 a、分組： b、引用：3、實例一、grep命令命令解釋 grep

2020-07-04 09:33:01

24小時熱門文章

最新文章

最新評論文章