linux sort/uniq 使用

原創

2020-02-22 02:28

來自:http://www.linuxde.net/2013/06/13941.html

通過sort/uniq獲取文件內容的交集、合集和不同之處：假設有a、b兩個文本文件，文件本身已經去除了重複內容。下面是效率最高的方法，可以處理任何體積的文件，甚至幾個G的文件。(Sort對內存沒有要求，但也許你需要用 -T 參數。)可以試着比較一下，你可以看看如果用JAVA來處理磁盤上文件的合併，需要用多少行代碼。

cat a b | sort | uniq > c   # c 是a和b的合集
cat a b | sort | uniq -d > c   # c 是a和b的交集
cat a b b | sort | uniq -u > c   # c 是a和b的不同

彙總一個文本內容裏第三列數字的和(這個方法要比用Python來做快3倍並只需1/3的代碼量)：

awk ‘{ x += $3 } END { print x }’ myfile

如果你想查看一個目錄樹裏的文件的體積和修改日期，用下面的方法，相當於你挨個目錄做”ls -l”，而且輸出的形式比你用”ls -lR”更可讀：

find . -type f -ls

使用xargs命令。這個命令非常的強大。注意每行上你可以控制多少個東西的執行。如果你不確定它是正確的執行，先使用xargs echo。同樣，-I{} 也非常有用。例子：

find . -name \*.py | xargs grep some_function
cat hosts | xargs -I{} ssh root@{} hostname

假設你有一個文本文件，比如一個web服務器日誌，在某些行上有一些值，比如URL中的acct_id參數。如果你想統計每個acct_id的所有請求記錄：

cat access.log | egrep -o ‘acct_id=[0-9]+’ | cut -d= -f2 | sort | uniq -c | sort -rn

發佈了57 篇原創文章 · 獲贊 0 · 訪問量 4萬+

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

linux信號捕捉

信號捕捉，防止進程意外死亡 signal函數 man signal #include <signal.h> typedef void (*sighandler_t)(int); sighandler_t signal(int

weixin_43903378

2020-07-07 13:33:31

linux信號學習02

未決信號集與阻塞信號集(信號屏蔽字) 阻塞信號集：將某些信號加入集合，對他們設置屏蔽，當屏蔽x信號後，再收到該信號，該信號的處理將推後(解除屏蔽後) 未決信號集： a. 信號產生，未決信號集中描述該信號的位立刻翻轉爲1，表信

weixin_43903378

2020-07-07 13:33:31

【轉】Elasticsearch 集羣和索引健康狀態及常見錯誤說明

轉自：https://my.oschina.net/u/4413588/blog/3582662/print 一. Elasticsearch 集羣健康狀態一個 Elasticsearch 集羣至少包括一個節點和一個索引。或者它可能

2020-07-07 01:11:17

centos根據系統版本的來執行不同的shell

參考於: https://blog.51cto.com/chaichuan/2069965 https://blog.csdn.net/zhan570556752/article/details/80399154 centos6和ce

2020-07-07 01:11:17

linux 歷史（histroy）命令記錄過濾（轉）

轉自：https://blog.51cto.com/ting2junshui/1949238 通過設置關於歷史命令的環境變量來達到過濾的目錄，並且還可以添加時間戳。以下的方法都可以添加進環境變量文件中來達到永久生效。給歷史命

2020-07-07 01:11:17

關於NF和$NF的理解（筆記）

在優化history時，查資料遇到個問題： echo $PWD | awk -F/ '{print $NF}' 不是太理解這個命令，經過查資料明白，記錄以備後續複習： -F /表示以 ’/’ 分開域 NF 表示的是瀏覽記錄的域的個數

2020-07-07 01:11:17

centod7啓用網卡

centos7啓用網卡當我們安裝完centos7系統後，機器的網卡默認處於關閉狀態，如果安裝了gui界面那麼可以通過圖形方式快速的開啓網卡，但未安裝gui界面，亦可使用以下方法啓用網卡（1）cat /etc/sysconfi

2020-07-05 19:20:34

vmvare 安裝Ubuntu14.04 安裝vmvaretool

https://jingyan.baidu.com/article/6079ad0e39242268fe86db78.html

2020-07-05 14:19:25

命名UNIX域套接字通信

《UNIX環境高級編程》中開發的三個函數 #include "apue.h" #include <sys/socket.h> #include <sys/un.h> #include <time.h> #include <errno.

2020-07-05 14:19:25

linux 動態加載模塊

my_driver.c #include <linux/module.h> int __init hello_init(void) { printk("hello world init!!!\n"); return 0; }

2020-07-05 14:19:25

把管道作爲標準輸入輸出

#include <unistd.h> #include <stdlib.h> #include <stdio.h> #include <string.h> int main() { int data_processed

2020-07-05 14:19:25

UDP Server和Client源碼實例

server #include <sys/types.h> #include <sys/socket.h> #include <netinet/in.h> #include <arpa/inet.h> #include <unistd.

2020-07-05 14:19:25

tiny4412 Linux驅動Input子系統

輸入設備（如鼠標,鍵盤,觸摸屏,撥碼開關,按鍵,麥克風,遊戲搖桿,遊戲手柄等）是典型的字符設備。Linux爲了方便統一管理這些設備,然後設計了輸入子系統，在Linux中,輸入子系統的驅動節點都是有固定的位置的: 在新內核中: /

weixin_44317448

2020-07-05 11:39:30

一個雜項設備,應用層通過write函數傳入一個結構體,把結構體寫入內核

#1雜項設備 ##1.1linux下的三大設備字符設備，塊設備，網絡設備。字符設備特點：是一個順序的數據流設備，對這種設備的讀寫是按字符進行的，這些字符是連續地形成一個數據流。他不具備緩衝區，對這種設備的讀寫是實時的。塊設備

weixin_44317448

2020-07-05 11:39:30

tiny4412 Linux驅動4個按鍵控制4個LED

開發板上有4個按鍵，4個可控的LED燈，本次學習目標是對應按鍵控制對應LED燈，每按下一下按鍵，對燈的狀態進行翻轉。 1.硬件原理： LED1連接GPM4.0，LED2連接GPM4.1，LED3連接GPM4.2，LED4連接GPM4.

weixin_44317448

2020-07-05 11:39:30

24小時熱門文章

最新文章

最新評論文章