linux sort/uniq 使用

來自:http://www.linuxde.net/2013/06/13941.html


通過sort/uniq獲取文件內容的交集、合集和不同之處:假設有a、b兩個文本文件,文件本身已經去除了重複內容。下面是效率最高的方法,可以處理任何體積的文件,甚至幾個G的文件。(Sort對內存沒有要求,但也許你需要用 -T 參數。)可以試着比較一下,你可以看看如果用JAVA來處理磁盤上文件的合併,需要用多少行代碼。

cat a b | sort | uniq > c   # c 是a和b的合集
cat a b | sort | uniq -d > c   # c 是a和b的交集
cat a b b | sort | uniq -u > c   # c 是a和b的不同

彙總一個文本內容裏第三列數字的和(這個方法要比用Python來做快3倍並只需1/3的代碼量):

awk ‘{ x += $3 } END { print x }’ myfile

如果你想查看一個目錄樹裏的文件的體積和修改日期,用下面的方法,相當於你挨個目錄做”ls -l”,而且輸出的形式比你用”ls -lR”更可讀:

find . -type f -ls

使用xargs命令。這個命令非常的強大。注意每行上你可以控制多少個東西的執行。如果你不確定它是正確的執行,先使用xargs echo。同樣,-I{} 也非常有用。例子:

find . -name \*.py | xargs grep some_function
cat hosts | xargs -I{} ssh root@{} hostname

假設你有一個文本文件,比如一個web服務器日誌,在某些行上有一些值,比如URL中的acct_id參數。如果你想統計每個acct_id的所有請求記錄:

cat access.log | egrep -o ‘acct_id=[0-9]+’ | cut -d= -f2 | sort | uniq -c | sort -rn


發佈了57 篇原創文章 · 獲贊 0 · 訪問量 4萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章