1 sort的工作原理
sort將文件的每一行作爲一個單位,相互比較,比較原則是從首字符向後,依次按ASCII碼值進行比較,最後將他們按升序輸出。
[rocrocket@rocrocket programming]$ cat seq.txt
banana
apple
pear
orange
[rocrocket@rocrocket programming]$ sort seq.txt
apple
banana
orange
pear
banana
apple
pear
orange
[rocrocket@rocrocket programming]$ sort seq.txt
apple
banana
orange
pear
2 sort的-u選項
它的作用很簡單,就是在輸出行中去除重複行。
[rocrocket@rocrocket programming]$ cat seq.txt
banana
apple
pear
orange
pear
[rocrocket@rocrocket programming]$ sort seq.txt
apple
banana
orange
pear
pear
[rocrocket@rocrocket programming]$ sort -u seq.txt
apple
banana
orange
pear
banana
apple
pear
orange
pear
[rocrocket@rocrocket programming]$ sort seq.txt
apple
banana
orange
pear
pear
[rocrocket@rocrocket programming]$ sort -u seq.txt
apple
banana
orange
pear
pear由於重複被-u選項無情的刪除了。
3 sort的-r選項
sort默認的排序方式是升序,如果想改成降序,就加個-r就搞定了。
[rocrocket@rocrocket programming]$ cat number.txt
1
3
5
2
4
[rocrocket@rocrocket programming]$ sort number.txt
1
2
3
4
5
[rocrocket@rocrocket programming]$ sort -r number.txt
5
4
3
2
1
1
3
5
2
4
[rocrocket@rocrocket programming]$ sort number.txt
1
2
3
4
5
[rocrocket@rocrocket programming]$ sort -r number.txt
5
4
3
2
1
4 sort的-o選項
由於sort默認是把結果輸出到標準輸出,所以需要用重定向才能將結果寫入文件,形如sort filename> newfile。
但是,如果你想把排序結果輸出到原文件中,用重定向可就不行了。
[rocrocket@rocrocket programming]$ sort -r number.txt> number.txt
[rocrocket@rocrocket programming]$ cat number.txt
[rocrocket@rocrocket programming]$
看,竟然將number清空了。
[rocrocket@rocrocket programming]$ cat number.txt
[rocrocket@rocrocket programming]$
看,竟然將number清空了。
就在這個時候,-o選項出現了,它成功的解決了這個問題,讓你放心的將結果寫入原文件。這或許也是-o比重定向的唯一優勢所在。
[rocrocket@rocrocket programming]$ cat number.txt
1
3
5
2
4
[rocrocket@rocrocket programming]$ sort -r number.txt -onumber.txt
[rocrocket@rocrocket programming]$ cat number.txt
5
4
3
2
1
1
3
5
2
4
[rocrocket@rocrocket programming]$ sort -r number.txt -onumber.txt
[rocrocket@rocrocket programming]$ cat number.txt
5
4
3
2
1
5 sort的-n選項
你有沒有遇到過10比2小的情況。我反正遇到過。出現這種情況是由於排序程序將這些數字按字符來排序了,排序程序會先比較1和2,顯然1小,所以就將10放在2前面嘍。這也是sort的一貫作風。
我們如果想改變這種現狀,就要使用-n選項,來告訴sort,“要以數值來排序”!
[rocrocket@rocrocket programming]$ cat number.txt
1
10
19
11
2
5
[rocrocket@rocrocket programming]$ sort number.txt
1
10
11
19
2
5
[rocrocket@rocrocket programming]$ sort -n number.txt
1
2
5
10
11
19
1
10
19
11
2
5
[rocrocket@rocrocket programming]$ sort number.txt
1
10
11
19
2
5
[rocrocket@rocrocket programming]$ sort -n number.txt
1
2
5
10
11
19
6 sort的-t選項和-k選項
如果有一個文件的內容是這樣:
[rocrocket@rocrocket programming]$ cat facebook.txt
banana:30:5.5
apple:10:2.5
pear:90:2.3
orange:20:3.4
banana:30:5.5
apple:10:2.5
pear:90:2.3
orange:20:3.4
這個文件有三列,列與列之間用冒號隔開了,第一列表示水果類型,第二列表示水果數量,第三列表示水果價格。
那麼我想以水果數量來排序,也就是以第二列來排序,如何利用sort實現?
幸好,sort提供了-t選項,後面可以設定間隔符。(是不是想起了cut和paste的-d選項,共鳴~~)
指定了間隔符之後,就可以用-k來指定列數了。
[rocrocket@rocrocket programming]$ sort -n -k 2 -t :facebook.txt
apple:10:2.5
orange:20:3.4
banana:30:5.5
pear:90:2.3
apple:10:2.5
orange:20:3.4
banana:30:5.5
pear:90:2.3
我們使用冒號作爲間隔符,並針對第二列來進行數值升序排序,結果很令人滿意。
7 其他的sort常用選項
-f會將小寫字母都轉換爲大寫字母來進行比較,亦即忽略大小寫
-c會檢查文件是否已排好序,如果亂序,則輸出第一個亂序的行的相關信息,最後返回1
-C會檢查文件是否已排好序,如果亂序,不輸出內容,僅返回1
-M會以月份來排序,比如JAN小於FEB等等
-b會忽略每一行前面的所有空白部分,從第一個可見字符開始比較。
有時候學習腳本,你會發現sort命令後面跟了一堆類似-k1,2,或者-k1.2-k3.4的東東,有些匪夷所思。今天,我們就來搞定它—-k選項!
1 準備素材
$ cat facebook.txt
google 110 5000
baidu 100 5000
guge 50 3000
sohu 100 4500
google 110 5000
baidu 100 5000
guge 50 3000
sohu 100 4500
第一個域是公司名稱,第二個域是公司人數,第三個域是員工平均工資。(除了公司名稱,其他的別信,都瞎寫的^_^)
2我想讓這個文件按公司的字母順序排序,也就是按第一個域進行排序:(這個facebook.txt文件有三個域)
$ sort -t ‘ ‘ -k 1 facebook.txt
baidu 100 5000
google 110 5000
guge 50 3000
sohu 100 4500
baidu 100 5000
google 110 5000
guge 50 3000
sohu 100 4500
看到了吧,就直接用-k 1設定就可以了。(其實此處並不嚴格,稍後你就會知道)
3 我想讓facebook.txt按照公司人數排序
$ sort -n -t ‘ ‘ -k 2 facebook.txt
guge 50 3000
baidu 100 5000
sohu 100 4500
google 110 5000
guge 50 3000
baidu 100 5000
sohu 100 4500
google 110 5000
不用解釋,我相信你能懂。
但是,此處出現了問題,那就是baidu和sohu的公司人數相同,都是100人,這個時候怎麼辦呢?按照默認規矩,是從第一個域開始進行升序排序,因此baidu排在了sohu前面。
4 我想讓facebook.txt按照公司人數排序,人數相同的按照員工平均工資升序排序:
$ sort -n -t ‘ ‘ -k 2 -k 3 facebook.txt
guge 50 3000
sohu 100 4500
baidu 100 5000
google 110 5000
guge 50 3000
sohu 100 4500
baidu 100 5000
google 110 5000
看,我們加了一個-k2-k3就解決了問題。對滴,sort支持這種設定,就是說設定域排序的優先級,先以第2個域進行排序,如果相同,再以第3個域進行排序。(如果你願意,可以一直這麼寫下去,設定很多個排序優先級)
5我想讓facebook.txt按照員工工資降序排序,如果員工人數相同的,則按照公司人數升序排序:(這個有點難度嘍)
$ sort -n -t ‘ ‘ -k 3r -k 2 facebook.txt
baidu 100 5000
google 110 5000
sohu 100 4500
guge 50 3000
baidu 100 5000
google 110 5000
sohu 100 4500
guge 50 3000
此處有使用了一些小技巧,你仔細看看,在-k 3後面偷偷加上了一個小寫字母r。你想想,再結合我們上一篇文章,能得到答案麼?揭曉:r和-r選項的作用是一樣的,就是表示逆序。因爲sort默認是按照升序排序的,所以此處需要加上r表示第三個域(員工平均工資)是按照降序排序。此處你還可以加上n,就表示對這個域進行排序時,要按照數值大小進行排序,舉個例子吧:
$ sort -t ‘ ‘ -k 3nr -k 2n facebook.txt
baidu 100 5000
google 110 5000
sohu 100 4500
guge 50 3000
baidu 100 5000
google 110 5000
sohu 100 4500
guge 50 3000
看,我們去掉了最前面的-n選項,而是將它加入到了每一個-k選項中了。
6 -k選項的具體語法格式
要繼續往下深入的話,就不得不來點理論知識。你需要了解-k選項的語法格式,如下:
[ FStart [ .CStart ] ] [ Modifier ] [ , [ FEnd [ .CEnd ] ][Modifier ] ]
這個語法格式可以被其中的逗號(“,”)分爲兩大部分,Start部分和End部分。
先給你灌輸一個思想,那就是“如果不設定End部分,那麼就認爲End被設定爲行尾”。這個概念很重要的,但往往你不會重視它。
Start部分也由三部分組成,其中的Modifier部分就是我們之前說過的類似n和r的選項部分。我們重點說說Start部分的FStart和C.Start。
C.Start也是可以省略的,省略的話就表示從本域的開頭部分開始。之前例子中的-k 2和-k3就是省略了C.Start的例子嘍。
FStart.CStart,其中FStart就是表示使用的域,而CStart則表示在FStart域中從第幾個字符開始算“排序首字符”。
同理,在End部分中,你可以設定FEnd.CEnd,如果你省略.CEnd,則表示結尾到“域尾”,即本域的最後一個字符。或者,如果你將CEnd設定爲0(零),也是表示結尾到“域尾”。
7 突發奇想,從公司英文名稱的第二個字母開始進行排序:
$ sort -t ‘ ‘ -k 1.2 facebook.txt
baidu 100 5000
sohu 100 4500
google 110 5000
guge 50 3000
baidu 100 5000
sohu 100 4500
google 110 5000
guge 50 3000
看,我們使用了-k1.2,這就表示對第一個域的第二個字符開始到本域的最後一個字符爲止的字符串進行排序。你會發現baidu因爲第二個字母是a而名列榜首。sohu和google第二個字符都是o,但sohu的h在google的o前面,所以兩者分別排在第二和第三。guge只能屈居第四了。
8又突發奇想,,只針對公司英文名稱的第二個字母進行排序,如果相同的按照員工工資進行降序排序:
$ sort -t ‘ ‘ -k 1.2,1.2 -k 3,3nr facebook.txt
baidu 100 5000
google 110 5000
sohu 100 4500
guge 50 3000
baidu 100 5000
google 110 5000
sohu 100 4500
guge 50 3000
由於只對第二個字母進行排序,所以我們使用了-k1.2,1.2的表示方式,表示我們“只”對第二個字母進行排序。(如果你問“我使用-k1.2怎麼不行?”,當然不行,因爲你省略了End部分,這就意味着你將對從第二個字母起到本域最後一個字符爲止的字符串進行排序)。對於員工工資進行排序,我們也使用了-k3,3,這是最準確的表述,表示我們“只”對本域進行排序,因爲如果你省略了後面的3,就變成了我們“對第3個域開始到最後一個域位置的內容進行排序”了。
9 在modifier部分還可以用到哪些選項?
可以用到b、d、f、i、n 或 r。
其中n和r你肯定已經很熟悉了。
b表示忽略本域的簽到空白符號。
d表示對本域按照字典順序排序(即,只考慮空白和字母)。
f表示對本域忽略大小寫進行排序。
i表示忽略“不可打印字符”,只針對可打印字符進行排序。(有些ASCII就是不可打印字符,比如\a是報警,\b是退格,\n是換行,\r是回車等等)
10 思考思考關於-k和-u聯合使用的例子:
$ cat facebook.txt
google 110 5000
baidu 100 5000
guge 50 3000
sohu 100 4500
google 110 5000
baidu 100 5000
guge 50 3000
sohu 100 4500
這是最原始的facebook.txt文件。
$ sort -n -k 2 facebook.txt
guge 50 3000
baidu 100 5000
sohu 100 4500
google 110 5000
guge 50 3000
baidu 100 5000
sohu 100 4500
google 110 5000
$ sort -n -k 2 -u facebook.txt
guge 50 3000
baidu 100 5000
google 110 5000
guge 50 3000
baidu 100 5000
google 110 5000
當設定以公司員工域進行數值排序,然後加-u後,sohu一行就被刪除了!原來-u只識別用-k設定的域,發現相同,就將後續相同的行都刪除。
$ sort -k 1 -u facebook.txt
baidu 100 5000
google 110 5000
guge 50 3000
sohu 100 4500
baidu 100 5000
google 110 5000
guge 50 3000
sohu 100 4500
$ sort -k 1.1,1.1 -u facebook.txt
baidu 100 5000
google 110 5000
sohu 100 4500
baidu 100 5000
google 110 5000
sohu 100 4500
這個例子也同理,開頭字符是g的guge就沒有倖免於難。
$ sort -n -k 2 -k 3 -u facebook.txt
guge 50 3000
sohu 100 4500
baidu 100 5000
google 110 5000
guge 50 3000
sohu 100 4500
baidu 100 5000
google 110 5000
咦!這裏設置了兩層排序優先級的情況下,使用-u就沒有刪除任何行。原來-u是會權衡所有-k選項,將都相同的纔會刪除,只要其中有一級不同都不會輕易刪除的:)(不信,你可以自己加一行sina100 4500試試看)
11 最詭異的排序:
$ sort -n -k 2.2,3.1 facebook.txt
guge 50 3000
baidu 100 5000
sohu 100 4500
google 110 5000
guge 50 3000
baidu 100 5000
sohu 100 4500
google 110 5000
以第二個域的第二個字符開始到第三個域的第一個字符結束的部分進行排序。
第一行,會提取0 3,第二行提取00 5,第三行提取00 4,第四行提取10 5。
又因爲sort認爲0小於00小於000小於0000….
因此0 3肯定是在第一個。10 5肯定是在最後一個。但爲什麼00 5卻在00 4前面呢?(你可以自己做實驗思考一下。)
答案揭曉:原來“跨域的設定是個假象”,sort只會比較第二個域的第二個字符到第二個域的最後一個字符的部分,而不會把第三個域的開頭字符納入比較範圍。當發現00和00相同時,sort就會自動比較第一個域去了。當然baidu在sohu前面了。用一個範例即可證實:
$ sort -n -k 2.2,3.1 -k 1,1r facebook.txt
guge 50 3000
sohu 100 4500
baidu 100 5000
google 110 5000
guge 50 3000
sohu 100 4500
baidu 100 5000
google 110 5000