Linuxawk命令說明
分類: Linux2011-03-25 16:48 27170人閱讀評論(8)收藏舉報
一. AWK 說明
awk是一種編程語言,用於在linux/unix下對文本和數據進行處理。數據可以來自標準輸入、一個或多個文件,或其它命令的輸出。它支持用戶自定義函數和動態正則表達式等先進功能,是linux/unix下的一個強大編程工具。它在命令行中使用,但更多是作爲腳本來使用。
awk的處理文本和數據的方式:它逐行掃描文件,從第一行到最後一行,尋找匹配的特定模式的行,並在這些行上進行你想要的操作。如果沒有指定處理動作,則把匹配的行顯示到標準輸出(屏幕),如果沒有指定模式,則所有被操作所指定的行都被處理。
awk分別代表其作者姓氏的第一個字母。因爲它的作者是三個人,分別是AlfredAho、BrianKernighan、PeterWeinberger。
gawk是awk的GNU版本,它提供了Bell實驗室和GNU的一些擴展。下面介紹的awk是以GUN的gawk爲例的,在linux系統中已把awk鏈接到gawk,所以下面全部以awk進行介紹。
二. awk命令格式和選項
awk[options] 'script' var=value file(s)
awk[options] -f scriptfile var=value file(s)
(1)-Ffs or --field-separator fs :指定輸入文件折分隔符,fs是一個字符串或者是一個正則表達式,如-F:。
(2)-vvar=value or --asign var=value :賦值一個用戶定義變量。
(3)-fscripfile or --file scriptfile :從腳本文件中讀取awk命令。
(4)-mfnnn and -mr nnn:對nnn值設置內在限制,-mf選項限制分配給nnn的最大塊數目;-mr選項限制記錄的最大數目。這兩個功能是Bell實驗室版awk的擴展功能,在標準awk中不適用。
(5)-Wcompact or --compat, -W traditional or --traditional:在兼容模式下運行awk。所以gawk的行爲和標準的awk完全一樣,所有的awk擴展都被忽略。
(6)-Wcopyleft or --copyleft, -W copyright or --copyright :打印簡短的版權信息。
(7)-Whelp or --help, -W usage or --usage :打印全部awk選項和每個選項的簡短說明。
(8)-Wlint or --lint :打印不能向傳統unix平臺移植的結構的警告。
(9)-Wlint-old or --lint-old :打印關於不能向傳統unix平臺移植的結構的警告。
(10)-Wposix:打開兼容模式。但有以下限制,不識別:/x、函數關鍵字、func、換碼序列以及當fs是一個空格時,將新行作爲一個域分隔符;操作符**和**=不能代替^和^=;fflush無效。
(11)-Wre-interval or --re-inerval:允許間隔正則表達式的使用,參考(grep中的Posix字符類),如括號表達式[[:alpha:]]。
(12)-Wsource program-text or --source program-text:使用program-text作爲源代碼,可與-f命令混用。
(13)-Wversion or --version :打印bug報告信息的版本。
三. 模式和操作
awk腳本是由模式和操作組成的:
pattern{action} 如$awk '/root/' test,或$awk '$3 < 100' test。
兩者是可選的,如果沒有模式,則action應用到全部記錄,如果沒有action,則輸出匹配全部記錄。默認情況下,每一個輸入行都是一條記錄,但用戶可通過RS變量指定不同的分隔符進行分隔。
模式可以是以下任意一個:
(1)正則表達式:使用通配符的擴展集。
(2)關係表達式:可以用下面運算符表中的關係運算符進行操作,可以是字符(3)串或數字的比較,如$2>%1選擇第二個字段比第一個字段長的行。
(4)模式匹配表達式:用運算符~(匹配)和~!(不匹配)。
(5)模式,模式:指定一個行的範圍。該語法不能包括BEGIN和END模式。
(6)BEGIN:讓用戶指定在第一條輸入記錄被處理之前所發生的動作,通常可在這裏設置全局變量。
(7)END:讓用戶在最後一條輸入記錄被讀取之後發生的動作。
3.2. 操作
操作由一人或多個命令、函數、表達式組成,之間由換行符或分號隔開,並位於大括號內。主要有四部份:
(1)變量或數組賦值
(2)輸出命令
(3)內置函數
(4)控制流命令
四. awk的環境變量
描述 |
|
$n |
當前記錄的第n個字段,字段間由FS分隔。 |
$0 |
完整的輸入記錄。 |
ARGC |
命令行參數的數目。 |
ARGIND |
命令行中當前文件的位置(從0開始算)。 |
ARGV |
包含命令行參數的數組。 |
CONVFMT |
數字轉換格式(默認值爲%.6g) |
ENVIRON |
環境變量關聯數組。 |
ERRNO |
最後一個系統錯誤的描述。 |
FIELDWIDTHS |
字段寬度列表(用空格鍵分隔)。 |
FILENAME |
當前文件名。 |
FNR |
同NR,但相對於當前文件。 |
FS |
字段分隔符(默認是任何空格)。 |
IGNORECASE |
如果爲真,則進行忽略大小寫的匹配。 |
NF |
當前記錄中的字段數。 |
NR |
當前記錄數。 |
OFMT |
數字的輸出格式(默認值是%.6g)。 |
OFS |
輸出字段分隔符(默認值是一個空格)。 |
ORS |
輸出記錄分隔符(默認值是一個換行符)。 |
RLENGTH |
由match函數所匹配的字符串的長度。 |
RS |
記錄分隔符(默認是一個換行符)。 |
RSTART |
由match函數所匹配的字符串的第一個位置。 |
SUBSEP |
數組下標分隔符(默認值是/034)。 |
五. awk運算符
描述 |
|
=+= -= *= /= %= ^= **= |
賦值 |
?: |
C條件表達式 |
|| |
邏輯或 |
&& |
邏輯與 |
~~! |
匹配正則表達式和不匹配正則表達式 |
<<= > >= != == |
關係運算符 |
空格 |
連接 |
+- |
加,減 |
*/ & |
乘,除與求餘 |
+- ! |
一元加,減和邏輯非 |
^*** |
求冪 |
++-- |
增加或減少,作爲前綴或後綴 |
$ |
字段引用 |
in |
數組成員 |
六. 記錄和域
awk把每一個以換行符結束的行稱爲一個記錄。
記錄分隔符:默認的輸入和輸出的分隔符都是回車,保存在內建變量ORS和RS中。
$0變量:它指的是整條記錄。如$awk '{print $0}' test將輸出test文件中的所有記錄。
變量NR:一個計數器,每處理完一條記錄,NR的值就增加1。
如$awk '{print NR,$0}' test將輸出test文件中所有記錄,並在記錄前顯示記錄號。
記錄中每個單詞稱做“域”,默認情況下以空格或tab分隔。awk可跟蹤域的個數,並在內建變量NF中保存該值。如$awk '{print $1,$3}' test將打印test文件中第一和第三個以空格分開的列(域)。
6.3. 域分隔符
內建變量FS保存輸入域分隔符的值,默認是空格或tab。我們可以通過-F命令行選項修改FS的值。如$awk -F: '{print $1,$5}' test將打印以冒號爲分隔符的第一,第五列的內容。
可以同時使用多個域分隔符,這時應該把分隔符寫成放到方括號中,如$awk-F'[:/t]' '{print $1,$3}' test,表示以空格、冒號和tab作爲分隔符。
輸出域的分隔符默認是一個空格,保存在OFS中。如$awk -F: '{print $1,$5}' test,$1和$5間的逗號就是OFS的值。
七. gawk專用正則表達式元字符
以下幾個是gawk專用的,不適合unix版本的awk。
(1)/Y:匹配一個單詞開頭或者末尾的空字符串。
(2)/B:匹配單詞內的空字符串。
(3)/<:匹配一個單詞的開頭的空字符串,錨定開始。
(4)/>:匹配一個單詞的末尾的空字符串,錨定末尾。
(5)/w:匹配一個字母數字組成的單詞。
(6)/W:匹配一個非字母數字組成的單詞。
(7)/‘:匹配字符串開頭的一個空字符串。
(8)/':匹配字符串末尾的一個空字符串。
用來在記錄或者域內匹配正則表達式。如$awk '$1 ~/^root/' test將顯示test文件第一列中以root開頭的行。
conditionalexpression1 ? expression2: expression3,
例如:$awk '{max = {$1 > $3} ? $1: $3: print max}'test。如果第一個域大於第三個域,$1就賦值給max,否則$3就賦值給max。
$awk '$1 + $2 < 100' test。如果第一和第二個域相加大於100,則打印這些行。
$awk '$1 > 5 && $2 < 10'test,如果第一個域大於5,並且第二個域小於10,則打印這些行。
範圍模板匹配從第一個模板的第一次出現到第二個模板的第一次出現之間所有行。如果有一個模板沒出現,則匹配到開頭或末尾。如$awk '/root/,/mysql/' test將顯示root第一次出現到mysql第一次出現之間的所有行。
1、awk'/101/'
file 顯示文件file中包含101的匹配行。
awk'/101/,/105/' file
awk '$1 == 5' file
awk '$1 =="CT"' file 注意必須帶雙引號
awk'$1 * $2 >100 ' file
awk '$2 >5 && $2<=15'file
2、awk'{print NR,NF,$1,$NF,}'
file 顯示文件file的當前記錄號、域數和每一行的第一個和最後一個域。
awk'/101/ {print $1,$2 + 10}' file 顯示文件file的匹配行的第一、二個域加10。
awk'/101/ {print $1$2}' file
awk '/101/ {print $1 $2}' file顯示文件file的匹配行的第一、二個域,但顯示時域中間沒有分隔符。
3、df| awk '$4>1000000 '通過管道符獲得輸入,如:顯示第4個域滿足條件的行。
4、awk-F "|" '{print $1}'
file 按照新的分隔符“|”進行操作。
awk'BEGIN { FS="[: /t|]" }
{print $1,$2,$3}' file通過設置輸入分隔符(FS="[:/t|]")修改輸入分隔符。
Sep="|"
awk-F $Sep '{print $1}' file 按照環境變量Sep的值做爲分隔符。
awk-F '[ :/t|]' '{print $1}' file按照正則表達式的值做爲分隔符,這裏代表空格、:、TAB、|同時做爲分隔符。
awk-F '[][]' '{print $1}' file 按照正則表達式的值做爲分隔符,這裏代表[、]
5、awk-f awkfile file通過文件awkfile的內容依次進行控制。
catawkfile
/101/{print "/047 Hello! /047"}--遇到匹配行以後打印'Hello! './047代表單引號。
{print$1,$2} --因爲沒有模式控制,打印每一行的前兩個域。
6、awk'$1 ~ /101/ {print $1}' file 顯示文件中第一個域匹配101的行(記錄)。
7、awk'BEGIN
{ OFS="%"}
{print$1,$2}' file 通過設置輸出分隔符(OFS="%")修改輸出格式。
8、awk'BEGIN { max=100 ;print "max=" max}
BEGIN表示在處理任意行之前進行的操作。
{max=($1>max ?$1:max); print $1,"Now max is "max}' file取得文件第一個域的最大值。
9、awk'$1 * $2 >100 {print $1}' file顯示文件中第一個域匹配101的行(記錄)。
10、awk'{$1
== 'Chi' {$3 = 'China'; print}' file找到匹配行後先將第3個域替換後再顯示該行(記錄)。
awk'{$7 %= 3; print $7}' file 將第7域被3除,並將餘數賦給第7域再打印。
11、awk'/tom/ {wage=$2+$3; printf wage}' file 找到匹配行後爲變量wage賦值並打印該變量。
12、awk'/tom/
{count++;}
END{print "tom was found "count" times"}' file
END表示在所有輸入行處理完後進行處理。
13、awk'gsub(//$/,"");gsub(/,/,"");
cost+=$4;
END{print "The total is $" cost>"filename"}'file
gsub函數用空串替換$和,再將結果輸出到filename中。
12 3 $1,200.00
1 2 3 $2,300.00
1 2 3$4,000.00
awk '{gsub(//$/,"");gsub(/,/,"");
if($4>1000&&$4<2000) c1+=$4;
else if($4>2000&&$4<3000) c2+=$4;
else if($4>3000&&$4<4000) c3+=$4;
else c4+=$4;}
END {printf"c1=[%d];c2=[%d];c3=[%d];c4=[%d]/n",c1,c2,c3,c4}"'file
通過if和elseif完成條件語句
awk'{gsub(//$/,"");gsub(/,/,"");
if($4>3000&&$4<4000) exit;
else c4+=$4; }
END{printf "c1=[%d];c2=[%d];c3=[%d];c4=[%d]/n",c1,c2,c3,c4}"'file
通過exit在某條件時退出,但是仍執行END操作。
awk'{gsub(//$/,"");gsub(/,/,"");
if($4>3000) next;
else c4+=$4; }
END {printf"c4=[%d]/n",c4}"'file
通過next在某條件時跳過該行,對下一行執行操作。
14、awk'{ print FILENAME,$0
}' file1 file2 file3>fileall
把file1、file2、file3的文件內容全部寫到fileall中,格式爲打印文件並前置文件名。
15、awk'
$1!=previous { close(previous); previous=$1 }
{printsubstr($0,index($0," ") +1)>$1}' fileall
把合併後的文件重新分拆爲3個文件。並與原文件一致。
16、awk'BEGIN {"date"|getline d; print d}'
通過管道把date的執行結果送給getline,並賦給變量d,然後打印。
17、awk'BEGIN
{system("echo "Input your name://c"");getline d;print "/nYour name is",d,"/b!/n"}'
通過getline命令交互輸入name,並顯示出來。
awk'BEGIN {FS=":"; while(getline< "/etc/passwd">0) { if($1~"050[0-9]_") print $1}}'
打印/etc/passwd文件中用戶名包含050x_的用戶名。
18、awk'{
i=1;while(i<NF) {print NF,$i;i++}}' file 通過while語句實現循環。
awk'{ for(i=1;i<NF;i++) {print NF,$i}}' file通過for語句實現循環。
typefile|awk -F "/" '
{ for(i=1;i<NF;i++)
{if(i==NF-1) { printf "%s",$i }
else { printf"%s/",$i } }}'
顯示一個文件的全路徑。
用for和if顯示日期
awk'BEGIN {
for(j=1;j<=12;j++)
{ flag=0;
printf"/n%d月份/n",j;
for(i=1;i<=31;i++)
{
if(j==2&&i>28) flag=1;
if((j==4||j==6||j==9||j==11)&&i>30) flag=1;
if(flag==0) {printf "%02d%02d ",j,i}
}
}
}'
19、在awk中調用系統變量必須用單引號,如果是雙引號,則表示字符串
Flag=abcd
awk'{print '$Flag'}' 結果爲abcd
awk'{print "$Flag"}' 結果爲$Flag
20.其他小示例
$awk '/^(no|so)/' test-----打印所有以模式no或so開頭的行。
$awk '/^[ns]/{print $1}' test-----如果記錄以n或s開頭,就打印這個記錄。
$awk '$1 ~/[0-9][0-9]$/(print $1}' test-----如果第一個域以兩個數字結束就打印這個記錄。
$awk '$1 == 100 || $2 < 50' test-----如果第一個或等於100或者第二個域小於50,則打印該行。
$awk '$1 != 10' test-----如果第一個域不等於10就打印該行。
$awk '/test/{print $1 + 10}' test-----如果記錄包含正則表達式test,則第一個域加10並打印出來。
$awk '{print ($1 > 5 ? "ok "$1: "error"$1)}'test-----如果第一個域大於5則打印問號後面的表達式值,否則打印冒號後面的表達式值。
$awk '/^root/,/^mysql/'test----打印以正則表達式root開頭的記錄到以正則表達式mysql開頭的記錄範圍內的所有記錄。如果找到一個新的正則表達式root開頭的記錄,則繼續打印直到下一個以正則表達式mysql開頭的記錄爲止,或到文件末尾。