通用線程:Awk 實例 1

Daniel Robbins
總裁兼 CEO,Gentoo Technologies, Inc.
http://www-900.ibm.com/developerWorks/cn/linux/shell/awk/awk-1/index.shtml#4

Awk 是一種非常好的語言,同時有一個非常奇怪的名稱。在本系列(共三篇文章)的第一篇文章中,Daniel Robbins 將使您迅速掌握 awk 編程技巧。隨着本系列的進展,將討論更高級的主題,最後將演示一個真正的高級 awk 演示程序。

捍衛 awk
在本系列文章中,我將使您成爲精通 awk 的編碼人員。我承認,awk 並沒有一個非常好聽且又非常“時髦”的名字。awk 的 GNU 版本(叫作 gawk)聽起來非常怪異。那些不熟悉這種語言的人可能聽說過 "awk",並可能認爲它是一組落伍且過時的混亂代碼。它甚至會使最博學的 UNIX 權威陷於錯亂的邊緣(使他不斷地發出 "kill -9!" 命令,就象使用咖啡機一樣)。

的確,awk 沒有一個動聽的名字。但它是一種很棒的語言。awk 適合於文本處理和報表生成,它還有許多精心設計的特性,允許進行需要特殊技巧程序設計。與某些語言不同,awk 的語法較爲常見。它借鑑了某些語言的一些精華部分,如 C 語言、python 和 bash(雖然在技術上,awk 比 python 和 bash 早創建)。awk 是那種一旦學會了就會成爲您戰略編碼庫的主要部分的語言。

第一個 awk
讓我們繼續,開始使用 awk,以瞭解其工作原理。在命令行中輸入以下命令:

$ awk '{ print }' /etc/passwd

您將會見到 /etc/passwd 文件的內容出現在眼前。現在,解釋 awk 做了些什麼。調用 awk 時,我們指定 /etc/passwd 作爲輸入文件。執行 awk 時,它依次對 /etc/passwd 中的每一行執行 print 命令。所有輸出都發送到 stdout,所得到的結果與與執行catting /etc/passwd完全相同。

現在,解釋 { print } 代碼塊。在 awk 中,花括號用於將幾塊代碼組合到一起,這一點類似於 C 語言。在代碼塊中只有一條 print 命令。在 awk 中,如果只出現 print 命令,那麼將打印當前行的全部內容。

這裏是另一個 awk 示例,它的作用與上例完全相同:

$ awk '{ print $0 }' /etc/passwd

在 awk 中,$0 變量表示整個當前行,所以 printprint $0 的作用完全一樣。

如果您願意,可以創建一個 awk 程序,讓它輸出與輸入數據完全無關的數據。以下是一個示例:

$ awk '{ print "" }' /etc/passwd

只要將 "" 字符串傳遞給 print 命令,它就會打印空白行。如果測試該腳本,將會發現對於 /etc/passwd 文件中的每一行,awk 都輸出一個空白行。再次說明, awk 對輸入文件中的每一行都執行這個腳本。以下是另一個示例:

$ awk '{ print "hiya" }' /etc/passwd

運行這個腳本將在您的屏幕上寫滿 hiya。:)

多個字段
awk 非常善於處理分成多個邏輯字段的文本,而且讓您可以毫不費力地引用 awk 腳本中每個獨立的字段。以下腳本將打印出您的系統上所有用戶帳戶的列表:

$ awk -F":" '{ print $1 }' /etc/passwd

上例中,在調用 awk 時,使用 -F 選項來指定 ":" 作爲字段分隔符。awk 處理 print $1 命令時,它會打印出在輸入文件中每一行中出現的第一個字段。以下是另一個示例:

$ awk -F":" '{ print $1 $3 }' /etc/passwd

以下是該腳本輸出的摘錄:

halt7
operator11
root0
shutdown6
sync5
bin1
....etc.

如您所見,awk 打印出 /etc/passwd 文件的第一和第三個字段,它們正好分別是用戶名和用戶標識字段。現在,當腳本運行時,它並不理想 -- 在兩個輸出字段之間沒有空格!如果習慣於使用 bash 或 python 進行編程,那麼您會指望 print $1 $3 命令在兩個字段之間插入空格。然而,當兩個字符串在 awk 程序中彼此相鄰時,awk 會連接它們但不在它們之間添加空格。以下命令會在這兩個字段中插入空格:

$ awk -F":" '{ print $1 " " $3 }' /etc/passwd

以這種方式調用 print 時,它將連接 $1、" " 和 $3,創建可讀的輸出。當然,如果需要的話,我們還可以插入一些文本標籤:

$ awk -F":" '{ print "username: " $1 "/t/tuid:" $3" }' /etc/passwd

這將產生以下輸出:

username: halt          uid:7
username: operator      uid:11
username: root          uid:0
username: shutdown      uid:6
username: sync          uid:5
username: bin           uid:1
....etc.

外部腳本
將腳本作爲命令行自變量傳遞給 awk 對於小的單行程序來說是非常簡單的,而對於多行程序,它就比較複雜。您肯定想要在外部文件中撰寫腳本。然後可以向 awk 傳遞 -f 選項,以向它提供此腳本文件:

$ awk -f myscript.awk myfile.in

將腳本放入文本文件還可以讓您使用附加 awk 功能。例如,這個多行腳本與前面的單行腳本的作用相同,它們都打印出 /etc/passwd 中每一行的第一個字段:

BEGIN {
    FS=":"
}

{ print $1 }

這兩個方法的差別在於如何設置字段分隔符。在這個腳本中,字段分隔符在代碼自身中指定(通過設置 FS 變量),而在前一個示例中,通過在命令行上向 awk 傳遞 -F":" 選項來設置 FS。通常,最好在腳本自身中設置字段分隔符,只是因爲這表示您可以少輸入一個命令行自變量。我們將在本文的後面詳細討論 FS 變量。

BEGIN 和 END 塊
通常,對於每個輸入行,awk 都會執行每個腳本代碼塊一次。然而,在許多編程情況中,可能需要在 awk 開始處理輸入文件中的文本之執行初始化代碼。對於這種情況,awk 允許您定義一個 BEGIN 塊。我們在前一個示例中使用了 BEGIN 塊。因爲 awk 在開始處理輸入文件之前會執行 BEGIN 塊,因此它是初始化 FS(字段分隔符)變量、打印頁眉或初始化其它在程序中以後會引用的全局變量的極佳位置。

awk 還提供了另一個特殊塊,叫作 END 塊。awk 在處理了輸入文件中的所有行之後執行這個塊。通常,END 塊用於執行最終計算或打印應該出現在輸出流結尾的摘要信息。

規則表達式和塊
awk 允許使用規則表達式,根據規則表達式是否匹配當前行來選擇執行獨立代碼塊。以下示例腳本只輸出包含字符序列 foo 的那些行:

/foo/ { print }

當然,可以使用更復雜的規則表達式。以下腳本將只打印包含浮點數的行:

/[0-9]+/.[0-9]*/ { print }

表達式和塊
還有許多其它方法可以選擇執行代碼塊。我們可以將任意一種布爾表達式放在一個代碼塊之前,以控制何時執行某特定塊。僅當對前面的布爾表達式求值爲真時,awk 才執行代碼塊。以下示例腳本輸出將輸出其第一個字段等於 fred 的所有行中的第三個字段。如果當前行的第一個字段不等於 fred,awk 將繼續處理文件而不對當前行執行 print 語句:

$1 == "fred" { print $3 }

awk 提供了完整的比較運算符集合,包括 "=="、"<"、">"、"<="、">=" 和 "!="。另外,awk 還提供了 "~" 和 "!~" 運算符,它們分別表示“匹配”和“不匹配”。它們的用法是在運算符左邊指定變量,在右邊指定規則表達式。如果某一行的第五個字段包含字符序列 root,那麼以下示例將只打印這一行中的第三個字段:

$5 ~ /root/ { print $3 }

條件語句
awk 還提供了非常好的類似於 C 語言的 if 語句。如果您願意,可以使用 if 語句重寫前一個腳本:

{ 
    if ( $5 ~ /root/ ) { 
        print $3 
    }
}

這兩個腳本的功能完全一樣。第一個示例中,布爾表達式放在代碼塊外面。而在第二個示例中,將對每一個輸入行執行代碼塊,而且我們使用 if 語句來選擇執行 print 命令。這兩個方法都可以使用,可以選擇最適合腳本其它部分的一種方法。

以下是更復雜的 awk if 語句示例。可以看到,儘管使用了複雜、嵌套的條件語句,if 語句看上去仍與相應的 C 語言 if 語句一樣:

{
    if ( $1 == "foo" ) {
        if ( $2 == "foo" ) {
            print "uno"
        } else {
            print "one"
        }
    } else if ($1 == "bar" ) {
        print "two"
    } else {
        print "three"
    }
}

使用 if 語句還可以將代碼:

! /matchme/ { print $1 $3 $4 }

轉換成:

{   
    if ( $0 !~ /matchme/ ) {
        print $1 $3 $4
    }
}

這兩個腳本都只輸出包含 matchme 字符序列的那些行。此外,還可以選擇最適合您的代碼的方法。它們的功能完全相同。

awk 還允許使用布爾運算符 "||"(邏輯與)和 "&&"(邏輯或),以便創建更復雜的布爾表達式:

( $1 == "foo" ) && ( $2 == "bar" ) { print } 

這個示例只打印第一個字段等於 foo 第二個字段等於 bar 的那些行。

數值變量!
至今,我們不是打印字符串、整行就是特定字段。然而,awk 還允許我們執行整數和浮點運算。通過使用數學表達式,可以很方便地編寫計算文件中空白行數量的腳本。以下就是這樣一個腳本:

BEGIN   { x=0 }
/^$/    { x=x+1 }
END     { print "I found " x " blank lines. :)" }

在 BEGIN 塊中,將整數變量 x 初始化成零。然後,awk 每次遇到空白行時,awk 將執行 x=x+1 語句,遞增 x。處理完所有行之後,執行 END 塊,awk 將打印出最終摘要,指出它找到的空白行數量。

字符串化變量
awk 的優點之一就是“簡單和字符串化”。我認爲 awk 變量“字符串化”是因爲所有 awk 變量在內部都是按字符串形式存儲的。同時,awk 變量是“簡單的”,因爲可以對它執行數學操作,且只要變量包含有效數字字符串,awk 會自動處理字符串到數字的轉換步驟。要理解我的觀點,請研究以下這個示例:

x="1.01"
# We just set x to contain the *string* "1.01"
x=x+1
# We just added one to a *string* 
print x
# Incidentally, these are comments :)

awk 將輸出:

2.01

有趣吧!雖然將字符串值 1.01 賦值給變量 x,我們仍然可以對它加一。但在 bash 和 python 中卻不能這樣做。首先,bash 不支持浮點運算。而且,如果 bash 有“字符串化”變量,它們並不“簡單”;要執行任何數學操作,bash 要求我們將數字放到醜陋的 $( ) ) 結構中。如果使用 python,則必須在對 1.01 字符串執行任何數學運算之前,將它轉換成浮點值。雖然這並不困難,但它仍是附加的步驟。如果使用 awk,它是全自動的,而那會使我們的代碼又好又整潔。如果想要對每個輸入行的第一個字段乘方並加一,可以使用以下腳本:

{ print ($1^2)+1 }

如果做一個小實驗,就可以發現如果某個特定變量不包含有效數字,awk 在對數學表達式求值時會將該變量當作數字零處理。

衆多運算符
awk 的另一個優點是它有完整的數學運算符集合。除了標準的加、減、乘、除,awk 還允許使用前面演示過的指數運算符 "^"、模(餘數)運算符 "%" 和其它許多從 C 語言中借入的易於使用的賦值操作符。

這些運算符包括前後加減(i++--foo)、加/減/乘/除賦值運算符( a+=3b*=2c/=2.2d-=6.2)。不僅如此 -- 我們還有易於使用的模/指數賦值運算符(a^=2b%=4)。

字段分隔符
awk 有它自己的特殊變量集合。其中一些允許調整 awk 的運行方式,而其它變量可以被讀取以收集關於輸入的有用信息。我們已經接觸過這些特殊變量中的一個,FS。前面已經提到過,這個變量讓您可以設置 awk 要查找的字段之間的字符序列。我們使用 /etc/passwd 作爲輸入時,將 FS 設置成 ":"。當這樣做有問題時,我們還可以更靈活地使用 FS。

FS 值並沒有被限制爲單一字符;可以通過指定任意長度的字符模式,將它設置成規則表達式。如果正在處理由一個或多個 tab 分隔的字段,您可能希望按以下方式設置 FS:

FS="/t+"

以上示例中,我們使用特殊 "+" 規則表達式字符,它表示“一個或多個前一字符”。

如果字段由空格分隔(一個或多個空格或 tab),您可能想要將 FS 設置成以下規則表達式:

FS="[[:space:]+]"

這個賦值表達式也有問題,它並非必要。爲什麼?因爲缺省情況下,FS 設置成單一空格字符,awk 將這解釋成表示“一個或多個空格或 tab”。在這個特殊示例中,缺省 FS 設置恰恰是您最想要的!

複雜的規則表達式也不成問題。即使您的記錄由單詞 "foo" 分隔,後面跟着三個數字,以下規則表達式仍允許對數據進行正確的分析:

FS="foo[0-9][0-9][0-9]"

字段數量
接着我們要討論的兩個變量通常並不是需要賦值的,而是用來讀取以獲取關於輸入的有用信息。第一個是 NF 變量,也叫做“字段數量”變量。awk 會自動將該變量設置成當前記錄中的字段數量。可以使用 NF 變量來只顯示某些輸入行:

NF == 3 { print "this particular record has three fields: " $0 }

當然,也可以在條件語句中使用 NF 變量,如下:

{   
    if ( NF > 2 ) {
        print $1 " " $2 ":" $3 
    }
}

記錄號
記錄號 (NR) 是另一個方便的變量。它始終包含當前記錄的編號(awk 將第一個記錄算作記錄號 1)。迄今爲止,我們已經處理了每一行包含一個記錄的輸入文件。對於這些情況,NR 還會告訴您當前行號。然而,當我們在本系列以後部分中開始處理多行記錄時,就不會再有這種情況,所以要注意!可以象使用 NF 變量一樣使用 NR 來只打印某些輸入行:

(NR < 10 ) || (NR > 100) { print "We are on record number 1-9 or 101+" }

另一個示例:

{
    #skip header
    if ( NR > 10 ) {
        print "ok, now for the real information!"
    }
}

awk 提供了適合各種用途的附加變量。我們將在以後的文章中討論這些變量。

現在已經到了初次探索 awk 的尾聲。隨着本系列的開展,我將演示更高級的 awk 功能,我們將用一個真實的 awk 應用程序作爲本系列的結尾。同時,如果急於學習更多知識,請參考以下列出的參考資料。

參考資料

關於作者
Daniel Robbins 居住在新墨西哥州的 Albuquerque。他是 Gentoo Technologies, Inc. 的總裁兼 CEO,Gentoo Linux(用於 PC 的高級 Linux)和 Portage 系統(Linux 的下一代移植系統)的創始人。他還是 Macmillan 書籍 Caldera OpenLinux UnleashedSuSE Linux UnleashedSamba Unleashed 的合作者。Daniel 自二年級起就與計算機某些領域結下不解之緣,那時他首先接觸的是 Logo 程序語言,並沉溺於 Pac-Man 遊戲中。這也許就是他至今仍擔任 SONY Electronic Publishing/Psygnosis 的首席圖形設計師的原因所在。Daniel 喜歡與妻子 Mary 和新出生的女兒 Hadassah 一起共度時光。可通過 [email protected] 與 Daniel 聯繫。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章