轉自鳥哥的linux私房菜
前言
約略瞭解了 Linux 的基本指令 ( Shell ) 並且熟悉了 vi 之後,相信您對於敲擊鍵盤與指令比較不陌生了吧?? 接下來,底下要開始介紹一個很重要的觀念,那就是所謂的『正則表達式』囉!
什麼是正則表達式
正則表達式對於系統管理員的用途
正則表達式的廣泛用途
正則表達式與 Shell 在 Linux 當中的角色定位
延伸的正則表達式
什麼是正則表達式
任何一個有經驗的系統管理員,都會告訴您:『正則表達式真是挺重要的!』 爲什麼很重要呢?因爲日常生活就使用的到啊!舉個例子來說, 在您日常處理文書作業時,應該會常常使用到『搜尋/取代』等等的功能吧? 這些舉動要作的漂亮,就是正則表達式的工作了!
簡單的說,正則表達式就是處理字符串的方法,他是以行爲單位, 來進行字符串的處理行爲,他透過一些特殊符號的輔助,可以讓使用者輕易的達到 搜尋/取代 某特定字符串的處理程序!
舉例來說,我要找到 VBird 或 Vbird 這個字樣,但是不要其它的字符串,該如何辦理? 如果在沒有正則表達式的環境中(例如 MS word),您或許就得要使用忽略大小寫的辦法, 或者是分別以 VBird 及 Vbird 搜尋兩遍。但是,忽略大小寫可能會搜尋到 VBIRD/vbird/VbIrD 等等的不需要的字符串,而造成使用者的困擾。
再舉個系統常見的例子好了,假設妳發現系統在開機的時候,老是會出現一個關於 mail 程序的錯誤, 而開機過程的相關程序都是在 /etc/rc.d/ 底下,也就是說,在該目錄底下的某個檔案內具有 mail 這個關鍵詞,好了,此時,您怎麼找出來含有這個關鍵詞的檔案??您當然可以一個檔案一個檔案的開啓, 然後去搜尋 mail 這個關鍵詞,只是.....該目錄底下的檔案可能不止 100 個說~ 如果瞭解正則表達式的相關技巧,那麼只要一行指令就找出來啦! 『grep 'mail' /etc/rc.d/*』 那個 grep 就是支持正則表達式的工具程序之一!如何~很簡單吧! ^_^y
談到這裏就得要進一步說明了,正則表達式基本上是一種『表示法』, 只要工具程序支持這種表示法,那麼該工具程序就可以用來作爲正則表達式的字符串處理之用。 也就是說,例如 vi, grep, awk ,sed 等等工具,因爲她們有支持正則表達式, 所以,這些工具就可以使用正則表達式的特殊字符來進行字符串的處理。
簡單的說,正則表達式就是處理字符串的方法,他是以行爲單位, 來進行字符串的處理行爲,他透過一些特殊符號的輔助,可以讓使用者輕易的達到 搜尋/取代 某特定字符串的處理程序!
舉例來說,我要找到 VBird 或 Vbird 這個字樣,但是不要其它的字符串,該如何辦理? 如果在沒有正則表達式的環境中(例如 MS word),您或許就得要使用忽略大小寫的辦法, 或者是分別以 VBird 及 Vbird 搜尋兩遍。但是,忽略大小寫可能會搜尋到 VBIRD/vbird/VbIrD 等等的不需要的字符串,而造成使用者的困擾。
再舉個系統常見的例子好了,假設妳發現系統在開機的時候,老是會出現一個關於 mail 程序的錯誤, 而開機過程的相關程序都是在 /etc/rc.d/ 底下,也就是說,在該目錄底下的某個檔案內具有 mail 這個關鍵詞,好了,此時,您怎麼找出來含有這個關鍵詞的檔案??您當然可以一個檔案一個檔案的開啓, 然後去搜尋 mail 這個關鍵詞,只是.....該目錄底下的檔案可能不止 100 個說~ 如果瞭解正則表達式的相關技巧,那麼只要一行指令就找出來啦! 『grep 'mail' /etc/rc.d/*』 那個 grep 就是支持正則表達式的工具程序之一!如何~很簡單吧! ^_^y
談到這裏就得要進一步說明了,正則表達式基本上是一種『表示法』, 只要工具程序支持這種表示法,那麼該工具程序就可以用來作爲正則表達式的字符串處理之用。 也就是說,例如 vi, grep, awk ,sed 等等工具,因爲她們有支持正則表達式, 所以,這些工具就可以使用正則表達式的特殊字符來進行字符串的處理。
正則表達式對於系統管理員的用途
那麼爲何我需要學習正則表達式呢?對於一般使用者來說,由於使用到正則表達式的機會可能不怎麼多, 因此感受不到他的魅力,不過,對於身爲系統管理員的您來說, 正則表達式則是一個『不可不學的好東西!』 怎麼說呢?由於系統如果在繁忙的情況之下,每天產生的訊息信息會多到你無法想象的地步, 而我們也都知道,系統的『錯誤訊息登錄檔案』 的內容(這部份我們在第五篇會詳談)記載了系統產生的所有訊息,當然, 這包含你的系統是否被『***』的紀錄數據。
但是系統的數據量太大了,要身爲系統管理員的你每天去看這麼多的訊息數據, 從千百行的資料裏面找出一行有問題的訊息,呵呵~光是用肉眼去看,想不瘋掉都很難! 這個時候,我們就可以透過『正則表達式』的功能,將這些登錄的信息進行處理, 僅取出『有問題』的信息來進行分析,哈哈!如此一來,你的系統管理工作將會 『快樂得不得了』啊!當然,正則表達式的優點還不止於此,等您有一定程度的瞭解之後,您會愛上他喔!
但是系統的數據量太大了,要身爲系統管理員的你每天去看這麼多的訊息數據, 從千百行的資料裏面找出一行有問題的訊息,呵呵~光是用肉眼去看,想不瘋掉都很難! 這個時候,我們就可以透過『正則表達式』的功能,將這些登錄的信息進行處理, 僅取出『有問題』的信息來進行分析,哈哈!如此一來,你的系統管理工作將會 『快樂得不得了』啊!當然,正則表達式的優點還不止於此,等您有一定程度的瞭解之後,您會愛上他喔!
正則表達式的廣泛用途
正則表達式除了可以讓系統管理員管理主機更爲便利之外,事實上, 由於正則表達式強大的字符串處理能力,目前一堆軟件都支持正則表達式呢! 最常見的就是『郵件服務器』啦!
如果您留意因特網上的消息,那麼應該不能發現,目前造成網絡大塞車的主因之一就是『垃圾/廣告信件』了, 而如果我們可以在主機端,就將這些問題郵件剔除的話,客戶端就會減少很多不必要的頻寬耗損了。 那麼如何剔除廣告信件呢?由於廣告信件幾乎都有一定的標題或者是內容,因此, 只要每次有來信時,都先將來信的標題與內容進行特殊字符串的比對,發現有不良信件就予以剔除! 嘿!這個工作怎麼達到啊?就使用正則表達式啊!目前兩大郵件服務器軟件 sendmail 與 postfix 以及支持郵件服務器的相關分析套件,都支持正則表達式的比對功能!
當然還不止於此啦,很多的服務器軟件、以及套件都支持正則表達式呢!當然, 雖然各家軟件都支持他,不過,這些『字符串』的比對還是需要系統管理員來加入比對規則的, 所以啦!身爲系統管理員的你,爲了自身的工作以及客戶端的需求, 正則表達式實在是很需要也很值得學習的一項工具呢!
如果您留意因特網上的消息,那麼應該不能發現,目前造成網絡大塞車的主因之一就是『垃圾/廣告信件』了, 而如果我們可以在主機端,就將這些問題郵件剔除的話,客戶端就會減少很多不必要的頻寬耗損了。 那麼如何剔除廣告信件呢?由於廣告信件幾乎都有一定的標題或者是內容,因此, 只要每次有來信時,都先將來信的標題與內容進行特殊字符串的比對,發現有不良信件就予以剔除! 嘿!這個工作怎麼達到啊?就使用正則表達式啊!目前兩大郵件服務器軟件 sendmail 與 postfix 以及支持郵件服務器的相關分析套件,都支持正則表達式的比對功能!
當然還不止於此啦,很多的服務器軟件、以及套件都支持正則表達式呢!當然, 雖然各家軟件都支持他,不過,這些『字符串』的比對還是需要系統管理員來加入比對規則的, 所以啦!身爲系統管理員的你,爲了自身的工作以及客戶端的需求, 正則表達式實在是很需要也很值得學習的一項工具呢!
正則表達式與 Shell 在 Linux 當中的角色定位
說實在的,我們在學數學的時候,一個很重要、但是粉難的東西是一定要『背』的, 那就是九九表,背成功了之後,未來在數學應用的路途上,真是一帆風順啊! 這個九九表我們在小學的時候幾乎背了一整年才背下來,並不是這麼好背的呢! 但他卻是基礎當中的基礎!您現在一定受惠相當的多呢 ^_^! 而我們談到的這個正則表達式,與前一章的 BASH shell 就有點像是數學的九九表一樣,是 Linux 基礎當中的基礎,雖然也是最難的部分, 不過,如果學成了之後,一定是『大大的有幫助』的!這就好像是金庸小說裏面的學武難關, 任督二脈,打通任督二脈之後,武功立刻成倍成長!所以啦, 不論是對於系統的認識與系統的管理部分,他都有很棒的輔助啊!請好好的學習這個基礎吧! ^_^
延伸的正則表達式
正則表達式除了簡單的一組字符串處理之外,還可以作羣組的字符串處理, 例如進行搜尋 VBird 或 netman 或 lman 的搜尋,注意,是『或(or)』而不是『和(and)』的處理, 此時就需要延伸正則表達式的幫助啦!藉由特殊的 ( 與 | 等字符的協助, 就能夠達到這樣的目的!好啦!清清腦門,咱們用功去囉!
Tips: 有一點要向大家報告的,那就是:『正則表達式與萬用字符是不一樣的東西!』 這很重要喔!因爲萬用字符 (wildcard) 所代表的意義與正則表達式並不相同~ 要分的很清楚才行喔!所以,學習本章,請將前一章 bash 的萬用字符意義先忘掉吧! |
既然正則表達式是處理字符串的一個標準表示方式,他需要支持的工具程序來輔助, 所以,我們這裏就先介紹一個最簡單的字符串擷取功能的工具程序,那就是 grep 囉! 在介紹完 grep 的基本功能之後,就進入正則表達式的特殊字符的處理能力了。
以 grep 擷取字符串
重要特殊字符(characters)
以 grep 擷取字符串
既然要使用 grep 當然就得要先了解一下 grep 的語法囉~
grep 是一個很常見也很常用的指令,他最重要的功能就是進行字符串數據的比對, 然後將符合使用者需求的字符串打印出來。 需要說明的是『grep 在資料中查尋一個字符串時,是以 "整行" 爲單位來進行數據的擷取的!』也就是說,假如一個檔案內有 10 行,其中有兩行具有你所搜尋的字符串,則將那兩行顯示在屏幕上,其它的就丟棄了!
而 grep 除了可以進行檔案的資料搜尋之外,也常常被應用在 input/output 的數據處理當中,例如常見的 管線命令 ( pipe ) 就可以常常見到他的蹤影! 以上面表格中的例子來看,我們可以發現前兩個例子是查尋檔案的內容,有沒有加上 -v 所顯示出來的結果是『相反的!』,而第三個例子則是以 pipe 的功能進行數據的處理的喔!
好了,我們就開始以 grep 來進行正則表達式的簡易說明吧!我們先以底下這個檔案來作爲範例:
需要特別注意的是,上面這個檔案鳥哥是在 Windows 的環境下編輯的, 並且經過特殊處理過,因此,他雖然是純文字文件,但是內含一些 Windows 環境下的軟件常常自行加入的一些特殊字符,例如斷行字符(^M)就是一例! 所以,您可以直接將上面的文字以 vi 儲存成 regular_express.txt 這個檔案, 不過,比較建議直接點底下的連結下載:
此外,因爲不同的語系編碼是不一樣的,所以,您必須要將語系改成英文語系, 才能夠進行底下的測試,否則,可能會有顯示的內容與底下的輸出不符的狀況喔! 修改語系的方法爲:
好了,現在開始我們一個案例一個案例的來介紹吧!
[root@test root]# grep [-acinv] '搜尋字符串' filename 參數說明: -a :將 binary 檔案以 text 檔案的方式搜尋數據 -c :計算找到 '搜尋字符串' 的次數 -i :忽略大小寫的不同,所以大小寫視爲相同 -n :順便輸出行號 -v :反向選擇,亦即顯示出沒有 '搜尋字符串' 內容的那一行! 範例: [root@test root]# grep 'root' /var/log/secure 將 /var/log/secure 這個檔案中有 root 的那一行秀出來 [root@test root]# grep -v 'root' /var/log/secure 若該行沒有 root 纔將數據秀出來到屏幕上! [root@test root]# last | grep root 若該行有 root 纔將數據秀出來到屏幕上!
|
而 grep 除了可以進行檔案的資料搜尋之外,也常常被應用在 input/output 的數據處理當中,例如常見的 管線命令 ( pipe ) 就可以常常見到他的蹤影! 以上面表格中的例子來看,我們可以發現前兩個例子是查尋檔案的內容,有沒有加上 -v 所顯示出來的結果是『相反的!』,而第三個例子則是以 pipe 的功能進行數據的處理的喔!
好了,我們就開始以 grep 來進行正則表達式的簡易說明吧!我們先以底下這個檔案來作爲範例:
[root@test root]# vi regular_express.txt "Open Source" is a good mechanism to develop programs. apple is my favorite food. Football game is not use feet only. this dress doesn't fit me. However, this dress is about $ 3183 dollars. GNU is free air not free beer. Her hair is very beauty. I can’t finish the test. Oh! The soup taste good. motorcycle is cheap than car. This window is clear. the symbol '*' is represented as start. Oh! My god! The gd software is a library for drafting programs. You are the best is mean you are the no. 1. The world I like dog. google is the best tools for search keyword. goooooogle yes! go! go! Let's go. # I am VBird |
[root@test root]# LANG=en [root@test root]# export LANG
|
- 例題一、搜尋特定字符串:
搜尋特定字符串很簡單吧?假設我們要從剛剛的檔案當中取得 the 這個特定字符串, 最簡單的方式就是這樣:
[root@test root]# grep -n 'the' regular_express.txt 8:I can't finish the test. 12:the symbol '*' is represented as start. 15:You are the best is mean you are the no. 1. 16:The world
is the same with "glad". 18:google is the best tools for search keyword.
[root@test root]# grep -vn 'the' regular_express.txt
[root@test root]# grep -in 'the' regular_express.txt 8:I can't finish the test. 9:Oh! The soup taste good. 12:the symbol '*' is represented as start. 14:The gd software is a library for drafting programs. 15:You are the best is mean you are the no. 1. 16:The world
is the same with "glad". 18:google is the best tools for search keyword. - 例題二、利用 [] 來搜尋集合字符
如果我想要搜尋 test 或 taste 這兩個單字時,可以發現到,其實她們有共通的 't?st' 存在~這個時候,我可以這樣來搜尋:
[root@test root]# grep -n 't[ae]st' regular_express.txt 8:I can't finish the test. 9:Oh! The soup taste good.
[root@test root]# grep -n 'oo' regular_express.txt 1:"Open Source" is a good mechanism to develop programs. 2:apple is my favorite food. 3:Football game is not use feet only. 9:Oh! The soup taste good. 18:google is the best tools for search keyword. 19:goooooogle yes!
[root@test root]# grep -n '[^g]oo' regular_express.txt 2:apple is my favorite food. 3:Football game is not use feet only. 18:google is the best tools for search keyword. 19:goooooogle yes!
至於第 19 行,同樣的,因爲 goooooogle 裏面的 oo 前面可能是 o ,例如: go(ooo)oogle ,所以,這一行也是符合需求的!
再來,假設我 oo 前面不想要有小寫字符,所以,我可以這樣寫 [^abcd....z]oo , 但是這樣似乎不怎麼方便,由於小寫字符的 ASCII 上編碼的順序是連續的, 因此,我們可以將之簡化爲底下這樣:
[root@test root]# grep -n '[^a-z]oo' regular_express.txt 3:Football game is not use feet only.
例如,我們要取得有數字的那一行,就這樣:
[root@test root]# grep -n '[0-9]' regular_express.txt 5:However, this dress is about $ 3183 dollars. 15:You are the best is mean you are the no. 1.
- 例題三、行首與行尾字符 ^ $:
我們在例題一當中,可以查詢到一行字符串裏面有 the 的,那如果我想要讓 the 只在行首列出呢? 這個時候就得要使用定位字符了!我們可以這樣做:
[root@test root]# grep -n '^the' regular_express.txt 12:the symbol '*' is represented as start.
[root@test root]# grep -n '^[a-z]' regular_express.txt 2:apple is my favorite food. 4:this dress doesn't fit me. 10:motorcycle is cheap than car. 12:the symbol '*' is represented as start. 18:google is the best tools for search keyword. 19:goooooogle yes!
[root@test root]# grep -n '^[^a-zA-Z]' regular_express.txt 1:"Open Source" is a good mechanism to develop programs. 20:# I am VBird
那如果我想要找出來,行尾結束爲小數點 (.) 的那一行,該如何處理:
[root@test root]# grep -n '\.$' regular_express.txt 1:"Open Source" is a good mechanism to develop programs. 2:apple is my favorite food. 3:Football game is not use feet only. 4:this dress doesn't fit me. 10:motorcycle is cheap than car. 11:This window is clear. 12:the symbol '*' is represented as start. 15:You are the best is mean you are the no. 1. 16:The world
is the same with "glad". 17:I like dog. 18:google is the best tools for search keyword.
[root@test root]# cat -A regular_express.txt However, this dress is about $ 3183 dollars.^M$
[root@test root]# grep -n '^$' regular_express.txt 21:
[root@test root]# cat /etc/syslog.conf [root@test root]# grep -v '^$' /etc/syslog.conf | grep -v '^#'
- 例題四、任意一個字符 . 與重複字符 *
在 bash 的章節當中,我們知道萬用字符 * 可以用來代表任意(0或多個)字符, 但是正則表達式並不是萬用字符,兩者之間是不相同的! 至於正則表達式當中的『 . 』則代表『絕對有一個任意字符』的意思!這樣講不好懂, 我們直接做個練習吧!假設我需要找出 g??d 的字符串,亦即共有四個字符, 起頭是 g 而結束是 d ,我可以這樣做:
[root@test root]# grep -n 'g..d' regular_express.txt 1:"Open Source" is a good mechanism to develop programs. 9:Oh! The soup taste good. 16:The world
is the same with "glad".
因爲 * 代表的是『重複 0 個或多個前面的 RE 字符』的意義, 因此,『o*』代表的是:『擁有空字符或一個 o 以上的字符』, 特別注意,因爲允許空字符(就是有沒有字符都可以的意思),因此, grep -n 'o*' regular_express.txt 將會把所有的數據都打印出來屏幕上!
那如果是『oo*』呢?則第一個 o 肯定必須要存在,第二個 o 則是可有可無的多個 o , 所以,凡是含有 o, oo, ooo, oooo 等等,都可以被列出來~
同理,當我們需要『至少兩個 o 以上的字符串』時,就需要 ooo* ,亦即是:
[root@test root]# grep -n 'ooo*' regular_express.txt 1:"Open Source" is a good mechanism to develop programs. 2:apple is my favorite food. 3:Football game is not use feet only. 9:Oh! The soup taste good. 18:google is the best tools for search keyword. 19:goooooogle yes!
[root@test root]# grep -n 'goo*g' regular_express.txt 18:google is the best tools for search keyword. 19:goooooogle yes!
[root@test root]# grep -n 'g*g' regular_express.txt 1:"Open Source" is a good mechanism to develop programs. 3:Football game is not use feet only. 9:Oh! The soup taste good. 13:Oh! My god! 14:The gd software is a library for drafting programs. 16:The world
is the same with "glad". 17:I like dog. 18:google is the best tools for search keyword. 19:goooooogle yes!
那該如何得到我們的 g....g 的需求呢?呵呵!就利用任意一個字符『.』啊! 亦即是:『g.*g』的作法,因爲 * 可以是 0 或多個重複前面的字符,而 . 是任意字符,所以: 『.* 就代表零個或多個任意字符』的意思啦!
[root@test root]# grep -n 'g.*g' regular_express.txt 1:"Open Source" is a good mechanism to develop programs. 14:The gd software is a library for drafting programs. 18:google is the best tools for search keyword. 19:goooooogle yes!
再出一題,如果我想要找出『任意數字』的行列呢?因爲僅有數字,所以就成爲:
[root@test root]# grep -n '[0-9][0-9]*' regular_express.txt 5:However, this dress is about $ 3183 dollars. 15:You are the best is mean you are the no. 1.
- 例題五、限定連續 RE 字符範圍 {}
在上個例題當中,我們可以利用 . 與 RE 字符及 * 來設定 0 個到無線多個重複字符, 那如果我想要限制一個範圍區間內的重複字符數呢?舉例來說,我想要找出兩個到五個 o 的連續字符串,該如何作?這時候就得要使用到限定範圍的字符 {} 了。 但因爲 { 與 } 的符號在 shell 是有特殊意義的,因此, 我們必須要使用跳脫字符 \ 來讓他失去特殊意義才行。
至於 {} 的語法是這樣的,假設我要找到兩個 o 的字符串,可以是:
[root@test root]# grep -n 'o\{2\}' regular_express.txt 1:"Open Source" is a good mechanism to develop programs. 2:apple is my favorite food. 3:Football game is not use feet only. 9:Oh! The soup taste good. 18:google is the best tools for search keyword. 19:goooooogle yes!
[root@test root]# grep -n 'go\{2,5\}g' regular_express.txt 18:google is the best tools for search keyword.
[root@test root]# grep -n 'go\{2,\}g' regular_express.txt 18:google is the best tools for search keyword. 19:goooooogle yes!
重要特殊字符(characters)
經過了上面的幾個簡單的範例,我們可以將基礎的正則表達式特殊字符彙整如下:
請特別留意的是,『正則表達式的特殊字符』 與一般在指令列輸入指令的『萬用字符』並不相同, 例如,在萬用字符當中,* 代表的是 0 ~ 無限多個字符的意思,但是在正則表達式當中, * 則是重複 0 到多個的前一個 RE 字符的意思~使用的意義並不相同,不要搞混了! (鳥哥我一開始摸正則表達式時就很容易搞混!因爲這裏是新手最容易搞錯的地方,特別小心啊!)
舉例來說,不支持正則表達式的 ls 這個工具中,若我們使用 『ls -l * 』 代表的是任意檔名的檔案,而 『ls -l a* 』代表的是以 a 爲開頭的任何檔名的檔案, 但在正則表達式中,我們要找到含有以 a 爲開頭的檔案,則必須要這樣:(需搭配支持正則表達式的工具)
RE 字符 | 意義與範例 |
^word | 待搜尋的字符串(word)在行首! |
範例:grep -n '^#' regular_express.txt 搜尋行首爲 # 開始的那一行! |
|
word$ | 待搜尋的字符串(word)在行尾! |
範例:grep -n '!$' regular_express.txt 將行尾爲 ! 的那一行打印出來! |
|
. | 代表『任意一個』字符,一定是一個任意字符! |
範例:grep -n 'e.e' regular_express.txt 搜尋的字符串可以是 (eve) (eae) (eee) (e e), 但不能僅有 (ee) !亦即 e 與 e 中間『一定』僅有一個字符,而空格符也是字符! |
|
\ | 跳脫字符,將特殊符號的特殊意義去除! |
範例:grep -n \' regular_express.txt 搜尋含有單引號 ' 的那一行! |
|
* | 重複零個或多個的前一個 RE 字符 |
範例:grep -n 'ess*' regular_express.txt 找出含有 (es) (ess) (esss) 等等的字符串,注意,因爲 * 可以是 0 個,所以 es 也是符合帶搜尋字符串。另外,因爲 * 爲重複『前一個 RE 字符』的符號, 因此,在 * 之前必須要緊接着一個 RE 字符喔!例如任意字符則爲 『.*』 ! |
|
\{n,m\} | 連續 n 到 m 個的『前一個 RE 字符』 若爲 \{n\} 則是連續 n 個的前一個 RE 字符, 若是 \{n,\} 則是連續 n 個以上的前一個 RE 字符! |
範例:grep -n 'go\{2,3\}g' regular_express.txt 在 g 與 g 之間有 2 個到 3 個的 o 存在的字符串,亦即 (goog)(gooog) |
|
[] | 字符集合的 RE 特殊字符的符號 |
[list] 範例:grep -n 'g[ld]' regular_express.txt 搜尋含有 (gl) 或 (gd) 的那一行~ 需要特別留意的是,在 [] 當中『謹代表一個待搜尋的字符』, 例如: a[afl]y 代表搜尋的字符串可以是 aay, afy, aly 亦即 [afl] 代表 a 或 f 或 l 的意思! [ch1-ch2] 範例:grep -n '[0-9]' regular_express.txt 搜尋含有任意數字的那一行!需特別留意,在字符集合 [] 中的減號 - 是有特殊意義的,他代表兩個字符之間的所有連續字符!但這個連續與否與 ASCII 編碼有關, 因此,您的編碼需要設定正確(在 bash 當中,需要確定 LANG 與 LANGUAGE 的變量是否正確!) 例如所有大寫字符則爲 [A-Z] [^] 範例:grep -n 'oo[^t]' regular_express.txt 搜尋的字符串可以是 (oog) (ood) 但不能是 (oot) ,那個 ^ 在 [] 內時, 代表的意義是『反向選擇』的意思~例如,我不要大寫字符,則爲 [^A-Z] ~ 但是,需要特別注意的是,如果以 grep -n [^A-Z] regular_express.txt 來搜尋, 卻發現該檔案內的所有行都被列出,爲什麼?因爲這個 [^A-Z] 是『非大寫字符』的意思, 因爲每一行均有非大寫字符,例如第一行的 "Open Source" 就有 p,e,n,o.... 等等的小寫字符, 以及雙引號 (") 等字符,所以當然符合 [^A-Z] 的搜尋! |
請特別留意的是,『正則表達式的特殊字符』 與一般在指令列輸入指令的『萬用字符』並不相同, 例如,在萬用字符當中,* 代表的是 0 ~ 無限多個字符的意思,但是在正則表達式當中, * 則是重複 0 到多個的前一個 RE 字符的意思~使用的意義並不相同,不要搞混了! (鳥哥我一開始摸正則表達式時就很容易搞混!因爲這裏是新手最容易搞錯的地方,特別小心啊!)
舉例來說,不支持正則表達式的 ls 這個工具中,若我們使用 『ls -l * 』 代表的是任意檔名的檔案,而 『ls -l a* 』代表的是以 a 爲開頭的任何檔名的檔案, 但在正則表達式中,我們要找到含有以 a 爲開頭的檔案,則必須要這樣:(需搭配支持正則表達式的工具)
- ls | grep -n '^a.*'
事實上,一般讀者只要瞭解基礎型的正則表達式大概就已經相當足夠了,不過,某些時刻, 爲了要簡化整個指令操作,瞭解一下使用範圍更廣的延伸型正則表達式的表示式,會更方便呢! 舉個簡單的例子好了,在上節的例題三的最後一個例子中,我們要去除空白行與行首爲 # 的行列, 使用的是
這裏必須要特別強調, grep 支持的是基礎型的正則表達式,而 egrep 支持延伸正則表達式。 事實上, egrep 是 grep -E 的命令別名,爲了方便使用,我們還是以 egrep 來跟 grep 區分吧!
熟悉了正則表達式之後,到這個延伸型的正則表達式,您應該也會想到, 不就是多幾個重要的特殊符號嗎? ^_^y 是的~所以,我們就直接來說明一下,延伸型正則表達式有哪幾個特殊符號?
以上這些就是延伸型的正則表達式的特殊字符。另外,要特別強調的是,那個 ! 在正則表達式當中並不是特殊字符, 所以,如果您想要查出來檔案中含有 ! 與 > 的字行時,可以這樣:
- grep -v '^$' regular_express.txt | grep -v '^#'
- egrep -v '^$|^#' regular_express.txt
這裏必須要特別強調, grep 支持的是基礎型的正則表達式,而 egrep 支持延伸正則表達式。 事實上, egrep 是 grep -E 的命令別名,爲了方便使用,我們還是以 egrep 來跟 grep 區分吧!
熟悉了正則表達式之後,到這個延伸型的正則表達式,您應該也會想到, 不就是多幾個重要的特殊符號嗎? ^_^y 是的~所以,我們就直接來說明一下,延伸型正則表達式有哪幾個特殊符號?
RE 字符 | 意義與範例 |
+ | 重複『一個或一個以上』的前一個 RE 字符 |
範例:egrep -n 'go+d' regular_express.txt 搜尋 (god) (good) (goood)... 等等的字符串。 那個 o+ 代表『一個以上的 o 』所以,上面的執行成果會將第 1, 9, 13 行列出來。 |
|
? | 『零個或一個』的前一個 RE 字符 |
範例:egrep -n 'go?d' regular_express.txt 搜尋 (gd) (god) 這兩個字符串。 那個 o? 代表『空的或 1 個 o 』所以,上面的執行成果會將第 13, 14 行列出來。 有沒有發現到,這兩個案例( 'go+d' 與 'go?d' )的結果集合與 'go*d' 相同? 想想看,這是爲什麼喔! ^_^ |
|
| | 用或( or )的方式找出數個字符串 |
範例:egrep -n 'gd|good' regular_express.txt 搜尋 gd 或 good 這兩個字符串,注意,是『或』! 所以,第 1,9,14 這三行都可以被打印出來喔!那如果還想要找出 dog 呢?就這樣啊: egrep -n 'gd|good|dog' regular_express.txt |
|
( ) | 找出『羣組』字符串 |
範例:egrep -n 'g(la|oo)d' regular_express.txt 搜尋 (glad) 或 (good) 這兩個字符串,因爲 g 與 d 是重複的,所以, 我就可以將 la 與 oo 列於 ( ) 當中,並以 | 來分隔開來,就可以啦! 此外,這個功能還可以用來作爲『多個重複羣組』的判別喔!舉例來說: echo 'AxyzxyzxyzxyzC' | egrep 'A(xyz)+C' 上面的例子當中,意思是說,我要找開頭是 A 結尾是 C ,中間有一個以上的 "xyz" 字符串的意思~ |
以上這些就是延伸型的正則表達式的特殊字符。另外,要特別強調的是,那個 ! 在正則表達式當中並不是特殊字符, 所以,如果您想要查出來檔案中含有 ! 與 > 的字行時,可以這樣:
- grep -n '[!>]' regular_express.txt