正規表示法(Regular Expression,RE)是透過一些特殊字符的排列,用以[搜尋/取代/刪除]一列或多列文字字符串,簡單的說,正規表示法就是用在字符串的處理上面的一項“表達式”。如果想要以正規表示法的方式處理字符串,就要使用支持正規表示法的工具程序,例如 vi,grep,sed,awk等。但是像cp,ls等指令並不支持正規表示法,所以就只能使用bash自己本身的通配符。
注意:
- 正規表示法與通配符是完全不一樣的東西
因爲通配符(wildcard)代表的是bash操作接口的一個功能,但正規表示法則是一種字符串處理的的表示方式。兩者要分清楚啊~- 語系對正規表示法有影響
因此在使用正規表示法時,要特別留意當時環境的語系爲何,否則可能會發現與別人不相同的擷取結果。
下面關於正規表示法的練習和舉例,都使用我們熟悉的grep來展示,grep是一個擷取命令,如果你不瞭解grep,可以從這篇小文章裏簡單瞭解一些Linux 之 Bash -- 管線命令
grep 的一些進階選項
之所以這麼說,是因爲Linux 之 Bash -- 管線命令裏面都沒有提到~~
工作模式:grep [-A] [-B] [--color=auto]'搜尋字符串' filename
-A
後面可加數字,爲after的意思,除了列出該行外,後面的n行也列出來
-B
後面可加數字,爲before的意思,除了列出該行外,前面的n行也列出來
--color=auto
可將正確的那個擷取數據列出顏色
1.基礎正規表示法
下面總結了一個精簡的基礎正規表示法的字符表格,不過不要侷限於其中的範例啊,還要根據實際情況靈活改變,它的價值可遠不止於此~
表達式 | 描述 | 範例 |
---|---|---|
^ | 行首標記 | ^test 匹配以 test 起始的行 |
$ | 行尾標記 | test$ 匹配以 test 結尾的行 |
. | 任意字符 |
t.t 匹配任意代替. 的一個字母(它就是英文狀態的句號),如txt,但不能是兩個字母如text |
[] | 匹配其中任意一個 |
t[ex]t 匹配 tet 或 txt |
[^] | 除了其中任意一個 |
te[^xt] 除了 tet 和 txt 不能匹配,其他任意 |
[a-d] | 匹配指定範圍內任一個 | 能匹配a,b,c,d中任意一個字母 |
{n} | 匹配之前n項 |
grep -w '[0-9]\{2\}' filename 擷取存在兩位數字的文本行 |
{n,m} | 最少匹配n次,最多m次 |
[0-9]\{2,4\} 匹配2位數到4位數 |
{n, } | 至少匹配前面n次 |
[0-9]\{n, \} 匹配至少是兩位數的 |
* | 匹配之前多個或沒有 |
tx*t 匹配 tt 或 txt/txxt/txxxt/... |
\ | 轉義(向來放在特殊符號前,* + ?等) | 如bio\ +info 匹配bio+info |
[^]
表示反向選擇
[^a-z]
表示非小寫字母
^[]
表示定位在行首
^[a-z]
表示行首非小寫字母
^$
表示空白行
g..d
代表共4個字符,開頭爲g,結尾爲d(.代表絕對有一個任意字符)
g.*g
代表g開頭且g結尾的字符串
[0-9][0-9]*
表示任意數字
go\{2,5\}g
表示g後面接2-5個o和一個g的字符串(因爲{}
在shell中有特殊意義,所以用\
來跳脫。這也是爲什麼👆表格的大括號{}
都寫成了\{\}
)
ls -l . | grep '^l'
列出當前目錄下的鏈接文檔
(利用了鏈接文檔的一個特性,其標頭會是 lrwxrwxr)
再次提醒:正則表達式的 原字符
*
和 通配符*
不是一回事哦
- 通配符中,它代表0-無窮多個字符
- 正規表達式中,它代表匹配0-無窮多個的前一個RE字符
2.延伸正規表示法
一般來講,瞭解基礎型的正規表示法已經能夠幫助我們解決很多問題了。不過,某些時刻爲了要簡化整個指令操作,使用範圍更廣的延伸型正規表示法的表示式會更加方便。
eg:延伸型正規表示法可以透過羣組功能‘|’來進行一次搜尋,其中的管道符|
意義爲“或 or”。不過,grep預設僅支持基礎正規表示法,如果要使用延伸型正規表示法,可以使用grep -E 或者 egrep。我覺得後者使用起來更方便哦(不用來回切換大小寫~)
表達式 | 描述 | 範例 |
---|---|---|
+ | 匹配之前1個或多個 |
tx+t 匹配 txt 或 txxt/txxxt/... |
? | 匹配之前1個或沒有 |
te?xt 只能匹配 txt 或 text |
| |
用或的方式找出字符串 |
gd|god|good 匹配gd,god,good |
() | 匹配括號中的字符串 |
bio(info)? 匹配 bio 或 bioinfo |
()+ | 多個重複羣組的判別 |
A(xyz)+C 匹配AxyzC或AxyzxyzC等... |