Linux - 正規表示法

正規表示法(Regular Expression,RE)是透過一些特殊字符的排列,用以[搜尋/取代/刪除]一列或多列文字字符串,簡單的說,正規表示法就是用在字符串的處理上面的一項“表達式”。如果想要以正規表示法的方式處理字符串,就要使用支持正規表示法的工具程序,例如 vi,grep,sed,awk等。但是像cp,ls等指令並不支持正規表示法,所以就只能使用bash自己本身的通配符。

注意:

  • 正規表示法與通配符是完全不一樣的東西
    因爲通配符(wildcard)代表的是bash操作接口的一個功能,但正規表示法則是一種字符串處理的的表示方式。兩者要分清楚啊~
  • 語系對正規表示法有影響
    因此在使用正規表示法時,要特別留意當時環境的語系爲何,否則可能會發現與別人不相同的擷取結果。

下面關於正規表示法的練習和舉例,都使用我們熟悉的grep來展示,grep是一個擷取命令,如果你不瞭解grep,可以從這篇小文章裏簡單瞭解一些Linux 之 Bash -- 管線命令

grep 的一些進階選項
之所以這麼說,是因爲Linux 之 Bash -- 管線命令裏面都沒有提到~~
工作模式:grep [-A] [-B] [--color=auto]'搜尋字符串' filename
-A 後面可加數字,爲after的意思,除了列出該行外,後面的n行也列出來
-B 後面可加數字,爲before的意思,除了列出該行外,前面的n行也列出來
--color=auto 可將正確的那個擷取數據列出顏色

1.基礎正規表示法

下面總結了一個精簡的基礎正規表示法的字符表格,不過不要侷限於其中的範例啊,還要根據實際情況靈活改變,它的價值可遠不止於此~

表達式 描述 範例
^ 行首標記 ^test 匹配以 test 起始的行
$ 行尾標記 test$ 匹配以 test 結尾的行
. 任意字符 t.t匹配任意代替.的一個字母(它就是英文狀態的句號),如txt,但不能是兩個字母如text
[] 匹配其中任意一個 t[ex]t匹配 tet 或 txt
[^] 除了其中任意一個 te[^xt] 除了 tet 和 txt 不能匹配,其他任意
[a-d] 匹配指定範圍內任一個 能匹配a,b,c,d中任意一個字母
{n} 匹配之前n項 grep -w '[0-9]\{2\}' filename 擷取存在兩位數字的文本行
{n,m} 最少匹配n次,最多m次 [0-9]\{2,4\} 匹配2位數到4位數
{n, } 至少匹配前面n次 [0-9]\{n, \}匹配至少是兩位數的
* 匹配之前多個或沒有 tx*t 匹配 tt 或 txt/txxt/txxxt/...
\ 轉義(向來放在特殊符號前,* + ?等) bio\ +info 匹配bio+info

[^]表示反向選擇
[^a-z]表示非小寫字母
^[]表示定位在行首
^[a-z]表示行首非小寫字母
^$表示空白行
g..d代表共4個字符,開頭爲g,結尾爲d(.代表絕對有一個任意字符)
g.*g代表g開頭且g結尾的字符串
[0-9][0-9]*表示任意數字
go\{2,5\}g 表示g後面接2-5個o和一個g的字符串(因爲{}在shell中有特殊意義,所以用\來跳脫。這也是爲什麼👆表格的大括號{}都寫成了\{\}
ls -l . | grep '^l'列出當前目錄下的鏈接文檔
(利用了鏈接文檔的一個特性,其標頭會是 lrwxrwxr)

再次提醒:正則表達式的 原字符*通配符* 不是一回事哦

  • 通配符中,它代表0-無窮多個字符
  • 正規表達式中,它代表匹配0-無窮多個的前一個RE字符

2.延伸正規表示法

一般來講,瞭解基礎型的正規表示法已經能夠幫助我們解決很多問題了。不過,某些時刻爲了要簡化整個指令操作,使用範圍更廣的延伸型正規表示法的表示式會更加方便。
eg:延伸型正規表示法可以透過羣組功能‘|’來進行一次搜尋,其中的管道符|意義爲“或 or”。不過,grep預設僅支持基礎正規表示法,如果要使用延伸型正規表示法,可以使用grep -E 或者 egrep。我覺得後者使用起來更方便哦(不用來回切換大小寫~)

表達式 描述 範例
+ 匹配之前1個或多個 tx+t 匹配 txt 或 txxt/txxxt/...
匹配之前1個或沒有 te?xt 只能匹配 txt 或 text
| 用或的方式找出字符串 gd|god|good匹配gd,god,good
() 匹配括號中的字符串 bio(info)? 匹配 bio 或 bioinfo
()+ 多個重複羣組的判別 A(xyz)+C 匹配AxyzC或AxyzxyzC等...
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章