Shell腳本——正則表達式(一)

正則表達式的概念

正則表達式:使用單個字符串來描述、匹配一系列符合某個句法規則的字符串
由普通字符與特殊字符組成,一般用在腳本編程、文本編輯器中,如php、python、she等,簡寫爲regex、regexp、 用來檢索、替換符合模式的文本,具有強大的文本匹配功能
能夠在文本海洋中快速高效地處理本文

基礎正則表達式

正則表達式的字符串表達方法根據不同的嚴謹程度與功能分爲基本正則表達式與擴展正則表達式。基礎正則表達式是常用的正則表達式的最基礎的部分。在 Linux 系統中常見的文件處理工具中 grep 與 sed 支持基礎正則表達式,而 egrep 與 awk 支持擴展正則表達式。

元字符總結

$   匹配輸入字符串的結尾位置。如果設置了 RegExp 對象的 Multiline 屬性,則“$”也匹配‘\n’
或‘\r’。要匹配“$”字符本身,請使用“\$”
.   匹配除“\r\n”之外的任何單個字符
\   將下一個字符標記爲特殊字符、原義字符、向後引用、八進制轉義符。例如,‘n’匹配字符“n”。 ‘\n’匹配換行符。序列‘\\’匹配“\”,而‘\(’則匹配“(”
*   匹配前面的子表達式零次或多次。要匹配“*”字符,請使用“\*”
[]  字符集合。匹配所包含的任意一個字符。例如,“[abc]”可以匹配“plain”中的“a”
[^] 賦值字符集合。匹配未包含的一個任意字符。例如,“[^abc]”可以匹配“plain”中“plin”中的任何一個字母
[n1-n2] 字符範圍。匹配指定範圍內的任意一個字符。例如,“[a-z]”可以匹配“a”到“z”範圍內的任意一個小寫字母字符。
注意:只有連字符(-)在字符組內部,並且出現在兩個字符之間時,才能表示字符的範圍;如
果出現在字符組的開頭,則只能表示連字符本身
{n} n 是一個非負整數,匹配確定的 n 次。例如,“o{2}”不能匹配“Bob”中的“o”,但是能匹配“food”中的兩個 o
{n,}    n 是一個非負整數,至少匹配 n 次。例如,“o{2,}”不能匹配“Bob”中的“o”,但能匹配“foooood”中的所有 o。“o{1,}”等價於“o+”。“o{0,}”則等價於“o*”
{n,m}   m 和n 均爲非負整數,其中 n<=m,最少匹配 n 次且最多匹配 m 次

Linux文本處理工具

grep(過濾,但是不支持正則表達式)
egrep(支持正則表達式)
sed (行過濾)
awk(列過濾)

實際操作演示


首先我們創建並命名操作所需要的測試文件爲test.txt文件內容如下

1)、 查找特定字符
查找特定字符非常簡單,如執行以下命令即可從 test.txt 文件中查找出特定字符“god” 所在位置。其中“-n”表示顯示行號、“-i”表示不區分大小寫。命令執行後,符合匹配標準的字符,字體顏色會變爲紅色

[root@localhost ~]# grep -n 'god' test.txt  //過濾txt文件中有'god'的單詞並顯示行數
8:god
16:abcgo
[root@localhost ~]# 
[root@localhost ~]# grep -in 'god' test.txt //過濾文件中以大寫或者小寫爲開頭的'god'單詞並顯示行數
8:god
15:God
16:abcgod

2)、 利用中括號“[]”來查找集合字符

[root@localhost ~]# grep -n 'go[bc]l' test.txt 
12:gobl
13:gocl

若要查重複單詞

[root@localhost ~]# grep -n 'oo' test.txt 
9:good
10:goooood

若要實現反向查找的話只需要通過集合字符的反向選擇“[^]”來實現目的

[root@localhost ~]# grep -n '[^g]oo' test.txt //過濾不以“g”爲開頭但是帶有“oo”的單詞
2:loood
3:lood

若不希望“oo”前面存在小寫字母,可以使用“grep –n‘[^a-z]oo’test.txt”命令實現,其中“a-z”表示小寫字母,大寫字母則通過“A-Z”表示。

[root@localhost ~]# grep -n '[^a-z]oo' test.txt 
5:Goood
6:Good
[root@localhost ~]# grep -n '[^A-Z]oo' test.txt 
2:loood
3:lood
4:good

查找包含數字的行可以通過“grep –n‘[0-9]’test.txt”命令來實現

[root@localhost ~]# grep -n '[0-9]' test.txt 
10:abc12345
12:12345

3)、查找行首“^”與行尾字符“$”

[root@localhost ~]# grep -n '^g' test.txt   //查看以“g”爲開頭的單詞
1:gd
4:good
7:gola
8:gobl
9:gocl
[root@localhost ~]# grep -n 'l$' test.txt    //查看以“l”結尾的單詞
8:gobl
9:gocl
**若要查詢以小寫字母開頭的行可以通過'^[a-z]'規則來過濾,查詢大寫字母開頭的行則使用“^[A-Z]”規則,若查詢不以字母開頭的行則使用“^[^a-zA-Z]”規則。**
[root@localhost ~]# grep -n '^[a-z]' test.txt  //過濾以小寫字母爲開頭的單詞
1:gd
2:loood
3:lood
4:good
7:gola
8:gobl
9:gocl
10:abc12345
[root@localhost ~]# grep -n '^[A-Z]' test.txt //過濾以大寫字母爲開頭的單詞
5:Goood
6:Good
11:God
[root@localhost ~]# grep -n '^[^a-zA-Z]' test.txt //過濾不以字母開頭規則
12:12345

執行以下命令即可實現查詢以小數點(.)結尾的行。因爲小數點(.) 在正則表達式中也是一個元字符,所以在這裏需要用轉義字符“\”將具有特 殊意義的字符轉化成普通字符。

[root@localhost ~]# grep -n '\.$' test.txt 
abc12345.
God.
12345.

當查詢空白行時,執行“grep –n‘^$’test.txt”命令即可

[root@localhost ~]# grep -n '^$' test.txt 
15:

*4)、查找任意一個字符“.”與重複字符“”,例如, 執行以下命令就可以查找“g??l”的字符串,即共有四個字符,以 g 開頭 l 結尾。**

[root@localhost ~]# grep -n 'g..l' test.txt 
8:gobl
9:gocl

若想要查詢 oo、ooo、ooooo 等資料,則需要使用星號 () 元字符。但需要注意的是,“”代表的是重複零個或多個前面的單字符。“o”表示擁有零個(即爲空字符)或大於等於一個“o”的字符,因爲允許空字符,所以執行“grep –n‘o’test.txt”命令會將文本中所有的內容都輸出打印。如果是“oo”, 則第一個 o 必須存在,第二個 o 則是零個或多個 o,所以凡是包含 o、oo、ooo、ooo,等的資料都符合標準。同理,若查詢包含至少兩個 o 以上的字符串,則執行“grep –n‘ooo’ test.txt”命令即可。

示例

[root@localhost ~]# grep -n 'ooo*' test.txt 
2:loood
3:lood
4:good
5:Goood
6:Good

查詢以 g 開頭 l 結尾,中間包含至少一個 o 的字符串,執行以下命令即可實現

[root@localhost ~]# grep -n 'goo*d' test.txt 
4:good
5:gooood
6:goood

查詢以 g 開頭 d 結尾,中間的字符可有可無的字符串

[root@localhost ~]# grep -n 'g.*d' test.txt 
1:gd
4:good
5:gooood
6:goood

查詢任意數字所在行

[root@localhost ~]# grep -n '[0-9][0-9]*' test.txt 
12:abc12345.
14:12345.

5)查找連續字符範圍“{}”
我們使用“.”與“*”來設定零個到無限多個重複的字符,“{}”在 Shell 中具有特殊 意義,所以在使用“{}”字符時,需要利用轉義字符“\”,將“{}”字符轉換成普通字符。
(1)查詢兩個 o 的字符

[root@localhost ~]# grep -n 'o\{2\}' test.txt 
2:loood
3:lood
4:good
5:gooood
6:goood
7:Goood
8:Good

(2)查詢以 g 開頭以 l 結尾,中間包含 2~5 個 o 的字符串

[root@localhost ~]# grep -n 'go\{2,5\}d' test.txt 
4:good
5:goooood
6:goood

(3)查詢以 w 開頭以 d 結尾,中間包含 2 以上 o 的字符串

[root@localhost ~]# grep -n 'go\{2,\}d' test.txt 
4:good
5:goooood
6:goood

擴展正則表達式

egrep 命令是一個搜索文件獲得模式,使用該命令可以搜索文件中的任意字符串和符號,也可以搜索一個或多個文件的字符串,一個提示符可以是單個字符、一個字符串、一個字或一個句子。

+   作用:重複一個或者一個以上的前一個字符

示例:執行“egrep -n 'wo+d' test.txt”命令,即可查詢"wood" "woood" "woooooood"等字符串
?   作用:零個或者一個的前一個字符

示例:執行“egrep -n 'bes?t' test.txt”命令,即可查詢“bet”“best”這兩個字符串
|   作用:使用或者(or)的方式找出多個字符

示例:執行“egrep -n 'of|is|on' test.txt”命令即可查詢"of"或者"if"或者"on"字符串
()  作用:查找“組”字符串
示例:“egrep -n 't(a|e)st' test.txt”。“tast”與“test”因爲這兩個單詞的“t”與“st”是重複的,所以將“a”與“e”列於“()”符號當中,並以“|”分隔,即可查詢"tast"或者"test"字符串
()+ 作用:辨別多個重複的組

示例:“egrep -n 'A(xyz)+C' test.txt”。該命令是查詢開頭的"A"結尾是"C",中間有一個以上的 "xyz"字符串的意思

示例

重複一個或者一個以上的前一個字符

[root@localhost ~]# egrep -n 'go+d' test.txt 
4:good
5:goooood
6:goood

零個或者一個的前一個字符

[root@localhost ~]# egrep -n 'go?d' test.txt 
1:gd

使用或者(or)的方式找出多個字符

[root@localhost ~]# egrep -n 'ol|ob' test.txt 
9:gola
10:gobl

查找“組”字符串

[root@localhost ~]# egrep -n 'go(b|c)l' test.txt 
10:gobl
11:gocl

辨別多個重複的組

[root@localhost ~]# egrep -n 'g(abc)+d' test.txt 
2:gabcd
3:gabcabcd

sed工具

sed是一個強大而簡單的文本解析轉換工具,可以讀取文本,並根據指定的條件對文本內容進行編輯(刪除、替換、添加、移動等),最後輸出所有行或者僅輸出處理的某些行。sed 也可以在無交互的情況下實現相當複雜的文本處理操作,被廣泛應用於 Shell 腳本中,用以完成各種自動化處理任務。
sed 的工作流程主要包括讀取、執行和顯示三個過程。
讀取:sed 從輸入流(文件、管道、標準輸入)中讀取一行內容並存儲到臨時的緩

衝區中(又稱模式空間,pattern space)。
執行:默認情況下,所有的 sed 命令都在模式空間中順序地執行,除非指定了行的地址,否則 sed 命令將會在所有的行上依次執行。
顯示:發送修改後的內容到輸出流。再發送數據後,模式空間將會被清空。
在所有的文件內容都被處理完成之前,上述過程將重複執行,直至所有內容被處理完。

1. sed 命令常見用法
通常情況下調用 sed 命令有兩種格式,如下所示。其中,“參數”是指操作的目標文件,當存在多個操作對象時用,文件之間用逗號“,”分隔;而 scriptfile 表示腳本文件,需要用“-f”選項指定,當腳本文件出現在目標文件之前時,表示通過指定的腳本文件來處理輸入的目標文件。
sed格式
sed[選項] '操作' 參數
sed [選項] -f scriptfile 參數

常見的 sed 命令選項主要包含以下幾種。
-e 或--expression=:表示用指定命令或者腳本來處理輸入的文本文件。
-f 或--file=:表示用指定的腳本文件來處理輸入的文本文件。
-h 或--help:顯示幫助。
-n、--quiet 或 silent:表示僅顯示處理後的結果。
-i:直接編輯文本文件。

如果在行與行之間操作,常見的操作包括以下幾種。
a:增加,在當前行下面增加一行指定內容。
c:替換,將選定行替換爲指定內容。
d:刪除,刪除選定的行。
i:插入,在選定行上面插入一行指定內容。

p:打印,如果同時指定行,表示打印指定行;如果不指定行,則表示打印所有內容;如果有非打印字符,則以 ASCII 碼輸出。其通常與“-n”選項一起使用。
s:替換,替換指定字符。
y:字符轉換。

輸出符合條件的文本(p 表示正常輸出)

[root@localhost ~]# sed -n 'p' test.txt   //輸出所有內容
godg
gabcd
gabcabcd
.....//省略部分內容
abc12345.
God.
12345.
[root@localhost ~]# sed -n '3p' test.txt  //輸出第3行內容
gabcabcd
[root@localhost ~]# sed -n '3,5p' test.txt   //輸出3~5行內容
gabcabcd
good
goooood
[root@localhost ~]# sed -n 'p;n' test.txt   //輸出奇數行的內容
godg
gabcabcd
goooood
Goood
gola
gocl
God.
[root@localhost ~]# sed -n 'n;p' test.txt  //輸出偶數行的內容
gabcd
good
goood
Good
gobl
abc12345.
12345.
[root@localhost ~]# sed -n '1,5{p;n}' test.txt   //輸出1~5行內奇數行
godg
gabcabcd
goooood
[root@localhost ~]# sed -n '10,${n;p}' test.txt  //輸出尾10行的偶數行 
gocl
God.

以上是 sed 命令的基本用法,sed 命令結合正則表達式時,格式略有不同,正則表達式以“/”包圍。以下是 sed 命令與正則表達式結合使用的示例。

[root@localhost ~]# sed -n '/goo/p' test.txt  //輸出包含"goo"的單詞
good
goooood
goood
[root@localhost ~]# sed -n '4,/go/p' test.txt   //輸出
good
goooood
[root@localhost ~]# sed -n '/go/=' test.txt   //輸出包含"go"的所在行行數
1
4
5
6
9
10
11
[root@localhost ~]# sed -n '/^G/=' test.txt   //輸入以"G"開開頭的行數
7
8
13
[root@localhost ~]# sed -n '/\<good\>/p' test.txt   //輸出包含單詞"good"的行數
good

2)刪除符合條件的文本(d)

[root@localhost ~]# nl test.txt | sed '3d'  //刪除了第三行
     1  godg
     2  gabcd
     4  good
     5  goooood
     6  goood
     7  Goood
[root@localhost ~]# nl test.txt | sed '3,5d' //刪除第3行和第5行
     1  godg
     2  gabcd
     6  goood
     7  Goood
     8  Good
     9  gola
[root@localhost ~]# nl test.txt | sed '/good/d '   //刪除"good"單詞的行
     1  godg
     2  gabcd
     3  gabcabcd
     5  goooood
     6  goood
     7  Goood
[root@localhost ~]# sed '/^[a-z]/d' test.txt   //刪除以小寫字母開頭的
Goood
Good
God.
12345.
[root@localhost ~]# sed '/\.$/d' test.txt   //刪除以"."爲結尾的字母
godg
gabcd
gabcabcd
good
goooood
goood
Goood
Good
gola
gobl
gocl
[root@localhost ~]# sed '/^$/d' test.txt   //刪除空行
godg
gabcd
gabcabcd
good
goooood
goood
Goood
Good
gola
gobl
gocl
abc12345.
God.
12345.

3)替換符合條件的文本

sed 's/the/THE/' test.txt   //將每行中的第一個the 替換爲 THE 
sed 's/l/L/2' test.txt  //將每行中的第 3 個l 替換爲L 
sed 's/the/THE/g' test.txt  //將文件中的所有the 替換爲THE
sed 's/o//g' test.txt   //將文件中的所有o 刪除(替換爲空串)
sed 's/^/#/' test.txt   //在每行行首插入#號
sed '/the/s/^/#/' test.txt      //在包含the 的每行行首插入#號
sed 's/$/EOF/' test.txt     //在每行行尾插入字符串EOF 
sed '3,5s/the/THE/g' test.txt   //將第 3~5 行中的所有the 替換爲 THE
sed '/the/s/o/O/g' test.txt //將包含the 的所有行中的o 都替換爲 O

4)遷移符合條件的文本

sed '/the/{H;d};$G' test.txt    //將包含the 的行遷移至文件末尾,{;}用於多個操作
sed '1,5{H;d};17G' test.txt //將第 1~5 行內容轉移至第 17 行後
sed '/the/w out.file' test.txt  //將包含the 的行另存爲文件out.file
sed '/the/r /etc/hostname' test.txt //將文件/etc/hostname 的內容添加到
//包含the 的每行以後
sed '3aNew' test.txt        //在第 3 行後插入一個新行,內容爲 New 
sed '/the/aNew' test.txt    //在包含the 的每行後插入一個新行,內容爲 New
sed '3aNew1\nNew2' test.txt //在第 3 行後插入多行內容,中間的\n 表示換行

5)使用腳本編輯文件

[root@localhost ~]# sed '1,5{H;d};7G' test.txt   //將1~5行內容轉移至第七行之後
goood
Goood

godg
gabcd
gabcabcd
good
goooood
Good
gola
gobl
gocl
abc12345.
God.
12345.
[root@localhost ~]# vim local_only_ftp.sh #!/bin/bash
# 指定樣本文件路徑、配置文件路徑
SAMPLE="/usr/share/doc/vsftpd-3.0.2/EXAMPLE/INTERNET_SITE/vsftpd.conf " 
CONFIG="/etc/vsftpd/vsftpd.conf"
# 備份原來的配置文件,檢測文件名爲/etc/vsftpd/vsftpd.conf.bak 備份文件是否存在, 若不存在則使用 cp 命令進行文件備份 
[ ! -e "$CONFIG.bak" ] && cp $CONFIG $CONFIG.bak # 基於樣本配置進行調整,覆蓋現有文件
sed -e '/^anonymous_enable/s/YES/NO/g' $SAMPLE > $CONFIG
sed -i -e '/^local_enable/s/NO/YES/g' -e '/^write_enable/s/NO/YES/g' $CONFIG grep "listen" $CONFIG || sed -i '$alisten=YES' $CONFIG
# 啓動vsftpd 服務,並設爲開機後自動運行
 systemctl restart vsftpd
systemctl enable vsftpd

awk工具

在 Linux/UNIX 系統中,awk 是一個功能強大的編輯工具,逐行讀取輸入文本,並根據指定的匹配模式進行查找,對符合條件的內容進行格式化輸出或者過濾處理,可以在無交互的情況下實現相當複雜的文本操作,被廣泛應用於 Shell 腳本,完成各種自動化配置任務。
1. awk 常見用法
通常情況下 awk 所使用的命令格式如下所示,其中,單引號加上大括號“{}”用於設置對數據進行的處理動作。awk 可以直接處理目標文件,也可以通過“-f”讀取腳本對目標文件進行處理。

awk 選項 '模式或條件 {編輯指令}' 文件 1 文件 2 „   //過濾並輸出文件符條件的內容
awk -f 腳本文件 文件 1 文件 2 „ //從腳本中調用編輯指令,過濾並輸出內容

若需要查找出/etc/passwd 的用戶名、用戶 ID、組 ID 等列, 執行以下 awk 命令即可

[root@localhost ~]# awk -F ':' '{print $1,$3,$5}' /etc/passwd
root 0 root
bin 1 bin
daemon 2 daemon
....//省略部分
awk 包含幾個特殊的內建變量(可直接用)如下所示:
    FS:指定每行文本的字段分隔符,默認爲空格或製表位。

    NF:當前處理的行的字段個數。
    NR:當前處理的行的行號(序數)。
    $0:當前處理的行的整行內容。
    $n:當前處理行的第 n 個字段(第 n 列)。
    FILENAME:被處理的文件名。
    RS:數據記錄分隔,默認爲\n,即每行爲一條記錄。
  1. 用法示例
    1)按行輸出文本
awk '{print}' test.txt       //輸出所有內容,等同於 cat test.txt
awk '{print $0}' test.txt   //輸出所有內容,等同於 cat test.txt
awk 'NR==1,NR==3{print}' test.txt   //輸出第 1~3 行內容
awk '(NR>=1)&&(NR<=3){print}' test.txt  //輸出第 1~3 行內容
awk 'NR==1||NR==3{print}' test.txt  //輸出第 1 行、第 3 行內容
awk '(NR%2)==1{print}' test.txt //輸出所有奇數行的內容
awk '(NR%2)==0{print}' test.txt //輸出所有偶數行的內容
awk '/^root/{print}' /etc/passwd    //輸出以root 開頭的行
awk '/nologin$/{print}' /etc/passwd//輸出以 nologin 結尾的行
awk 'BEGIN {x=0} ; /\/bin\/bash$/{x++};END {print x}' /etc/passwd
//統計以/bin/bash 結尾的行數,等同於 grep -c "/bin/bash$" /etc/passwd 
awk 'BEGIN{RS=""};END{print NR}' /etc/squid/squid.conf
//統計以空行分隔的文本段落數

2)按字段輸出文本

awk '{print $3}' test.txt   //輸出每行中(以空格或製表位分隔)的第 3 個字段
awk '{print $1,$3}' test.txt    //輸出每行中的第 1、3 個字段
awk -F ":" '$2==""{print}' /etc/shadow //輸出密碼爲空的用戶的shadow 記錄
awk 'BEGIN {FS=":"}; $2==""{print}' /etc/shadow
//輸出密碼爲空的用戶的shadow 記錄
awk -F ":" '$7~"/bash"{print $1}' /etc/passwd
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章