grep 工具實用頁

這次講的是 bash 命令行中的外部命令 grep 的一些事情。

歷史 1

grep是一個最初用於 Unix 操作系統的 命令行 工具。在給出文件列表或 標準輸入 後,grep會對匹配一個或多個 正則表達式 的文本進行搜索,並只輸出匹配(或者不匹配)的行或文本。

grep這個應用程序最早由 肯·湯普遜 寫成。grep原先是ed下的一個應用程序,名稱來自於g/re/p(globally search a regular expression and print,以正規表示法進行全局查找以及打印)。在ed下,輸入g/re/p這個命令後,會將所有匹配先定義樣式的字符串,以行爲單位打印出來。

在1973年,Unix第四版中,grep首次出現在man頁面中。

以上主要來自維基中。

功能

grep 使用正則表達式搜索文本,並把匹配的行打印出來。作爲輸入的文本,可以來自標準輸入,也可以來自(任意多個、通配符表示的)文件,新版本的 grep 也支持面向當前目錄的子文件夾遍歷所有文件進行正則式匹配和搜索。

grep 的典型選項包括有:

模式選擇和解釋:

-E 將範本樣式爲延伸的普通表示法來使用,意味着使用能使用擴展正則表達式。(extended regular expression)
-F 將範本樣式視爲固定字符串的列表。(newline-separated strings)
-G 將範本樣式視爲基本正則式來使用。(basic regular expression)
-P 將範本樣式視爲Perl的表示法來使用。(Perl regular expression)
-e<範本樣式> 指定字符串作爲查找文件內容的範本樣式。
-f<範本文件> 指定範本文件,其內容有一個或多個範本樣式,讓grep查找符合範本條件的文件內容,格式爲每一列的範本樣式。
-i 忽略字符大小寫的差別。
-w 只顯示全字符合的列。
-x 只顯示全列符合的列。

雜類:

-v 反轉查找。
-s 不顯示錯誤信息。

輸出控制:

-b 顯示輸出行的從文件開始起的字節偏移量。
-c 計算符合範本樣式的列數。
-h 在顯示符合範本樣式的那一列之前,不標示該列所屬的文件名稱。
-H 在顯示符合範本樣式的那一列之前,標示該列的文件名稱。
-l 列出文件內容符合指定的範本樣式的文件名稱。
-L 列出文件內容不符合指定的範本樣式的文件名稱。
-n 在顯示符合範本樣式的那一列之前,標示出該列的編號。
-o 只輸出文件中匹配到的部分。
-q 不顯示任何信息。
-R/-r 此參數的效果和指定“-d recurse”參數相同。

內容控制:

-B<顯示列數> 除了顯示符合範本樣式的那一行之外,並顯示該行之前的內容。
-A<顯示列數> 除了顯示符合範本樣式的那一行之外,並顯示該行之後的內容。
-C<顯示列數>或-<顯示列數> 除了顯示符合範本樣式的那一列之外,並顯示該列之前後的內容。

詳細的選項請參考 grep --help 的輸出。

Usage: grep [OPTION]... PATTERN [FILE]...
Search for PATTERN in each FILE.
Example: grep -i 'hello world' menu.h main.c

完整的參考手冊請通過命令行 man grepinfo grep 來檢索。

基本用法 2

在文件中搜索一個單詞,命令會返回一個包含“match_pattern”的文本行:

grep match_pattern file_name
grep 'match_pattern' file_name
grep "match_pattern" file_name
上面三個命令對於grep來說是等效的。其區別在於,單引號可以防止 match_pattern 中出現空格的情況,且禁止bash嵌套計算(例如 $var 變量嵌入),而雙引號在具備單引號的效果的同時也支持 bash 變量展開、bash 命令嵌套計算、bash 算術表達式計算和展開等等。

在多個文件中查找:

grep "match_pattern" file_1 file_2 file_3 ...

輸出除之外的所有行 -v 選項:

grep -v "match_pattern" file_name

再如

ps -auxef|grep java|grep -v grep

這裏的 grep -v grep 表示從前面的結果(所有的java運行實例)中排除 帶有grep文字的實例。實際上,這是爲了將 grep java 這條命令的實例給排除掉,這樣我們就會獲得純粹的 java 運行實例了。

標記匹配顏色 --color=auto 選項:

grep "match_pattern" file_name --color=auto

使用正則表達式 -E 選項:

grep -E "[1-9]+"
# 或
egrep "[1-9]+"
egrep 表示使用 Extended 正則表達式語法。

只輸出文件中匹配到的部分 -o 選項:

echo this is a test line. | grep -o -E "[a-z]+\."
line.

echo this is a test line. | egrep -o "[a-z]+\."
line.

統計文件或者文本中包含匹配字符串的行數 -c 選項:

grep -c "text" file_name

輸出包含匹配字符串的行數 -n 選項:

grep "text" -n file_name
或
cat file_name | grep "text" -n

#多個文件
grep "text" -n file_1 file_2

打印樣式匹配所位於的字符或字節偏移:

echo gun is not unix | grep -b -o "not"
7:not

#一行中字符串的字符便宜是從該行的第一個字符開始計算,起始值爲0。選項 -b -o 一般總是配合使用。

搜索多個文件並查找匹配文本在哪些文件中:

grep -l "text" file1 file2 file3...

grep遞歸搜索文件

在多級目錄中對文本進行遞歸搜索:

grep "text" . -r -n
# .表示當前目錄。

忽略匹配樣式中的字符大小寫:

echo "hello world" | grep -i "HELLO"
hello

選項 -e 制動多個匹配樣式:

echo this is a text line | grep -e "is" -e "line" -o
is
line

#也可以使用-f選項來匹配多個樣式,在樣式文件中逐行寫出需要匹配的字符。
cat patfile
aaa
bbb

echo aaa bbb ccc ddd eee | grep -f patfile -o

在grep搜索結果中包括或者排除指定文件:

#只在目錄中所有的.php和.html文件中遞歸搜索字符"main()"
grep "main()" . -r --include *.{php,html}

#在搜索結果中排除所有README文件
grep "main()" . -r --exclude "README"

#在搜索結果中排除filelist文件列表裏的文件
grep "main()" . -r --exclude-from filelist

使用0值字節後綴的 grep 與 xargs

#測試文件:
echo "aaa" > file1
echo "bbb" > file2
echo "aaa" > file3

grep "aaa" file* -lZ | xargs -0 rm
#執行後會刪除file1和file3,grep輸出用-Z選項來指定以0值字節作爲終結符文件名(\0),xargs -0 讀取輸入並用0值字節終結符分隔文件名,然後刪除匹配文件,-Z通常和-l結合使用。

grep靜默輸出:

grep -q "test" filename
#不會輸出任何信息,如果命令運行成功返回0,失敗則返回非0值。一般用於條件測試。

打印出匹配文本之前或者之後的行:

#顯示匹配某個結果之後的3行,使用 -A 選項:
seq 10 | grep "5" -A 3
5
6
7
8

#顯示匹配某個結果之前的3行,使用 -B 選項:
seq 10 | grep "5" -B 3
2
3
4
5

#顯示匹配某個結果的前三行和後三行,使用 -C 選項:
seq 10 | grep "5" -C 3
2
3
4
5
6
7
8

#如果匹配結果有多個,會用“--”作爲各匹配結果之間的分隔符:
echo -e "a\nb\nc\na\nb\nc" | grep a -A 1
a
b
--
a
b

grep -P 表示啓用perl語法規則。此時你可以使用 Perl 正則式語法來編寫規則。

Perl 正則式語法,又被稱作 PCRE表達式,可以參考 Wiki 的PCRE表達式全集

常見的慣用法

find text string recursively

在一個文件夾中,我不知道哪些文件包含了 fantasy 文字描述,可以這樣找:

grep -PHni 'fantasy' * -r

這條命令會列舉當前文件夾中所有內容包含fantasy的文件,將它們的文件名和包含fantasy文字的行及其行號都列舉出來。

如果你還需要看看匹配文字的前後上下文,可以用:

grep -PHni 'fantasy' * -r -C 3

-P 表示使用 Perl 正則式語法

-H 表示打印出匹配行所在的文件名

-n 表示打印出匹配行的行號

-i 表示忽略大小寫

-C 3 表示前後三行都列舉出來。

-B 3 表示前面三行也被列舉出來。

-A 3 表示後面三行也被列舉出來。

find ip address

使用 -o 參數時,grep 常常被用於抽取特定模式的文字內容,而不是將整個匹配行進行輸出。

例如:

$ ip addr
1: lo: <LOOPBACK,UP,LOWER_UP> mtu 65536 qdisc noqueue state UNKNOWN group default qlen 1000
    link/loopback 00:00:00:00:00:00 brd 00:00:00:00:00:00
    inet 127.0.0.1/8 scope host lo
       valid_lft forever preferred_lft forever
2: ens3: <BROADCAST,MULTICAST,UP,LOWER_UP> mtu 1500 qdisc mq state UP group default qlen 1000
    link/ether 56:00:01:c6:ab:01 brd ff:ff:ff:ff:ff:ff
    inet 217.179.87.159/23 brd 217.179.87.255 scope global dynamic ens3
       valid_lft 63125sec preferred_lft 63125sec
3: ens7: <BROADCAST,MULTICAST> mtu 1500 qdisc noop state DOWN group default qlen 1000
    link/ether 5a:00:01:c6:ab:01 brd ff:ff:ff:ff:ff:ff

$ ip addr | grep -Po 'inet \d+\.\d+\.\d+\.\d+' | grep -v 'inet 127' | grep -Po '\d+.+'
217.179.87.159

在這裏其中表達式一會抽出 'inet xxxxxx' 的兩行內容,形如:

inet 127.0.0.1
inet 217.179.87.159

表達式二會將 127.0.0.1 行排除掉,表達式三去掉inet前綴,最後就得到了我們想要的IP地址了。

想要抽取 IPv6 的地址也可以用相似的辦法。

當然,表達式三針對 'inet 217.179.87.159' 進行抽取是比較累的方法,實際上這裏我們會採用 awk來切掉前半部分:awk '{print $2}'。這個短語按照空格將輸入文本切分成 n 個小段,$2 表示的是第二段也就是我們想要的 IP 地址了。

ports

如果想要找出當前主機中監聽端口的服務,可以利用 lsof 命令的輸出:

$ sudo lsof -Pni|grep LISTEN
sshd        858              root    3u  IPv4    19572      0t0  TCP *:22 (LISTEN)
sshd        858              root    4u  IPv6    19582      0t0  TCP *:22 (LISTEN)
nginx      6170              root    9u  IPv4 53951827      0t0  TCP *:443 (LISTEN)
nginx      6170              root   10u  IPv4 53951828      0t0  TCP *:8060 (LISTEN)
nginx      6170              root   11u  IPv4 53951829      0t0  TCP *:80 (LISTEN)

據此,我們可以寫出一個常用命令函數 ports,並將其放在 .bashrc 文件中,於是我們可以簡便地檢視端口號了。這個函數可以這麼寫:

ports () {
    local x=$1
    if [ "$x" == "" ]; then
        sudo lsof -Pni|grep -P 'LISTEN|UDP'
    else
        sudo lsof -Pni|grep -P 'LISTEN|UDP'|grep ":$x"
    endif
}

然後我們可以這麼使用它:

ports
ports 443
ports 22
注意,你最好將自己的 Linux 賬戶調整爲免密碼sudo的,否則使用 ports 時可能需要輸入自己的密碼來獲得 sudo 身份。當然,如果只想檢查自己啓動的服務的端口號的話,可以去掉sudo指令。

has-user, has-group

如何檢測一個linux賬戶有否存在呢?

Linux中沒有通用的命令專門用於此項檢測。通常像useradd之類的命令會在用戶存在時返回失敗,但這並非恰當的檢測方法。

爲了達到目的,我們只能自行解釋 /etc/passwd 文件。這個文件會羅列系統中所有的賬戶,其格式形如這樣:

root:x:0:0:root:/root:/bin/bash
daemon:x:1:1:daemon:/usr/sbin:/usr/sbin/nologin
bin:x:2:2:bin:/bin:/usr/sbin/nologin
sys:x:3:3:sys:/dev:/usr/sbin/nologin
sync:x:4:65534:sync:/bin:/bin/sync
...

所以,判斷一個用戶是否存在,只需判斷第一項字段就可以了。

很明顯,awk適合做這事:

$ cat /etc/passwd|awk -F: '{print $1}'
root
daemon
bin
sys
sync

不過本文中還是要用grep來解決問題:

has-user() {
    local name=${1:-root}
    cat /etc/passwd|grep -q "^$name"
}

has-user 'joe' && echo 'joe exists' || 'joe not exists'

類似的,我們還可以定義相似的函數 has-group:

has-group () {
    local name=${1:-root}
    cat /etc/group|grep -q "^$name"
}

has-group staff && echo 'staff group exists' || echo 'staff group not exists'

更多

下面,我們給出一些實用的例子:

function find_ip () { ip addr|grep -Poi "inet ((192.168.\d+.\d+)|(172.\d+.\d+.\d+)|(10.\d+.\d+.\d+))"|grep -Poi "\d+.\d+.\d+.\d+"; }

function find_ip_uniq () { ip addr|grep -Poi "inet ((192.168.\d+.\d+)|(172.\d+.\d+.\d+)|(10.\d+.\d+.\d+))"|grep -Poi "\d+.\d+.\d+.\d+"|grep -v '\.255'|head -n1; }

genpasswd(){ strings /dev/urandom|grep -oP '[[:alnum:]]|[\#\%\@\&\^]'|head -n "${1:-16}"|tr -d '\n';echo;}

結束語

grep 和 awk,sed 是 Linux 的三大工具,很大程度上代表的 Linux 的設計哲學,即小巧、專注、組合。使用 grep 這樣的工具最大的技巧就在於對目標行爲進行分解:拿到源文本,篩選源文本,構造結果輸出。

本文也只是講解到了基本的用法部分,打開思路還是要看你自己的聰明才智。

參考


  1. https://zh.wikipedia.org/wiki...
  2. http://man.linuxde.net/grep> ...
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章