Linux的文本處理工具及grep正則表達式的使用

文本處理工具及grep正則表達式的使用

本章節學習的內容:

1、各種文本工具來查看、分析、統計文本文件

2、grep正則表達式

3、擴展正則表達式

一、抽取文本的工具:

1、按文件內容:less和cat

2、按文件截取:head和tail

3、按列抽取:cut

4、按關鍵字抽取:grep

二、文件查看命令:cat, tac,rev

1、命令cat:

(1)文件目錄下直接查看:#cat file

(2)指明文件的路徑查看:#cat /PATH/file

(3)cat的常用選項:

-E: 顯示行結束符$

-n: 對顯示出的每一行進行編號

-A:顯示所有控制符

-b:非空行編號

-s:壓縮連續的空行成一行

2、命令tac:

該命令使用的結果與cat相反,cat是從頭部向尾部顯示,而tac是從尾部向頭部顯示,如下圖:

blob.png

3、rev命令:

將原來每一行的內容直接360度反轉排序顯示,如下圖:

blob.png

三、分頁查看文件內容、文本前或後行內容顯示:

1、分頁查看文件內容:more與less

(1)命令more: 分頁查看文件

#more file 或 #more /PATH/file

選項: -d: 顯示翻頁及退出提示

該命令只能支持往下翻頁查看。

(2)命令less:一頁一頁地查看文件或STDIN輸出

查看時有用的命令包括:

/ :文本搜索文本

n/N :跳到下一個or 上一個匹配

less命令是man命令使用的分頁器

該命令能夠支持來回翻頁查看。

2、文本前/後內容顯示:

(1)命令head:

命令使用格式:head [OPTION]… [FILE]…

常用選項:

-c #: 指定獲取前#字節

-n #: 指定獲取前#行

-#:指定行數

(2)命令tail:

命令使用格式:tail [OPTION]… [FILE]…

常用選項:

-c #: 指定獲取後#字節

-n #: 指定獲取後#行

-#:

-f: 跟蹤顯示文件新追加的內容,常用日誌監控

**eg:用於監控日誌文件的最新內容,而不顯示舊內容以及不影響終端的操作,可以使用如下命令:

#tail -n0 -f /PATH/file.log &

(當需要終止時,可以使用命令#jobs 查看;然後將執行上面命令所對應的進程編號,使用命令#fg number來結束監控更新)

四、按列抽取文本cut和合並文件paste:

1、命令cut:

(1)命令使用格式:cut [OPTION]… [FILE]…

(2)常用選項:

-d DELIMITER: 指明分隔符,默認tab

-f #: 抽取第#個字段

  #,#[,#]:離散的多個字段,例如1,3,6

  #-#:連續的多個字段, 例如1-6(-f1-6)

  混合使用:1-3,7(-f1-3,7)

-c按字符切割

–output-delimiter=STRING指定輸出分隔符(cut -d: -f1,3 –output-delimiter=* /PATH/file  使用cut以:爲分隔符抽取文本的第一列和第三列,抽取結果輸出以*分隔開來。 )

(3)顯示文件或STDIN數據的指定列

cut -d: -f1/etc/passwd  抽取文本passwd以:爲分隔符的第一列內容

cat /etc/passwd|cut -d: -f7  將cat命令讀取到passwd的文本內容傳遞給cut以:爲分隔符抽取第七列內容

cut -c2-5/usr/share/dict/words 將words文本內容使用cut命令抽取第2-5個字符列的內容

2、命令paste:

(2)paste 合併兩個文件同行號的列到一行

命令使用格式:paste [OPTION]… [FILE]…

常用選項:

-d 分隔符:指定分隔符,默認用TAB

-s : 所有行合成一行顯示

paste f1 f2

blob.png

paste -s f1 f2

blob.png

五、分析文本的工具:

1、文本數據統計:wc

2、整理文本:sort

3、比較文件:diff和patch

→→收集文本統計數據wc:

(1)wc:計數單詞總數、行總數、字節總數和字符總數

eg:#wc ip 

10 10 115 ip 單詞總數、行總數、字節總數 文件名

blob.png

(2)常用選項:

-l :只計數行數

-w :只計數單詞總數

-c :只計數字節總數

-m :只計數字符總數

→→文本排序sort:

把整理過的文本顯示在STDOUT,不改變原始文件

(1)命令使用格式:#sort[options]file(s)

(2)常用選項:

-r :執行反方向(由上至下)整理

-n :執行按數字大小整理

-f :選項忽略(fold)字符串中的字符大小寫

-u :選項(獨特,unique)刪除輸出中的重複行

-t c :選項使用c做爲字段界定符

-k X :選項按照使用c字符分隔的X列來整理能夠使用多次

→→uniq:

uniq命令:從輸入中刪除重複的前後相接的行

(1)命令使用格式:uniq[OPTION]… [FILE]…

(2)常用格式選項:

-c: 顯示每行重複出現的次數;

-d: 僅顯示重複過的行;

-u: 僅顯示不曾重複的行(連續且完全相同方爲重複,常和sort 命令配合使用:sort userlist.txt | uniq-c)

→→比較文件:常用來比較兩個文本內容的差異。

比較下面的兩個文件之間的區別:

$diff file1 file2

2c2

<use_widgets=no

>use_widgets=yes

** 註明第2行有區別(改變)

diff命令的輸出被保存在一種叫做“補丁”的文件中,使用-u選項來輸出“統一的(unified)”diff格式文件,最適用於補丁文件。

→→複製對文件改變:patch命令複製在其它文件中進行的改變(要謹慎使用!)

-b選項適合用戶來自動備份改變了的文件

$diff -u file1 file2 > file3

$patch file1 file3 (此恢復操作,將備份的file3通過對比file1,把file2的內容恢復並命名爲file1,而file1被改名成file1.orig,後面通過命令將兩個文件改名即可完成了文件的恢復)


***重點來啦***

前面認識和學習了簡單的文本抽取工具,下面一起來認識功能更加強大的grep正則表達式,grep是一款文本搜索工具,根據用戶指定的“模式”對目標文本逐行進行匹配檢查;打印匹配到的行。

在Linux上有文本處理三劍客,它們分別是:grep,sed,awk。

1、下面先來簡單認識它們的功能:

grep是一款文本過濾工具;

sed是一款文本編輯的工具;

awk是一款文本報告生成器。

2、認識grep的使用格式:

命令使用格式:grep [OPTIONS] PATTERN [FILE…]

eg:事例認識grep的使用

#grep root /etc/passwd   過濾文本passwd中帶有root爲string的內容進行匹配打印輸出。

blob.png

#grep "$USER" /etc/passwd 對比 #grep '$USER' /etc/passwd :前一命令中的“$USER”是一個變量,grep以該變量爲string進行匹配文本passwd進行打印輸出;而第二個命令中的‘$USER’是一個字符串,grep以該字符串去匹配文本passwd打印輸出。

blob.png

blob.png

#grep `whoami` /etc/passwd grep以變量`whoami`進行匹配文本passwd進行打印輸出。

blob.png

2、下面認識grep命令的常用選項:

-v: 顯示不能夠被pattern匹配到的行;

-i: 忽略字符大小寫

-n:顯示匹配的行號

-c: 統計匹配的行數

-o: 僅顯示匹配到的字符串;

-q: 靜默模式,不輸出任何信息,此時如果想知道命令是否執行成功,可以使用命令#$?查看,數字爲1時則失敗,   爲0時則成功。

-A #:after, 後#行

-B #: before, 前#行

-C #:context, 前後各#行

-e:實現多個選項間的邏輯or關係(grep –e ‘cat ’ -e ‘dog’ file)

-w:整行匹配整個單詞

元字符分類:字符匹配、匹配次數、位置錨定、分組

3、grep基本正則表達式及egrep擴展正則表達式的元字符:

. :匹配任意單個字符;

[] :匹配指定範圍內的任意單個字符

[^] :匹配指定範圍外的任意單個字符

同時也支持字符表的使用,如:[:digit:]、[:lower:]、[:upper:]、[:alpha:]、[:alnum:]、[:punct:]、[:space:]

4、grep的正則表達式-次數匹配與egrep擴展正則表達式的對比:

##grep的次數匹配:

*:匹配前面的字符任意次,包括0次(貪婪模式:儘可能長的匹配)

.*:任意長度的任意字符

\?:匹配其前面的字符0或1次

\+:匹配其前面的字符至少1次

\{m\}:匹配前面的字符m次

\{m,n\}:匹配前面的字符至少m次,至多n次

\{,n\}:匹配前面的字符至多n次

\{m,\}:匹配前面的字符至少m次

grep正則表達式的分組:詳見下面的使用實例。

\(\)

##egrep的次數匹配:

*:匹配前面字符任意次

?: 0或1次

+:1次或多次

{m}:匹配m次

{m,n}:至少m,至多n次

egrep正則表達式的位置錨定:

^ :行首

$ :行尾

\<, \b :語首

\>, \b :語尾

egrep正則表達式的分組:

()

後向引用:\1, \2, …

egrep正則表達式的或者:

a|b

C|cat: C或cat

(C|c)at:Cat或cat

5、grep正則表達式的分組:

將一個或多個字符捆綁在一起,當作一個整體進行處理,如:\(root\)\+

分組括號中的模式匹配到的內容會被正則表達式引擎記錄於內部的變量中,這些變量的命名方式爲: \1, \2, \3, …

\1: 從左側起,第一個左括號以及與之匹配右括號之間的模式所匹配到的字符;

實例:\(string1\+\(string2\)*\)

\1: string1\+\(string2\)*

\2: string2

至此,我們學習了文本的抽取處理工具以及grep正則表達式的使用,好好動手去搗鼓一番吧,go,go……!!





發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章