Linux命令三劍客:grep、sed、awk總結

前言

最近看到了幾篇關於linux命令grep、sed、awk的文章,這裏總結下,方便後面使用。

一、grep

grep命令(grep的全稱:Global search Regular Expression and Print out the line)主要用於文本內容的查找。它支持正則表達式查找。

命令語法

grep提供兩種方式:

◆ grep [option] [pattern] testfile
#第一種是從文本中直接使用pattern匹配搜索
◆ stdout | grep [option] [pattern]
#第二種是從標準輸出中處理 grep所提供的option(參數選項)

參數解釋:
在這裏插入圖片描述
在這裏插入圖片描述

實例

做一個最簡單的示例,如下先準備一個測試文件,內容如下:
在這裏插入圖片描述
從文本文件中搜索test字符串
在這裏插入圖片描述
可以看到包含有"test"的行被打印出來,默認grep是區分大小寫的。所以"Test","TEST"沒有被匹配出來。

如果想要不區分大小寫,我們可以加"-i"的參數。如下:
在這裏插入圖片描述當前我們的測試文本內容比較少,我們肉眼可以見到是在第幾行。如果文本行數較多的情況下那就不太方便了,這裏就可以用到"-n"的參數
shell三劍客之grep
包含有"test"的並且不區分大小寫的行在開頭會顯示行號,現在的結果中匹配的關鍵字所在行全部內容都會輸出。

如果只想要看到匹配的關鍵字,怎麼辦?使用"-o"參數即可
在這裏插入圖片描述

有時候我們需要對整個目錄去搜索關鍵字,如果直接使用grep “test” 目錄名,會報錯。加參數’-r’就可以避免這個問題
在這裏插入圖片描述
可以看到shellTest目錄下的兩支文件test1.txt以及testfile都包含test被打印出來了

“-q”選項表示使用靜默模式,在此模式下grep命令不會有任何的打印結果,無論是否有匹配到。一般來說我們可以根據echo $?來查看上一條指令(grep)的執行結果,如果返回結果爲0,表示grep有匹配到了,如果返回結果爲1,表示grep沒有匹配到。
在這裏插入圖片描述
一般我們可以shell腳本中去用if條件分支進行判斷,如果echo $?結果爲0,就去執行相應的操作。

grep結合pattern正則

前面我們介紹了參數的基本用法,grep的強大之處其實是和正則表達式一起纔有作用。

注:本篇文章不會具體介紹正則表達式的使用,如果不瞭解正則表達式的同學推薦去看下之前相關的文章
我們知道在正則表達式中分爲了兩類:

01 基本正則表達式

◆ . 單個字符
◆ * 表示前面的字符連續出現任意次,包括0次
◆ ^ 表示錨定行首
◆ $ 表示錨定行尾
◆ [a-z] [0-9] 區間範圍
......

02 擴展正則表達式

◆ ?表示匹配其前面的字符0或1次
◆ + 表示匹配其前面的字符至少1次,或者連續多次,連續次數上不封頂。
◆ () 分組
◆ {} 連續匹配
◆ | 匹配多個表達式的任何一個
......

如查詢以"lemon"單詞開頭
在這裏插入圖片描述
查找文件中空白行的數量
在這裏插入圖片描述

正則“^$”表示空白行,參數“-c”表達計算行數

連續字數的正則匹配,如:查找“appium”,p是連續的
在這裏插入圖片描述
“{2}”表示p連續出現了兩次,可以發現結果是匹配不到的。因爲{}是擴展正則表達式,grep默認是基本正則表達式,如果需要支持擴展正則表達式,我們需要加"-E"選項:
在這裏插入圖片描述

二、sed

sed命令主要用於文本內容的編輯。默認只處理模式空間,不處理原數據,而且sed是針對一行行數據來進行處理的。Stream Editor文本流編輯,是一個"非交互式的"面向字符流的編輯器。

常用功能
(1) 、打印功能
能同時處理多個文件多行內容,可以不對原文件改動把整個文件輸入到屏幕。
(2)、文本替換
把匹配到模式的內容輸入到屏幕上。
(3)、修改文本
可以對原文件改動,但是不會在屏幕上返回結果。(謹慎使用!!!)

總結:
Sed就是修改文本、替換文本、打印文本的一個工具。

執行流程:

Sed是從文件或管道中讀取一行,處理一行,輸出一行;再讀取一行,再處理一行,再輸出一行…當處理一行時,把當前處理的行存儲在臨時緩衝區中,稱爲模式空間(pattern space),接着用sed命令處理緩衝區中的內容,處理完成後,把緩衝區的內容送往屏幕。接着處理下一行,這樣不斷重複,直到文件末尾。如下,簡單流程圖。
在這裏插入圖片描述
補充:
一次處理一行的設計模式使得sed性能很高,sed在讀取大文件時不會出現卡頓的現象。

例如:使用vi命令打開幾十M上百M的文件,明顯會出現有卡頓的現象,這是因爲vi命令打開文件是一次性將文件加載到內存,然後再打開。Sed就避免了這種情況,一行一行的處理,打開速度非常快,執行速度也很快。

命令語法

Sed [選項] 編輯命令 文件
Shell 命令 | sed [選項] 編輯命令

常用選項

-n:只顯示匹配處理的行
-e:執行多個編輯命令(一般使用;代替)
-i:直接在文件中進行修改,不輸出到屏幕
-r:支持擴展正則表達式
-f:從腳本文件中讀取內容並執行文件中的編輯命令。
補充:這裏比較常用的-n -r -e(用;代替)

常用編輯命令:

p:打印匹配行
d:刪除匹配行
a:在定位行號後附加新文本信息
i:在定位行號後插入新文本信息
c:用新文本替換定位文本
r:從另一個文件中讀文本,類似輸入重定向(<)
w:寫文本到一個文件,類似輸出重定向(>)
s:使用替換模式替換相應模式
補充:這裏比較常用的p d s

案例

案例1:
n 一般和 p連用
//打印文件的3-6行,使用行號

odysee:~$sed -n '3,6p' /etc/passwd

在這裏插入圖片描述
//打印(^odysee)以odysee開頭的行,使用正則

sed -n '/^odysee/p' /etc/passwd

在這裏插入圖片描述

案例2:
參數d(刪除匹配行),不會改變原文件內容
//$表示最後一行,!表示取反,d刪除匹配行,p打印,;多個命令分割符
//連起來就是隻打印文件最後一行

sed -n '$!d;p' /etc/passwd

在這裏插入圖片描述
查看原文件,並沒有改變
在這裏插入圖片描述
案例3:

參數a(在定位行號後附加新文本信息)
//1a表示在第一行後面追加,也可使用正則

sed '1a abc' demo.txt

在這裏插入圖片描述
案例4:

參數i(在定位行號後插入新文本信息)
//1i:在第一行前插入,可以使用正則

sed '1i abc' demo.txt

在這裏插入圖片描述

三、awk

awk同sed命令類似,只不過sed擅長取行,awk命令擅長取列。(根據瞭解awk是一種語言,不過我們只關注他處理文本的功能,用的好的話幾乎可以取代excel)
原理:一般是遍歷一個文件中的每一行,然後分別對文件的每一行進行處理。
awk命令主要用於文本內容的分析處理。
如果對處理的數據需要生成報告之類的信息,或者處理的數據是按列進行處理的,最好使用awk。

命令語法

awk [可選的命令行選項] 'BEGIN{命令 } pattern{ 命令 } END{ 命令 }' 文件名

實例

打印某幾列

$ echo 'I love you' | awk '{print $3 $2 $1}'
youloveI

我們將字符串 I love you 通過管道傳遞給awk命令,相當於awk處理一個文件,該文件的內容就是I love you,默認通過空格作爲分隔符(不管列之間有多少個空格都將當作一個空格處理)I love you就分割成三列了。

假如分割符號爲.,可以這樣用

$ echo '192.168.1.1' | awk -F "." '{print $2}'
168

條件過濾

我們知道awk的用法是這樣的,那麼pattern部分怎麼用呢?

awk [可選的命令行選項] 'BEGIN{命令 } pattern{ 命令 } END{ 命令 }' 文件名
$ cat score.txt
tom 60 60 60
kitty 90 95 87
jack 72 84 99
$ awk '$2>=90{print $0}' score.txt
kitty 90 95 87

$2>=90 表示如果當前行的第2列的值大於90則處理當前行,否則不處理。說白了pattern部分是用來從文件中篩選出需要處理的行進行處理的,這部分是空的代表全部處理。pattern部分可以是任何條件表達式的判斷結果,例如>,<,==,>=,<=,!=同時還可以使用+,-,*,/運算與條件表達式相結合的複合表達式,邏輯 &&,||,!同樣也可以使用進來。另外pattern部分還可以使用 /正則/ 選擇需要處理的行。

判斷語句

判斷語句是寫在pattern{ 命令 }命令中的,他具備條件過濾一樣的作用,同時他也可以讓輸出更豐富

$ awk '{if($2>=90 )print $0}' score.txt
kitty 90 95 87
$ awk '{if($2>=90 )print $1,"優秀"; else print $1,"良好"}' score.txt
tom 良好
kitty 優秀
jack 良好

BEGIN 定義表頭

awk [可選的命令行選項] 'BEGIN{命令 } pattern{ 命令 } END{ 命令 }' 文件名

使用方法如下:

$ awk 'BEGIN{print "姓名 語文 數學 英語"}{printf "%-8s%-5d%-5d%-5d\n",$1,$2,$3,$4}' score.txt
姓名 語文數學英語
tom 60 60 60
kitty 90 95 87
jack 72 84 99

這裏要注意,我爲了輸出格式好看,做了左對齊的操作(%-8s左對齊,寬8位),printf用法和c++類似。

不僅可以用來定義表頭,還可以做一些變量初始化的工作,例如

$ awk 'BEGIN{OFMT="%.2f";print 1.2567,12E-2}'
1.26 0.12

這裏OFMT是個內置變量,初始化數字輸出格式,保留小數點後兩位。

END 添加結尾符

和BEGIN用法類似

$ echo ok | awk '{print $1}END{print "end"}'
ok
end

數據計算

這個地方我要放大招了!上面的知識點你都記住了嗎?

$ awk 'BEGIN{print "姓名 語文 數學 英語 總成績"; \
sum1=0;sum2=0;sum3=0;sumall=0} \
{printf "%5s%5d%5d%5d%5d\n",$1,$2,$3,$4,$2+$3+$4;\
sum1+=$2;sum2+=$3;sum3+=$4;sumall+=$2+$3+$4}\
END{printf "%5s%5d%5d%5d%5d\n","總成績",sum1,sum2,sum3,sumall}'\
 score.txt
姓名 語文 數學 英語 總成績
 tom 60 60 60 180
kitty 90 95 87 272
 jack 72 84 99 255
總成績 222 239 246 707

因爲命令太長,末尾我用\符號換行了。。

  • BEGIN體裏我輸出了表頭,並給四個變量初始化0
  • pattern體裏我輸出了每一行,並累加運算
  • END體裏我輸出了總統計結果
  • 當然了,一個正常人在用linux命令的時候是不會輸入那麼多格式化符號來對齊的,所以新命令又來了
  • column -t(鬼知道我爲什麼會記得這麼多亂七八糟的命令。)
    在這裏插入圖片描述
    有用的內置變量

NF:表示當前行有多少個字段,因此$NF就代表最後一個字段
NR:表示當前處理的是第幾行
FILENAME:當前文件名
OFMT:數字輸出的格式,默認爲%.6g。表示只打印小數點後6 位

$ awk -F ':' '{print NR ") " $1}' demo.txt
1) root
2) daemon
3) bin
4) sys
5) sync

內置函數

awk定義了很多內置函數,用awk來寫shell腳本倒是一個不錯的選擇,但是大多數我們是用不上的,以下是常用函數

$ echo 1 2 | awk '{print $1+sqrt($2)}'
2.41421

隨機數,先設置種子再隨機

rand() 0 <= n < 1,srand([expr]) |將 rand 函數的種子值設置爲 Expr 參數的值,或如果省略 Expr 參數則使用某天的時間。

$ echo 1 | awk 'BEGIN{srand()}{print rand()}'
0.929885

字符串
Linux三劍客傳 | 老大:AWK

系統常用
在這裏插入圖片描述

不常用算數:
在這裏插入圖片描述

參考:
https://www.toutiao.com/i6741262116495294987/
https://www.toutiao.com/a6726544069754880523/
https://www.toutiao.com/a6675158518468706829/
https://www.toutiao.com/a6705966822589465100/

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章