文章目錄

二、sed

三、awk

前言

最近看到了幾篇關於linux命令grep、sed、awk的文章，這裏總結下，方便後面使用。

一、grep

grep命令（grep的全稱：Global search Regular Expression and Print out the line）主要用於文本內容的查找。它支持正則表達式查找。

命令語法

grep提供兩種方式：

◆ grep [option] [pattern] testfile
#第一種是從文本中直接使用pattern匹配搜索
◆ stdout | grep [option] [pattern]
#第二種是從標準輸出中處理 grep所提供的option(參數選項)

參數解釋：

實例

做一個最簡單的示例，如下先準備一個測試文件，內容如下：

從文本文件中搜索test字符串

可以看到包含有"test"的行被打印出來，默認grep是區分大小寫的。所以"Test","TEST"沒有被匹配出來。

如果想要不區分大小寫，我們可以加"-i"的參數。如下：
當前我們的測試文本內容比較少，我們肉眼可以見到是在第幾行。如果文本行數較多的情況下那就不太方便了，這裏就可以用到"-n"的參數

包含有"test"的並且不區分大小寫的行在開頭會顯示行號，現在的結果中匹配的關鍵字所在行全部內容都會輸出。

如果只想要看到匹配的關鍵字，怎麼辦？使用"-o"參數即可

有時候我們需要對整個目錄去搜索關鍵字，如果直接使用grep “test” 目錄名，會報錯。加參數’-r’就可以避免這個問題

可以看到shellTest目錄下的兩支文件test1.txt以及testfile都包含test被打印出來了

“-q”選項表示使用靜默模式，在此模式下grep命令不會有任何的打印結果，無論是否有匹配到。一般來說我們可以根據echo $?來查看上一條指令（grep）的執行結果，如果返回結果爲0，表示grep有匹配到了，如果返回結果爲1，表示grep沒有匹配到。

一般我們可以shell腳本中去用if條件分支進行判斷，如果echo $?結果爲0，就去執行相應的操作。

grep結合pattern正則

前面我們介紹了參數的基本用法，grep的強大之處其實是和正則表達式一起纔有作用。

注：本篇文章不會具體介紹正則表達式的使用，如果不瞭解正則表達式的同學推薦去看下之前相關的文章
我們知道在正則表達式中分爲了兩類：

01 基本正則表達式

◆ . 單個字符
◆ * 表示前面的字符連續出現任意次，包括0次
◆ ^ 表示錨定行首
◆ $ 表示錨定行尾
◆ [a-z] [0-9] 區間範圍
......

02 擴展正則表達式

◆ ？表示匹配其前面的字符0或1次
◆ + 表示匹配其前面的字符至少1次，或者連續多次，連續次數上不封頂。
◆ () 分組
◆ {} 連續匹配
◆ | 匹配多個表達式的任何一個
......

如查詢以"lemon"單詞開頭

查找文件中空白行的數量

正則“^$”表示空白行，參數“-c”表達計算行數

連續字數的正則匹配，如：查找“appium”，p是連續的

“{2}”表示p連續出現了兩次，可以發現結果是匹配不到的。因爲{}是擴展正則表達式，grep默認是基本正則表達式，如果需要支持擴展正則表達式，我們需要加"-E"選項：

二、sed

sed命令主要用於文本內容的編輯。默認只處理模式空間，不處理原數據，而且sed是針對一行行數據來進行處理的。Stream Editor文本流編輯，是一個"非交互式的"面向字符流的編輯器。

常用功能
(1) 、打印功能
能同時處理多個文件多行內容，可以不對原文件改動把整個文件輸入到屏幕。
(2)、文本替換
把匹配到模式的內容輸入到屏幕上。
(3)、修改文本
可以對原文件改動，但是不會在屏幕上返回結果。(謹慎使用！！！)

總結：
Sed就是修改文本、替換文本、打印文本的一個工具。

執行流程：

Sed是從文件或管道中讀取一行，處理一行，輸出一行；再讀取一行，再處理一行，再輸出一行…當處理一行時，把當前處理的行存儲在臨時緩衝區中，稱爲模式空間（pattern space），接着用sed命令處理緩衝區中的內容，處理完成後，把緩衝區的內容送往屏幕。接着處理下一行，這樣不斷重複，直到文件末尾。如下，簡單流程圖。

補充：
一次處理一行的設計模式使得sed性能很高，sed在讀取大文件時不會出現卡頓的現象。

例如：使用vi命令打開幾十M上百M的文件，明顯會出現有卡頓的現象，這是因爲vi命令打開文件是一次性將文件加載到內存，然後再打開。Sed就避免了這種情況，一行一行的處理，打開速度非常快，執行速度也很快。

命令語法

Sed [選項] 編輯命令 文件
Shell 命令 | sed [選項] 編輯命令

常用選項

-n：只顯示匹配處理的行
-e：執行多個編輯命令(一般使用;代替)
-i：直接在文件中進行修改，不輸出到屏幕
-r：支持擴展正則表達式
-f：從腳本文件中讀取內容並執行文件中的編輯命令。
補充：這裏比較常用的-n -r -e(用;代替)

常用編輯命令：

p：打印匹配行
d：刪除匹配行
a：在定位行號後附加新文本信息
i：在定位行號後插入新文本信息
c：用新文本替換定位文本
r：從另一個文件中讀文本，類似輸入重定向(<)
w：寫文本到一個文件，類似輸出重定向(>)
s：使用替換模式替換相應模式
補充：這裏比較常用的p d s

案例

案例1：
n 一般和 p連用
//打印文件的3-6行，使用行號

odysee:~$sed -n '3,6p' /etc/passwd

//打印(^odysee)以odysee開頭的行，使用正則

sed -n '/^odysee/p' /etc/passwd

案例2：
參數d(刪除匹配行)，不會改變原文件內容
//$表示最後一行，!表示取反，d刪除匹配行，p打印，;多個命令分割符
//連起來就是隻打印文件最後一行

sed -n '$!d;p' /etc/passwd

查看原文件，並沒有改變

案例3：

參數a(在定位行號後附加新文本信息)
//1a表示在第一行後面追加，也可使用正則

sed '1a abc' demo.txt

案例4：

參數i(在定位行號後插入新文本信息)
//1i：在第一行前插入，可以使用正則

sed '1i abc' demo.txt

三、awk

awk同sed命令類似，只不過sed擅長取行，awk命令擅長取列。（根據瞭解awk是一種語言，不過我們只關注他處理文本的功能，用的好的話幾乎可以取代excel）
原理：一般是遍歷一個文件中的每一行，然後分別對文件的每一行進行處理。
awk命令主要用於文本內容的分析處理。
如果對處理的數據需要生成報告之類的信息，或者處理的數據是按列進行處理的，最好使用awk。

命令語法

awk [可選的命令行選項] 'BEGIN{命令 } pattern{ 命令 } END{ 命令 }' 文件名

實例

打印某幾列

$ echo 'I love you' | awk '{print $3 $2 $1}'
youloveI

我們將字符串 I love you 通過管道傳遞給awk命令，相當於awk處理一個文件，該文件的內容就是I love you,默認通過空格作爲分隔符(不管列之間有多少個空格都將當作一個空格處理)I love you就分割成三列了。

假如分割符號爲.，可以這樣用

$ echo '192.168.1.1' | awk -F "." '{print $2}'
168

條件過濾

我們知道awk的用法是這樣的，那麼pattern部分怎麼用呢？

awk [可選的命令行選項] 'BEGIN{命令 } pattern{ 命令 } END{ 命令 }' 文件名
$ cat score.txt
tom 60 60 60
kitty 90 95 87
jack 72 84 99
$ awk '$2>=90{print $0}' score.txt
kitty 90 95 87

$2>=90 表示如果當前行的第2列的值大於90則處理當前行，否則不處理。說白了pattern部分是用來從文件中篩選出需要處理的行進行處理的，這部分是空的代表全部處理。pattern部分可以是任何條件表達式的判斷結果，例如>，<，==，>=，<=，!=同時還可以使用+，-，*，/運算與條件表達式相結合的複合表達式，邏輯 &&，||，!同樣也可以使用進來。另外pattern部分還可以使用 /正則/ 選擇需要處理的行。

判斷語句

判斷語句是寫在pattern{ 命令 }命令中的，他具備條件過濾一樣的作用，同時他也可以讓輸出更豐富

$ awk '{if($2>=90 )print $0}' score.txt
kitty 90 95 87
$ awk '{if($2>=90 )print $1,"優秀"; else print $1,"良好"}' score.txt
tom 良好
kitty 優秀
jack 良好

BEGIN 定義表頭

awk [可選的命令行選項] 'BEGIN{命令 } pattern{ 命令 } END{ 命令 }' 文件名

使用方法如下：

$ awk 'BEGIN{print "姓名 語文 數學 英語"}{printf "%-8s%-5d%-5d%-5d\n",$1,$2,$3,$4}' score.txt
姓名 語文數學英語
tom 60 60 60
kitty 90 95 87
jack 72 84 99

這裏要注意，我爲了輸出格式好看，做了左對齊的操作(%-8s左對齊，寬8位)，printf用法和c++類似。

不僅可以用來定義表頭，還可以做一些變量初始化的工作，例如

$ awk 'BEGIN{OFMT="%.2f";print 1.2567,12E-2}'
1.26 0.12

這裏OFMT是個內置變量，初始化數字輸出格式，保留小數點後兩位。

END 添加結尾符

和BEGIN用法類似

$ echo ok | awk '{print $1}END{print "end"}'
ok
end

數據計算

這個地方我要放大招了！上面的知識點你都記住了嗎？

$ awk 'BEGIN{print "姓名 語文 數學 英語 總成績"; \
sum1=0;sum2=0;sum3=0;sumall=0} \
{printf "%5s%5d%5d%5d%5d\n",$1,$2,$3,$4,$2+$3+$4;\
sum1+=$2;sum2+=$3;sum3+=$4;sumall+=$2+$3+$4}\
END{printf "%5s%5d%5d%5d%5d\n","總成績",sum1,sum2,sum3,sumall}'\
 score.txt
姓名 語文 數學 英語 總成績
 tom 60 60 60 180
kitty 90 95 87 272
 jack 72 84 99 255
總成績 222 239 246 707

因爲命令太長，末尾我用\符號換行了。。

BEGIN體裏我輸出了表頭，並給四個變量初始化0
pattern體裏我輸出了每一行，並累加運算
END體裏我輸出了總統計結果
當然了，一個正常人在用linux命令的時候是不會輸入那麼多格式化符號來對齊的，所以新命令又來了
column -t（鬼知道我爲什麼會記得這麼多亂七八糟的命令。）

有用的內置變量

NF:表示當前行有多少個字段，因此$NF就代表最後一個字段
NR:表示當前處理的是第幾行
FILENAME：當前文件名
OFMT：數字輸出的格式，默認爲％.6g。表示只打印小數點後6 位

$ awk -F ':' '{print NR ") " $1}' demo.txt
1) root
2) daemon
3) bin
4) sys
5) sync

內置函數

awk定義了很多內置函數，用awk來寫shell腳本倒是一個不錯的選擇，但是大多數我們是用不上的，以下是常用函數

$ echo 1 2 | awk '{print $1+sqrt($2)}'
2.41421

隨機數，先設置種子再隨機

rand() 0 <= n < 1,srand([expr]) |將 rand 函數的種子值設置爲 Expr 參數的值，或如果省略 Expr 參數則使用某天的時間。

$ echo 1 | awk 'BEGIN{srand()}{print rand()}'
0.929885

字符串

系統常用

不常用算數：

參考：
https://www.toutiao.com/i6741262116495294987/
https://www.toutiao.com/a6726544069754880523/
https://www.toutiao.com/a6675158518468706829/
https://www.toutiao.com/a6705966822589465100/

Linux命令三劍客：grep、sed、awk總結

文章目錄

前言

一、grep

命令語法

實例

grep結合pattern正則

二、sed

命令語法

案例

三、awk

命令語法

實例

[轉帖]使用NMT和pmap解決JVM資源泄漏問題原創

Python實現大麥網搶票的四大關鍵技術點解析

salesforce零基礎學習（一百三十八）零碎知識點小總結（十）

一款開源的.NET程序集反編譯、編輯和調試神器

關於接口協議，你必須要知道這些！

【2024-05-21】以茶會友

淺談管理數據平臺的一些想法

SparkSQL-從0到1認識Catalyst

SQL中基於代價的優化

Linux命令三劍客：grep、sed、awk總結

智能外呼系統相關資料總結

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結