sed 學習筆記2

在編寫shell腳本的過程中,我們經常需要使用sed流編輯器和awk對文本文件進行處理。

一、什麼是sed?

    sed 是一種在線編輯器,它一次處理一行內容。sed是非交互式的編輯器。它不會修改文件,除非使用shell重定向來保存結果。默認情況下,所有的輸出行都被打印到屏幕上。

 

二、sed的處理過程

    sed編輯器逐行處理文件(或輸入),並將結果發送到屏幕。具體過程如下:首先sed把當前正在處理的行保存在一個臨時緩存區中(也稱爲模式空間),然後處理臨時緩衝區中的行,完成後把該行發送到屏幕上。sed每處理完一行就將其從臨時緩衝區刪除,然後將下一行讀入,進行處理和顯示。處理完輸入文件的最後一行後,sed便結束運行。

   前面說到sed不會修改文件,那麼現在我們可以知道是爲什麼了?是因爲sed把每一行都存在臨時緩衝區中,對這個副本進行編輯,所以不會修改原文件。

補充知識:

    在使用sed的過程中,我們經常會聽到“定址”,那麼什麼是“定址”呢?

    定址用於決定對哪些行進行編輯。地址的形式可以是數字、正則表達式、或二者的結合。如果沒有指定地址,sed將處理輸入文件的所有行。

1、地址是一個數字,則表示行號;是“$"符號,則表示最後一行。

例如:

[plain] view plaincopy在CODE上查看代碼片派生到我的代碼片
  1. sed -n '3p' datafile   #只打印第三行  

 

2、只顯示指定行範圍的文件內容

例如:

[plain] view plaincopy在CODE上查看代碼片派生到我的代碼片
  1. sed -n '100,200p' mysql_slow_query.log  # 只查看文件的第100行到第200行  

 

3、地址是逗號分隔的,那麼需要處理的地址是這兩行之間的範圍(包括這兩行在內)。範圍可以用數字、正則表達式、或二者的組合表示。

例如:

[plain] view plaincopy在CODE上查看代碼片派生到我的代碼片
  1. sed '2,5d' datafile  
  2. #刪除第二到第五行  
  3.   
  4. sed '/My/,/You/d' datafile  
  5. #刪除包含"My"的行到包含"You"的行之間的行  
  6.   
  7. sed '/My/,10d' datafile  
  8. #刪除包含"My"的行到第十行的內容  

 

三、sed命令和選項

sed命令告訴sed如何處理由地址指定的各輸入行,如果沒有指定地址則處理所有的輸入行。

1、sed命令

 

 命令

 功能

 a\

 在當前行後添加一行或多行。多行時除最後一行外,每行末尾需用“\”續行

 c\

 用此符號後的新文本替換當前行中的文本。多行時除最後一行外,每行末尾需用"\"續行

 i\

 在當前行之前插入文本。多行時除最後一行外,每行末尾需用"\"續行

 d

 刪除行

 h

 把模式空間裏的內容複製到暫存緩衝區

 H

 把模式空間裏的內容追加到暫存緩衝區

 g

 把暫存緩衝區裏的內容複製到模式空間,覆蓋原有的內容

 G

 把暫存緩衝區的內容追加到模式空間裏,追加在原有內容的後面

 l

 列出非打印字符

 p

 打印行

 n

 讀入下一輸入行,並從下一條命令而不是第一條命令開始對其的處理

 q

 結束或退出sed

 r

 從文件中讀取輸入行

 !

 對所選行以外的所有行應用命令

 s

 用一個字符串替換另一個

 g

 在行內進行全局替換

 w

 將所選的行寫入文件

 x

 交換暫存緩衝區與模式空間的內容

 y

 將字符替換爲另一字符(不能對正則表達式使用y命令)

 

2、sed選項

 

 選項

 功能

 -e

 進行多項編輯,即對輸入行應用多條sed命令時使用

 -n

 取消默認的輸出

 -f

 指定sed腳本的文件名

 

四、正則表達式元字符

    與grep一樣,sed也支持特殊元字符,來進行模式查找、替換。不同的是,sed使用的正則表達式是括在斜槓線"/"之間的模式。

    如果要把正則表達式分隔符"/"改爲另一個字符,比如o,只要在這個字符前加一個反斜線,在字符後跟上正則表達式,再跟上這個字符即可。

例如:

[plain] view plaincopy在CODE上查看代碼片派生到我的代碼片
  1. sed -n '\o^Myop' datafile  


常用的正則表達式如下:

 元字符

 功能

 示例

 ^

 行首定位符

 /^my/ 匹配所有以my開頭的行

 $

 行尾定位符

 /my$/ 匹配所有以my結尾的行

 .

 匹配除換行符以外的單個字符

 /m..y/ 匹配包含字母m,後跟兩個任意字符,再跟字母y的行

 *

 匹配零個或多個前導字符

 /my*/ 匹配包含字母m,後跟零個或多個y字母的行

 []

 匹配指定字符組內的任一字符

 /[Mm]y/ 匹配包含My或my的行

 [^]

 匹配不在指定字符組內的任一字符

 /[^Mm]y/ 匹配包含y,但y之前的那個字符不是M或m的行

 ..

 保存已匹配的字符

1,20s/\(you\)self/\1r/  標記元字符之間的模式,並將其保存爲標籤1,之後可以使用\1來引用它。最多可以定義9個標籤,從左邊開始編號,最左邊的是第一個。此例中,對第1到第 20行進行處理,you被保存爲標籤1,如果發現youself,則替換爲your。

 &

 保存查找串以便在替換串中引用

 s/my/**&**/  符號&代表查找串。my將被替換爲**my**

 \<

 詞首定位符

 /\<my/ 匹配包含以my開頭的單詞的行

 \>

 詞尾定位符

 /my\>/ 匹配包含以my結尾的單詞的行

 x\{m\}

 連續m個x

 /9\{5\}/匹配包含連續5個9的行

 x\{m,\}

 至少m個x

 /9\{5,\}/ 匹配包含至少連續5個9的行

 x\{m,n\}

 至少m個,但不超過n個x

 /9\{5,7\}/ 匹配包含連續5到7個9的行,這裏有個問題,如果限制是3到5個,但是連續6、7和8 字符a的都出現了,以maaaaaa爲例aaaaaa紅色的那些字符a是符合要求的,黑色的是不符合要求的,所有符合要求的行都要打印出來

[root@localhost data]# sed -n '/a\{3,5\}/p' datafile
maaa
maaaa
maaaaa
maaaaaa
maaaaaaa
maaaaaaaa
[root@localhost data]# 

 

五、sed的退出狀態

    sed不向grep一樣,不管是否找到指定的模式,它的退出狀態都是0。只有當命令存在語法錯誤時,sed的退出狀態纔不是0。

六、常用範例

1、p命令

    命令p用於顯示模式空間的內容。默認情況下,sed把輸入行打印在屏幕上,選項-n用於取消默認的打印操作。當選項-n和命令p同時出現時,sed可打印選定的內容。

例子:

[plain] view plaincopy在CODE上查看代碼片派生到我的代碼片
  1. (1)sed '/my/p' datafile  
  2. #默認情況下,sed把所有輸入行都打印在標準輸出上。如果某行匹配模式my,p命令將把該行另外打印一遍。  
  3.   
  4. (2)sed -n '/my/p' datafile  
  5. #選項-n取消sed默認的打印,p命令把匹配模式my的行打印一遍。  

 

2、d命令

    命令d用於刪除輸入行。sed先將輸入行從文件複製到模式空間裏,然後對該行執行sed命令,最後將模式空間裏的內容顯示在屏幕上。如果發出的是命令d,當前模式空間裏的輸入行會被刪除,不被顯示。

例子:

[plain] view plaincopy在CODE上查看代碼片派生到我的代碼片
  1. (1)sed '$d' datafile  
  2. #刪除最後一行,其餘的都被顯示  
  3.   
  4. (2)sed '/my/d' datafile  
  5. #刪除包含my的行,其餘的都被顯示  

 

3、s命令

例子:

[plain] view plaincopy在CODE上查看代碼片派生到我的代碼片
  1. (1)sed 's/^My/You/g' datafile  
  2. #命令末端的g表示在行內進行全局替換,也就是說如果某行出現多個My,所有的My都被替換爲You。  
  3.   
  4. (2)sed -n '1,20s/My$/You/gp' datafile  
  5. #取消默認輸出,處理1到20行裏匹配以My結尾的行,把行內所有的My替換爲You,並打印到屏幕上。  
  6.   
  7. (3)sed 's#My#Your#g' datafile  
  8. #緊跟在s命令後的字符就是查找串和替換串之間的分隔符。分隔符默認爲正斜槓,但可以改變。無論什麼字符(換行符、反斜線除外),只要緊跟s命令,就成了新的串分隔符。  


 

4、e選項

   -e是編輯命令,用於sed執行多個編輯任務的情況下。在下一行開始編輯前,所有的編輯動作將應用到模式緩衝區中的行上。

例子:

[plain] view plaincopy在CODE上查看代碼片派生到我的代碼片
  1. sed -e '1,10d' -e 's/My/Your/g' datafile  
  2. #選項-e用於進行多重編輯。第一重編輯刪除第1-3行。第二重編輯將出現的所有My替換爲Your。因爲是逐行進行這兩項編輯(即這兩個命令都在模式空間的當前行上執行),所以編輯命令的順序會影響結果。  

 

5、r命令

r命令是讀命令。sed使用該命令將一個文本文件中的內容加到當前文件的特定位置上。

例如:

[plain] view plaincopy在CODE上查看代碼片派生到我的代碼片
  1. sed '/My/r introduce.txt' datafile  
  2. #如果在文件datafile的某一行匹配到模式My,就在該行後讀入文件introduce.txt的內容。如果出現My的行不止一行,則在出現My的各行後都讀入introduce.txt文件的內容。  

 

6、w命令

例子:

[plain] view plaincopy在CODE上查看代碼片派生到我的代碼片
  1. sed -n '/hrwang/w me.txt' datafile  

 

7、a\ 命令

    a\ 命令是追加命令,追加將添加新文本到文件中當前行(即讀入模式緩衝區中的行)的後面。所追加的文本行位於sed命令的下方另起一行。如果要追加的內容超過一行,則每一行都必須以反斜線結束,最後一行除外。最後一行將以引號和文件名結束。

例子:

[plain] view plaincopy在CODE上查看代碼片派生到我的代碼片
  1. sed '/^hrwang/a\  
  2. >hrwang and mjfan are husband\  
  3. >and wife' datafile  
  4. #如果在datafile文件中發現匹配以hrwang開頭的行,則在該行下面追加hrwang and mjfan are husband and wife  

 

8、i\ 命令

i\ 命令是在當前行的前面插入新的文本。

 

9、c\ 命令

sed使用該命令將已有文本修改成新的文本。

 

10、n命令

sed使用該命令獲取輸入文件的下一行,並將其讀入到模式緩衝區中,任何sed命令都將應用到匹配行緊接着的下一行上。

例如:

[plain] view plaincopy在CODE上查看代碼片派生到我的代碼片
  1. sed '/hrwang/{n;s/My/Your/;}' datafile  

注:如果需要使用多條命令,或者需要在某個地址範圍內嵌套地址,就必須用花括號將命令括起來,每行只寫一條命令,或這用分號分割同一行中的多條命令。

 

11、y命令

    該命令與UNIX/Linux中的tr命令類似,字符按照一對一的方式從左到右進行轉換。例如,y/abc/ABC/將把所有小寫的a轉換成A,小寫的b轉換成B,小寫的c轉換成C。

例如:

[plain] view plaincopy在CODE上查看代碼片派生到我的代碼片
  1. sed '1,20y/hrwang12/HRWANG^$/' datafile  
  2. #將1到20行內,所有的小寫hrwang轉換成大寫,將1轉換成^,將2轉換成$。  
  3. #正則表達式元字符對y命令不起作用。與s命令的分隔符一樣,斜線可以被替換成其它的字符。  

 

12、q命令

    q命令將導致sed程序退出,不再進行其它的處理。

[plain] view plaincopy在CODE上查看代碼片派生到我的代碼片
  1. sed '/hrwang/{s/hrwang/HRWANG/;q;}' datafile  

 

13、h命令和g命令

爲了更好說明這兩個命令,我們先創建如下的文本文件:

[plain] view plaincopy在CODE上查看代碼片派生到我的代碼片
  1. #cat datafile  
  2. My name is hrwang.  
  3. Your name is mjfan.  
  4. hrwang is mjfan's husband.  
  5. mjfan is hrwang's wife.  

 

[plain] view plaincopy在CODE上查看代碼片派生到我的代碼片
  1. sed -e '/hrwang/h' -e '$G' datafile  
  2. sed -e '/hrwang/H' -e '$G' datafile  
  3. #通過上面兩條命令,你會發現h會把原來暫存緩衝區的內容清除,只保存最近一次執行h時保存進去的模式空間的內容。而H命令則把每次匹配hrwnag的行都追加保存在暫存緩衝區。  
  4.   
  5. sed -e '/hrwang/H' -e '$g' datafile  
  6. sed -e '/hrwang/H' -e '$G' datafile  
  7. #通過上面兩條命令,你會發現g把暫存緩衝區中的內容替換掉了模式空間中當前行的內容,此處即替換了最後一行。而G命令則把暫存緩衝區的內容追加到了模式空間的當前行後。此處即追加到了末尾。  

 

補充知識點:sed特殊用法

[plain] view plaincopy在CODE上查看代碼片派生到我的代碼片
  1. sed -n '/root/w a.txt'    #將匹配行輸出到文件  
  2.   
  3. sed '/root/r abc.txt' /etc/passwd #把abc.txt的文件內容讀入到root匹配行後  
  4.   
  5. sed -n '/root/w a.txt'  
  6.   
  7. sed -n '/root/{=;p}' /etc/passwd #打印行號和匹配root的行  
  8.   
  9. sed -n '/root/{n;d}' /etc/passwd #將匹配root行的下一行刪除  
  10.   
  11. sed -n '/root/{N;d}' /etc/passwd #將匹配root行和下一行都刪除  
  12.   
  13. sed '22{h;d};23,33{H;d};44G' pass  

七、sed腳本編寫方法

1、從文件讀入命令

[plain] view plaincopy在CODE上查看代碼片派生到我的代碼片
  1. sed -f sed.sh  

sed.sh文件內容:

[plain] view plaincopy在CODE上查看代碼片派生到我的代碼片
  1. s/root/yerik/p  
  2. s/bash/csh/p  

 

2、直接運行腳本 ./sed.sh /etc/passwd

[plain] view plaincopy在CODE上查看代碼片派生到我的代碼片
  1. #!/bib/sed -f  
  2. s/root/yerik/p  
  3. s/bash/csh/p  

八、小技巧

1、用sed 輸出自己的IP 地址

[plain] view plaincopy在CODE上查看代碼片派生到我的代碼片
  1. ifconfig eth0 |sed '2p' |sed 's/^.*addr:/ /g' |sed 's/B.*$ / /g'  

 

2、在sed的命令行中引用shell變量時要使用雙引號,而不是通常所用的單引號。下面是一個根據name變量的內容來刪除named.conf文件中zone段的腳本:

name='zone\ "localhost"'

[plain] view plaincopy在CODE上查看代碼片派生到我的代碼片
  1. sed "/$name/,/};/d" named.conf   

 

3、保持和獲取:h命令和G命令

[plain] view plaincopy在CODE上查看代碼片派生到我的代碼片
  1. $ sed -e '/test/h' -e '$G example  

    在sed處理文件的時候,每一行都被保存在一個叫模式空間的臨時緩衝區中,除非行被刪除或者輸出被取消,否則所有被處理的行都將打印在屏幕上。接着模式空間被清空,並存入新的一行等待處理。在這個例子裏,匹配test的行被找到後,將存入模式空間,h命令將其複製並存入一個稱爲保持緩存區的特殊緩衝區內。第二條語句的意思是,當到達最後一行後,G命令取出保持緩衝區的行,然後把它放回模式空間中,且追加到現在已經存在於模式空間中的行的末尾。在這個例子中就是追加到最後一行。簡單來說,任何包含test的行都被複制並追加到該文件的末尾。

 

4、保持和互換:h命令和x命令

[plain] view plaincopy在CODE上查看代碼片派生到我的代碼片
  1. $ sed -e '/test/h' -e '/check/x' example   

   互換模式空間和保持緩衝區的內容。也就是把包含test與check的行互換。

 

 

九、練習

題目1到4都是點號的應用。

1,刪除文件每行的第一個字符。

[plain] view plaincopy在CODE上查看代碼片派生到我的代碼片
  1. sed -n 's/^.//gp' /etc/passwd      使用替換,將以任意字符(.)開頭的替換爲空
  2. sed -nr 's/(.)(.*)/\2/p' /etc/passwd 將字符串分爲兩部分,開始字符和後面一串字符。\2表示後面那串字符

 

2,刪除文件每行的第二個字符。

[plain] view plaincopy在CODE上查看代碼片派生到我的代碼片
  1. sed -nr 's/(.)(.)(.*)/\1\3/p' /etc/passwd   這個和上面的差不多意思

 

3,刪除文件每行的最後一個字符。

[plain] view plaincopy在CODE上查看代碼片派生到我的代碼片
  1. sed -nr 's/.$//p' /etc/passwd  
  2. sed -nr 's/(.*)(.)/\1/p' /etc/passwd  

 

4,刪除文件每行的倒數第二個字符。

[plain] view plaincopy在CODE上查看代碼片派生到我的代碼片
  1. sed -nr 's/(.*)(.)(.)/\1\3/p' /etc/passwd  

 

5,刪除文件每行的第二個單詞。

[plain] view plaincopy在CODE上查看代碼片派生到我的代碼片
  1. sed -nr 's/([^a-Z]*)([a-Z]+)([^a-Z]+)([a-Z]+)(.*)/\1\2\3\5/p' /etc/passwd  

 

6,刪除文件每行的倒數第二個單詞。

[plain] view plaincopy在CODE上查看代碼片派生到我的代碼片
  1. sed -nr 's/(.*)([^a-Z]+)([a-Z]+)([^a-Z]+)([a-Z]+)([^a-Z]*)/\1\2\4\5\6/p' /etc/samba/smb.conf  

 

7,刪除文件每行的最後一個單詞。

[plain] view plaincopy在CODE上查看代碼片派生到我的代碼片
  1. sed -nr 's/(.*)([^a-Z]+)([a-Z]+)([^a-Z]*)/\1\2\4/p' /etc/samba/smb.conf  

 

8,交換每行的第一個字符和第二個字符。

[plain] view plaincopy在CODE上查看代碼片派生到我的代碼片
  1. sed -nr 's/(.)(.)(.*)/\2\1\3/p' /etc/passwd  

 

9,交換每行的第一個單詞和第二個單詞。

[plain] view plaincopy在CODE上查看代碼片派生到我的代碼片
  1. sed -nr 's/([^a-Z]*)([a-Z]+)([^a-Z]+)([a-Z]+)(.*)/\1\4\3\2\5/p' /etc/samba/smb.conf  

 

10,交換每行的第一個單詞和最後一個單詞。

[plain] view plaincopy在CODE上查看代碼片派生到我的代碼片
  1. sed -nr 's/([^a-Z]*)([a-Z]+)([^a-Z]+)([a-Z]+)(.*)/\1\4\3\2\5/p' /etc/passwd  

 

11,刪除一個文件中所有的數字。

[plain] view plaincopy在CODE上查看代碼片派生到我的代碼片
  1. sed 's/[0-9]*//g' /etc/passwd  

 

12,刪除每行開頭的所有空格。

[plain] view plaincopy在CODE上查看代碼片派生到我的代碼片
  1. sed -n 's/^\ *//p' /etc/samba/smb.conf   
  2. sed -nr 's/( *)(.*)/\2/p' testp  

 

13,用製表符替換文件中出現的所有空格。

[plain] view plaincopy在CODE上查看代碼片派生到我的代碼片
  1. sed -n 's/\ /\t/gp' pass  

 

14,把所有大寫字母用括號()括起來。

[plain] view plaincopy在CODE上查看代碼片派生到我的代碼片
  1. sed -nr 's/([A-Z])/(&)/gp' testp   
  2. sed -n 's/[A-Z]/(&)/gp' testp  

15,打印每行3次。

[plain] view plaincopy在CODE上查看代碼片派生到我的代碼片
  1. sed 'p;p' pass  

 

16,隔行刪除。

[plain] view plaincopy在CODE上查看代碼片派生到我的代碼片
  1. sed -n '1~2p' pass  

 

17,把文件從第22行到第33行復制到第44行後面。

[plain] view plaincopy在CODE上查看代碼片派生到我的代碼片
  1. sed '1,21h;22h;23,33H;44G' pass  

 

18,把文件從第22行到第33行移動到第44行後面。

[plain] view plaincopy在CODE上查看代碼片派生到我的代碼片
  1. sed '22{h;d};23,33{H;d};44G' pass  

 

19,只顯示每行的第一個單詞。

[plain] view plaincopy在CODE上查看代碼片派生到我的代碼片
  1. sed -nr 's/([^a-Z]*)([a-Z]+)([^a-Z]+)(.*)/\2/p' /etc/passwd  

 

20,打印每行的第一個單詞和第三個單詞。

[plain] view plaincopy在CODE上查看代碼片派生到我的代碼片
  1. sed -nr 's/([^a-Z]*)([a-Z]+)([^a-Z]+)([a-Z]+)([^a-Z]+)([a-Z]+)(.*)/\2--\4/p' /etc/passwd  

 

21,將格式爲    mm/yy/dd    的日期格式換成   mm;yy;dd

[plain] view plaincopy在CODE上查看代碼片派生到我的代碼片
  1. date +%m/%Y/%d |sed -n 's#/#;#gp'  

 

22, 逆向輸出

[plain] view plaincopy在CODE上查看代碼片派生到我的代碼片
  1. cat a.txt  
  2. ABC  
  3. DEF  
  4. XYZ  
  5. 輸出樣式變成  
  6. XYZ  
  7. DEF  
  8. ABC  
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章