shell字符串截取之cut

       cut命令是shell下一個比較強大的工具,它是以每一行爲一個處理對象的,可以對一行字符串進行多種模式匹配的剪切操作,也可以對一個排列整齊的文本進行操作,下面我們就來說說cut這個命令吧:

       cut命令主要有3個定位方法:

             (1)對字節的定位,用 -b 選項

             (2)對字符的定位,用 -c 選項

              ( 3 ) 域,用選型 -f


下面我們來看看具體的實現:

  wKioL1ditHqSbmjKAABl0ZkLUD0430.png    

 我們來一一說一下上面的現象:

        我們先用pwd命令看一下我們的當前的路徑。然後我們想提取當前路徑這個字符串的第4個字節,就用上圖所示的這條命令:

        pwd | cut -b 4

        我們可以看到,上圖執行這個命令之後,輸出了第四個字節m;

 所以我們這裏看明白了,如果我們要提取哪一個字節,直接在-b 選項後面加上相應的數字就可以了。


如果我們想直接提取第3,4,5,8個字節呢?我們就可以用上圖的第二條命令:

       pwd | cut -b 3-5,8

       執行這條命令後,我們可以看到,上圖中輸出了omex分別對應第3,4,5,8字節。

注意:cut命令如果使用了-b選項,那麼我們在執行命令時,cut會先把-b所有的定位進行從小到大的排序,然後再提取。比如上圖最後的那兩條命令,我們把命令裏面的 “3-5,8”換成了“8,3-5”,輸出的結果是一樣的。


我們再來看看:

wKioL1divd7QVcqRAAAjwfvxnzo267.png

從上圖我們可以看到,-3 和 3- 是有區別的。-3表示從第一個字節到第三個字節,而 3- 表示從第三個字節以後的所有這行的內容。


下面我們在來看看下面這兩個命令選項的區別:

wKioL1diwA6yJjx5AAAkPAc543o125.png

我們目前從上圖看到,這兩條命令裏面的“-b”“-c”選項不一樣,但它們的結果一樣,那麼我們再來看看下面,就知道他們的不同在哪裏了:

wKiom1diwUbR2Po7AAAoVCGgnHQ254.png

 在前面的圖中我們可以看到,當我們要截取的都是單字節字符時,使用 -b 和 -c 就沒有什麼區別,但當我們提取中文的時候呢?比如上面的那幅圖,我們寫了個file.c文件,裏面有3行漢字,我們再分別使用上面的兩條命令的時候,我們就可以看到區別了:當我們用“-c”選項時,以字符爲單位,輸出是正常的,但“-b”是以字節爲單位的,所以輸出就是亂碼了。所以這兩條命令還是有區別的。


下面我們來說說“域”這個概念:

       爲什麼會有“域”的提取呢?因爲我們上面提到的-b和-c只能在固定格式的文檔中提取信息,而對於非固定格式的信息則束手無策了,這時候,域就派上用場了。

       我們知道,在某些文件中會有好多冒號,冒號在文件的每一行中都起到了非常重要的作用,冒號用來隔開每一個項。而我們cut命令就提供了這樣的提取方式,也就是設置“間隔符”,再設置提取第幾個域就行了,我們具體來看看下面的實驗吧:

我們在終端執行如下命令,可以獲得當前bash的默認路徑:

wKiom1dixTHSRt8qAAAUHRCC_QM798.png

       我們從上圖可以看到,其中的每一個路徑都被一個“:”分隔開來,假如我們現在想獲取第一個冒號和第二個冒號之間的路徑,我們就可以很方便的使用cut命令來幫我們實現,我們在終端輸入如下的命令:

wKiom1dixu***o49AAAs34aY8sw082.png

       從上圖的結果我們可以看到,我們提取出來了我們想要的第二個域的路徑。我們來解釋下上面的命令:-d和‘:’一起把管道輸入的一行字符串進行了域的分隔,每一個分隔符(:)和前面的字符串被稱爲一個域。-f選項後面跟的是我們想提取的那個域。所以該命令cut -d ‘:’-f 2就表示輸出第二個分隔符之前的域。

如果我們執行下面的命令:

wKioL1diynnAdMjRAAAzmpa6UAg871.png

       輸入上面兩條很相近的命令,我想大家可以很清晰的看到它們的區別,第一條輸出的是第二個域和第四個域,而第二條命令輸出的是第二到四個域(正如我們在圖中用不同顏色標註的那樣)。

 

我們在來看看cut格式化整齊的文本進行的操作:

wKioL1diy_KS_mQbAABoYOFtf58828.png

從上面我們可以看到,這時格式化比較整齊的文本的一部分,那麼我們想把前面的declare -x去掉,我們該怎麼做呢?其實做法我們上面都說過:

wKioL1dizO6iGCLiAABXAy-sNQg052.png

其中的“12-”表示輸出從第12個字符以後的所有字符。其實和我們上面所說的對字符串的操作沒有什麼區別。


上面就是自己目前所知道的cut命令的基本用法。























發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章