Linux 之 Bash -- 管线命令

声明: 我觉得今天的这篇文章就像一篇“工具”文而且很鸡肋:归纳一些常用的管线命令和应用参数。适合有操作需求时,来查找能够帮忙解决问题的指令和参数~

学习管线命令之前要先了解管道符|,因为管线命令使用的是|这个界定符号,它和使用;的连续下达命令“很像”(关于连续命令符号“;”,Linux 之 Bash -- 数据流重导向里面刚学过,这里不再提啦~)。为了理解“|”,我们来举个例子:
我想看一下 /etc这个目录下的文件列表,但是这个目录里的东西实在太多了,直接 ls -l /etc打印到屏幕上满屏都是,往回翻操作记录都麻烦,所以可以使用ls -l /etc | less,这样ls指令输出后的内容就能够被less读取,并且利用less的功能,我们就能够前后翻动相关的信息了。这是ls -l /etc ; less达不到的效果,因为;只起到下达命令的作用,而|却起到传递标准输出STDOUT的作用,这是本质的区别。整体的管线命令可以用这个图表表示:


使用时有两个注意点:

  • 管线命令仅会处理 standard output,对于 standard error output 会予以忽略
  • 管线命令必须要能够接受来自前一个指令的数据成为 standard input 继续处理才行
    例如 ls,cp,mv这些不会接受stdin的命令,是不适合放在管道符|后面的

1.撷(xie)取命令: cut,grep

用过cut的伙伴都知道,cut可以提取列,可是实际上,它和grep一样都是针对文本“一行一行”来分析的,以cut -f 3 filename为例:cut文本第一行的第3段数据;cut文本第二行的第3段数据....直到文本的最后一行。最终,组成一列数据输出出来。

1.1 cut

详细聊聊cut的应用

  • -d 后面接分隔字符,与-f一起使用
    eg: cut -d ':' -f 3,5 linux.txt 翻译成人话就是 linux.txt以“:”为分隔字符,帮我把第3段和第5段切出来
  • -f 后面接数字,取出第几段的意思
  • -c 后面接数字
    以字符(characters)的单位取出固定字符区间
    eg: cut -c 1-8 linux.txt 翻译成人话 帮我把linux.txt中的,每一行的,第1-8个字符切出来(如果是8-,意即把第8个之后的字符都切出来)

1.2 grep

grep同样是一行一行得分析,它的做事风格很豪爽:如果当中有我想要的信息,就把这一整行都拽出来
grep支持的语法很多,还支持 正规表示法 ,可惜panda还没把正规表示法学通,在这里就只简单介绍几个参数,等到后面再及时更新

  • -c 计算“搜寻字符串”的次数
    eg: grep -c time linux.txt 翻译成人话 计算time在linux.txt中出现的次数
  • -i 忽略大小写来撷取文本行
    eg:grep -i AB linux.txt 翻译成人话 把linux.txt文本中含有"ab or AB or Ab or aB"的文本行拽出来
  • -n 顺便输出行号
  • -v 反向选择,显示没有“搜索字符串”内容的那一行

2.排序命令 sort,wc,uniq

2.1 sort

sort的大特点:可以依据不同的数据型态来排序

  • -f 忽略大小写的差异
  • -b 忽略最前面的空格符部分
  • -M 以月份的名字来排序
  • -n 使用纯数字进行排序(默认是以文字型态来排序的)
  • -r 反向排序
  • -u 相同的数据中,仅出现一行代表(uniq)
  • -t 指定分隔符(预设是用tab键) 和 cut 中的-d参数作用类似
  • -k 以哪个区间排序
    eg: sort -k 3 linux.txt 以linux.txt中的第3列进行排序

2.2 uniq

用于排序完成后,将重复的资料仅列出一个显示,它的一些参数:

  • -i 忽略大小写字符的不同
  • -c 进行计数

2.3 wc 统计行数、字数、字符数

  • -l 仅列出行
  • -w 仅列出多少字(英文单字)
  • -m 多少字符

3.双向重导向 tee

tee的功能其实很简单,可以让standard output转存一份到文件内并将同样的数据继续送到屏幕去处理


举个例子来认识它:
ls -l | tee list.txt | less 翻译成人话:查看当前目录并且将目录内容保存到 list.txt中
看到了吧,这里tee把standard ourtput做了双向输出:一个走向 list.txt;一个走向 屏幕,不过我这里用less来查看信息
除此之外,记忆一个tee的参数:

  • -a 以累加的方式,将数据加入file当中(类似>>)

4.字符转换命令:tr,col,join,paste,expand

4.1 tr(删除或替换文字讯息)

删除一段讯息中的文字;或者进行文字讯息的替换

注意:tr只能从标准输入中读取数据,因此使用tr时,
1.要么通过<将输入文件重定向到标准输入;

2.要么通过管道符|读入数据

  • tr '[a-z]' '[A-Z]' 将所有的小写变成大写
    eg: tr '[a-z]' '[A-Z]' < list.txt 将list.txt 中的所有小写字母转换成大写输出到屏幕
  • -d 删除讯息当中的字符串
    eg: cat /etc/passwd | tr -d ':' /etc/passwd 输出的讯息中,将“:”删除
  • -s 取代掉重复的字符

4.2 col(用对等的空格键取代tab键)

最常用的操作:通过使用参数-x,将[tab]按键取代成为对应的 相同长度的 空格键
eg:cat -A list.txt (如果list.txt 中有tab键,就会看到很多^I的符号;cat -A可以显示出所有的特殊按键)
再试试cat list.txt | col -x | cat -A 这样打印到屏幕的输出就美观多了
不要光说不做哦~just do it ~

4.3 join(根据相关性合并文件)

join这个小命令只能处理2个文件之间的数据:两个文件当中,有“相同数据”的那一行,才将他们加在一起
例如 /etc/passwd 和 /etc/shadow这两个文件(先看他们的文本特点):


可以看到,这两个文本的分隔符都是:,同时第一个字段的内容都相同(都是 root,bin,daemon),如果我们想要把两个文本中不同的数据合在一起,就可以使用join将他们变成这个样子:join -t ':' /etc/passwd /etc/shadow | head -n 3

认识join的一些参数:join [-ti12] file1 file2

  • -t: 用来指定分隔符
    👆 join -t ':' /etc/passwd /etc/shadow | head -n 3中就是让两个文件合并后以':'分隔。如果不设置的话,默认以空格分隔数据
  • -i : 忽略大小写的差异
  • -1 代表第一个文件 -2 代表第二个文件
    这两个数字分别指代对应文件要用哪个字段来分析进行整合
    eg:join -1 2 a.txt -2 3 b.txt 翻译成人话 将a.txt的第2个字段和b.txt的第3个字段整合在一起

注意:插播一下使用join时的注意点

1.需要处理的文件以防顺序错乱,最好排序并去重后再join;
2.指定要整合的字段要相同啊!

而刚开始了解join时,没有数字参数的这个指令是怎么执行的?join -t ':' /etc/passwd /etc/shadow | head -n 3
实际上,👆它只是进行了参数的省略而已,linux默认以两个文件的第1个字段进行分析和整合,完整的它应该是这个样子join -t ':' -1 1 /etc/passwd -2 1 /etc/shadow | head -n 3
怎么样?是不是有点头晕?哈哈,记住就好啦~
总之,join在处理两个相关的数据文件时是非常有帮助的,例如/etc/passwd和/etc/shadow以账号为相关性,而/etc/passwd和/ec/group以所谓的GID(账号的数字定义)为相关性,通过join可以把这些有用的数据放在一起。

4.4 paste(简单粗暴得合并文件)

和join作用类似,也是将两个文件的数据贴在一起,但是它的方式简单粗暴,不会去比较内容是否相关,而是直接将行号相同的字段拼在一起,默认以tab键分隔。
工作模式 paste [-d] file1 file2

  • -d 后面可以接分隔字符,预设是tab键
    eg: paste /etc/passwd /etc/shadow
  • - 如果file部分写成-,表示来自standard input的资料的意思(以后用到再详细解释)

4.5 expand(用空格取代tab键)

还记得上面提到的col -x吗,它可以将tab键取代为相同长度的空格键。expand和它作用类似,不过expand可以自由设定tab键取代成空格键的个数,所以功能是比col -x更强大的。
常见的工作模式 expand [-t] file

  • -t后面可以接数字
    eg: expand -t 6 a.txt | cat -A 将a.txt中的tab键以1:6的个数比例转换成空格键,并且打印到屏幕(cat -A看一下文件内的所有特殊符号)

小插曲:** 如果我想让空格键转成tab键怎么办? **
答案:使用 unexpand

  • -a 除了单词前作为单词分隔的空格外,所有空格都会被转换
  • --first-only 仅转换每行开头的空格
  • -t 指定一个tab键占几个字符位(默认8)

5. 分区命令:split

split可以根据文件大小或行数来分区,从而将大文件分成小文件。
(在我们常用的windows里面可是个大问题啊,而进入linux,我们可以很方便得使用split啦~)
常用工作模式: split [-bl] file PREFIX
常用选项和参数

  • -b 后面可接欲分区成的文件大小(可加单位,eg: b,k,m等)
  • -l 以行数来进行分区
    PREFIX 代表前导符的意思,可作为分区文件的前导文字
    eg:
  • 按文件大小split
    如果 a.txt 是一个800+kb的大文件,可以通过split分成3个最大为300kb 的文件。 指令: split -b 300k a.txt
  • 按文件行数split
    如果 a.txt 是一个100+ 行的大文件,可以通过split分成6个最大为20行的文件。 指令 : split -l 20 a.txt

6.参数代换:xargs

xargs 可以用来产生某个指令的参数,可读入stdin的数据,并且以空格符或断行字符作为分辨,将stdin的资料分隔成arguments(参数)。

xargs听起来很吓人,难理解也是因为实践与想象有差距。如果学着应用它,就会发现,它其实也是很简单的一个命令,don't panic~
常见工作模式: xargs [-0epn] command
选项与参数:

  • -0 (数字0不是字母O啊~)
    如果输入的stdin含有特殊字符,例如. \ \.空格键等字符时,这个-0参数可以将他还原成一般字符。这个参数可以用于特殊状态。
  • -e 这个是EOF (end of file) 的意思,后面可以接一个字符串,当xargs分析到这个字符串时,就会停止继续工作。
  • -p 在执行每个指令的argument时,都会询问使用者的意思
  • -n 后面接次数,每次command指令执行时,要使用几个参数的意思
实践前热身(可以试着在自己的集群上操作)

下面分几步介绍id,同时衬托一下xargs存在的“魅力”!
id 指令可以查询用户的UID/GID等信息 eg: id root

  • step 1 认识id只接受一个参数的局限性
    id $(cut -d ':' -f 1 /etc/passwd | head -n 3)
    翻译成人话: 将/etc/passwd中的第一列的前三行取出来,并且使用id指令查看信息
    这里通过$(cut -d ':' -f 1 /etc/passwd | head -n 3)预先取得了参数,但是因为id只能接受一个参数,因此它会在linux系统里报错。
    -step 2 认识 id并不是管线命令的局限性
    cut -d ':' -f 1 /etc/passwd | head -n 3 | id
    最终你会发现,你查了自己!因为id不是管线命令,它是没有办法接收|前面的信息的。因此cut -d ':' -f 1 /etc/passwd | head -n 3 | id 的执行效果 就等于 直接在linux命令行中输入id 所执行的结果。

这可肿么办? xargs来了就有了办法~

  • xargs -n
    cut -d ':' -f 1 /etc/passwd | head -n 3 | xargs -n 1 id 就可以顺利得获得相应用户的详细信息,把它翻译成人话就是:将/etc/passwd的第一列的前三行提出来然后通过xargs将此三行内容转换成指令id的参数(考虑到id只能一个一个得接收参数,因此使用了-n 1使3个参数一个一个得传递到达)
  • xargs -p
    cut -d ':' -f 1 /etc/passwd | head -n 3 | xargs -p -n 1 id 这里增加了-p选项,则在使用过程中,被询问到每个指令是否执行!
  • xargs -e
    cut -d ':' -f 1 /etc/passwd | xargs -e'sync' -n 1 id
    在我们下达 -e'sync'后,在分析到sync这个字符串时,后面的stdin内容就会被xargs舍弃掉了
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章