awk命令详解

文章目录

一、概述

二、基础语法

`2.1.记录与字段`

`2.2.内置变量`

`2.3.自定义变量`

`2.4.调用系统变量`

`2.5.自定义分隔符`

`2.6.内置变量RS、OFS、ORS`

OFS

ORS

`2.7.print指令`

`2.8.条件匹配`

`2.9.BEGIN和END`

`2.10.数字计算`

`2.11.循环计数`

三、awk条件判断

`3.1.单分支语句`

`3.2.双分支if语句`

`3.3.多分支语句`

四、awk数组与循环

`4.1.遍历数组`

`4.2.for循环`

`4.3.while循环`

`4.4.中断语句`

五、awk函数

`5.1.内置I/O函数`

getline函数

next函数

system(命令)函数

`5.2.内置数值函数`

int(expr)函数

rand()函数

srand([expr])

`5.3.内置字符串函数`

length([s])函数

index(字符串1，字符串2)

match(s,r)

tolower(srt)

toupper(str)

split(字符串，数组，分隔符)

gsub(r,s,[,t])

sub(r,s,[,t])

substr(s,i,[,n])

`5.4.内置时间函数`

`5.5.用户自定义函数`

六、常用命令

七、常用技巧

`打印各磁盘可用大小`

`统计磁盘可用容量`

`统计/etc下文件总大小`

`统计访问Nginx的各IP访问次数`

`查看Nginx 1点到5点半的日志`

`查看Docker容器的CPU使用率`

----

参考书籍：《Linux Shell核心编程指南》——丁明一

一、概述

awk是专门为文本处理设计的编程语言，是一门数据驱动的编程语言，与sed类似都是以数据驱动的行处理软件，主要用于数据扫描、过滤、统计汇总工作，数据可以来自标准输入、管道或者文件。

awk在20世纪70年代诞生与贝尔实验室。现在使用的版本是1988年发布的Gnu awk。

二、基础语法

2.1.记录与字段

awk是一种处理文本文件的编程语言，文件的每行数据都被称为记录，默认以空格或制表符为分隔符，每条记录被分成若干字段(列)，awk每次从文件中读取一条记录。

语法格式：

awk [选项] ‘条件{ 
 动作} 条件{ 
 动作} ... ...’ 文件名

2.2.内置变量

awk语法由一系列条件和动作组成，在花括号内可以有多个动作，多个动作之间用分号分隔，在多个条件和动作之间可以有若干空格，也可以没有。

# free | awk '{print $2}' #逐行打印第2列
 used
 3062364
 0
 free | awk '{print NR}' #输出行号
 free | awk '{print NF}' #输出每行数据的列数
 awk '{print $NF}' /tmp/hosts #打印每行数据的最后一列
 awk '{print $(NF-1)}' /tmp/hosts #打印每行倒数第二列
 
 cp /etc/hosts /tmp/hosts
 awk '{print $0}' /tmp/hosts #打印每行全部内容

2.3.自定义变量

awk -v x="bob" -v y=10 '{print x,y}' /tmp/hosts

2.4.调用系统变量

awk -v shell=$SHELL '{print shell}' /tmp/hosts	或者
 awk '{print "'$SHELL'"}' /tmp/hosts #双引号加单引号组合能正确获取系统变量

2.5.自定义分隔符

默认以空格、换行符、制表符作为分隔符，使用-F可以指定分隔符

awk -F: '{print $1}' /etc/passwd		#以冒号作为分隔符
 awk -F"[:,_]" '{print $1}' /etc/passwd #使用集合定义分隔符

2.6.内置变量RS、OFS、ORS

RS

内置变量RS保存的是输入数据的行分隔符，默认为\n，可以指定其它字符作为行分隔符

awk -v RS="." '{print $1}' /tmp/hosts		#指定.作为行分隔符

OFS

保存的是输出字段的分隔符（列分隔符），默认为空格

awk -v OFS="-" '{print $1,$2}' /tmp/hosts	#以"-"作为字段分隔符
 awk -v OFS="\t" '{print $1,$2}' /tmp/hosts #以Tab制表符为字段分隔符
 awk -v OFS=". " '{print NR,$0}' /tmp/hosts #在每行前面加上行号和点

ORS

保存的是输出记录的分隔符

awk -v ORS="-" '{print $1}' /tmp/hosts

2.7.print指令

可以输出常量和变量，如果是字符串常量需要用双引号括起来，数字常量可以直接打印

awk '{print 123}' /tmp/hosts
 awk '{print "IP:",$1}' /tmp/hosts
 awk '{print "第1列:"$1,"\t第2列:"$2}' /tmp/hosts

2.8.条件匹配

awk '/localhost/' /tmp/hosts
 awk '$3~/local/' /tmp/hosts #每行的第3列去匹配local
 awk '$3~/local/{print $1,$2}' /tmp/hosts
 awk '$2=="localhost"' /tmp/hosts #第2列精确匹配localhost
 awk '$2!="localhost"' /tmp/hosts #取反
 awk -F: '$3<=10' /etc/passwd #第3列小于等于10的行
 awk -F: 'NR==10' /etc/passwd #仅显示第10行
 awk -F: '$3>1 && $3<5' /etc/passwd #逻辑与
 awk -F: '$3==1 || $3==5' /etc/passwd #逻辑或

2.9.BEGIN和END

BEGIN导致动作指令仅在读取任何数据记录之前执行一次，END导致动作指令仅在读取完所有数据记录后执行一次

BEGIN可以进行数据初始化，END可以进行数据汇总

awk 'BEGIN{print "OK"}'
 awk 'END{print NR}' /etc/passwd #打印最后一行的行号

awk -F: 'BEGIN{print "用户名 UID 解释器"} \ {print $1,$3,$7} \ END {print "共有"NR"个账号."}' /etc/passwd | column -t	#column实现格式化输出，并按升序排序

中间省略

2.10.数字计算

[15:30:04][root@localhost:~]# awk 'BEGIN{print 2+3}'
 5
 [15:30:13][root@localhost:~]# awk 'BEGIN{print 2*3}'
 6
 [15:30:17][root@localhost:~]# awk 'BEGIN{print 2/5}'
 0.4
 [15:30:31][root@localhost:~]# awk 'BEGIN{print 5%2}'
 1
 [15:30:45][root@localhost:~]# awk 'BEGIN{print 52}'
 25
 [15:30:52][root@localhost:~]# awk 'BEGIN{x=5;y=2;print x-y}'
 3
 [15:31:27][root@localhost:~]# awk 'BEGIN{x=1;x++;print x}'
 2
 [15:31:46][root@localhost:~]# awk 'BEGIN{x=1;x+=1;print x}'
 2

awk中变量不需定义就可以直接使用，作为字符处理时未定义的变量默认值为空，作为数字处理时未定义的变量默认值为0

awk 'BEGIN{print "["x"]","["y"]"}'		#x和y默认为空
 awk 'BEGIN{print x+8}' #x默认为0

2.11.循环计数

awk '/bash$/{x++} END{print x}' /etc/passwd

逐行读取/etc/passwd文件，x初始值为0，匹配到以bash结尾的行时自加1，最后打印x的值。
此处表明以bash结尾的行共有5行

who | awk '$1=="root"{x++} END{print x}'	#统计有多少个客户端登录root
 seq 200 | awk '$1%6==0 && $1~/6/' #打印1~200之间能被6整除且包含数字6的整数数字

三、awk条件判断

if判断后面如果只有一个动作指令，则花括号{}可省略，如果if判断后面的指令为多条指令则需要使用花括号括起来，多个指令使用分号分隔。

3.1.单分支语句

语法：

if(判断条件){ 
 
 动作指令序列;
 }

查找cpu使用率大于0.3的进程

ps -eo user,pid,pcpu,comm | awk '{if($3>0.5) print}'

3.2.双分支if语句

语法：

if(判断条件){ 
 
 动作指令1;
 } else { 
 
 动作指令2;
 }

统计系统用户与普通用户的个数

awk -F: '{if($3<1000){x++} else{y++}} END{print "系统用户个数:"x"","普通用户个数:"y""}' /etc/passwd

3.3.多分支语句

if(判断条件){ 
 
 动作指令1;
 } else if(判断条件2){ 
 
 动作指令2;
 } else { 
 
 动作指令N;
 }

四、awk数组与循环

awk 'BEGIN{a[0]=11;a[1]=12;print a[0],a[1]}'
 
 awk 'BEGIN{ \ tom["age"]=22; \ tom["addr"]="sichuan"; \ print tom["age"],tom["addr"] \ }'

4.1.遍历数组

语法：

for(变量 in 数组名){ 
 
 动作指令序列
 }

示例：

awk 'BEGIN{ \ > a[0]=1;a[11]=22;a["book"]=32;a["work"]="home"; \ > for(i in a){print i,a[i]} \ > }'

awk 'BEGIN{ \ > a[11]=1;a[22]=2; \ > if("22" in a){print "yse"} else {print no} \ > }'

4.2.for循环

采用与C语言一样的语法格式

for(表达式1;表达式2;表达式3) { 
 
 动作指令序列
 }

awk 'BEGIN{ for (i=1;i<=4;i++) {print i}}'
 
 awk -F: '{ \ for(i=1;i<=NF;i++) \ > {if($i=="root") x++} \ > } END {print x}' /etc/passwd

统计root出现的次数。
这里面包含了两个循环，一个是隐含循环，awk会逐行处理数据；一个是for循环每列的值，如果等于root，就让x自加1，最后打印x的值

4.3.while循环

语法：

while(条件判断){ 
 
 动作指令序列;
 }

示例：

awk 'BEGIN{ i=1; while(i<=5) {print i;i++}}'

4.4.中断语句

与shell类似，awk提供了continue、break、exit循环中断语句。

awk 'BEGIN{ \ i=0; while(i<=5) { \ i++; \ if(i==3) {continue}; \ print i \ }; \ } \ END {print "END"}' /tmp/hosts

五、awk函数

5.1.内置I/O函数

getline函数

能让awk立刻读取下一行数据（读取下一条记录并复制给$0,并重新设置NF、NR和FNR）

#解决挂载逻辑卷时，分区信息跨行显示的问题
 df -h | awk '{if(NF==1) {getline;print $3}; if(NF==6) {print $4}}'

next函数

awk -F: '/root/{getline;print "next line:",$0} {print "normal line"}' /etc/passwd

awk -F: '/root/{next;print "next line:",$0} {print "normal line"}' /etc/passwd

system(命令)函数

可以直接在awk中调用shell命令，会启动一个新shell进程执行命令

awk 'BEGIN{system("ls")}'
 awk '{system("echo date:"$0)}' /tmp/hosts

5.2.内置数值函数

cos(expr)、sin(expr)、sqrt(expr)

int(expr)函数

可以对小数取整

[14:23:42][root@localhost:~]# awk 'BEGIN{print int(6.8)}'
 6

rand()函数

返回0到1之间的随机数

awk 'BEGIN{print rand()}'
 awk 'BEGIN{for(i=1;i<=5;i++) print int(100*rand())}' #生成5个100以内的随机数

srand([expr])

可以使用expr定义新的随机数种子，没有expr时则使用当前系统的时间为随机数种子

awk 'BEGIN{srand();print rand()}'		#使用时间做随机数种子
 awk 'BEGIN{srand(22);print rand()}' #使用数值做随机数种子

5.3.内置字符串函数

length([s])函数

可以统计字符串s的长度，如果不指定字符串s则统计$0的长度

awk 'BEGIN{test="hello"; print length(test)}'		#打印字符串长度
 awk 'BEGIN{t[0]="hi";t[1]="the"; print length(t)}' #返回数组素个数
 awk '{print length()}' /etc/shells #返回文件每行的字符长度

index(字符串1，字符串2)

返回字符串2在字符串1中的位置

awk 'BEGIN{test="hello";print index(test,"l")}'

match(s,r)

根据正则表达式r返回其在字符串s中的位置坐标

[14:47:52][root@localhost:~]# awk 'BEGIN{print match("How much","[a-z]")}' #小写字母在第2个位置开始出现
 2

tolower(srt)

可以将字符串转换为小写

[14:49:51][root@localhost:~]# awk 'BEGIN{print tolower("HELLo")}'
 hello

toupper(str)

将字符串转为大写

split(字符串，数组，分隔符)

awk 'BEGIN{split("hello world",test); print test[1],test[2]}'
 awk 'BEGIN{split("hello:world",test,":"); print test[1],test[2]}' #指定冒号(:)为分隔符

gsub(r,s,[,t])

将字符串t中所有与正则表达式r匹配的字符串全部替换为s,如果没有指定字符串t，则默认对$0进行替换操作

[15:11:47][root@localhost:~]# head -1 /etc/passwd | awk '{gsub("[0-9]","");print $0}'
 root:x:::root:/root:/bin/bash

sub(r,s,[,t])

与gsub类似，但仅替换第一个匹配的字符串，而不是替换全部

substr(s,i,[,n])

对字符串s进行截取，从第i位开始，截取n个字符串，如果n没有指定则一直截取到字符串s的末尾位置

[15:16:17][root@localhost:~]# awk 'BEGIN{hi="Hello World"; print substr(hi,2,3)}' #从第2位开始截取3个字符
 ell

5.4.内置时间函数

[15:16:21][root@localhost:~]# awk 'BEGIN{print systime()}'
 1627802328

5.5.用户自定义函数

语法：

function 函数名(参数列表) { 
 命令序列 }

awk ' \ function max(x,y) { \ if(x>y) {print x} \ else {print y} } \ BEGIN {max(5,6)} '

六、常用命令

cat example.txt | awk 'NR%2==1' 	#删除example.txt文件中的所有偶数行
 echo " false" |awk -F' ' '{print $NF}' #去掉前面的空格
 docker images | grep 'mysql' | awk '{printf"%s:%s\n",$1,$2}' #获取镜像名:Tag
 ps -ef | grep java | grep -v 'color' awk '{for (i=8;i<=NF;i++)printf("%s ", $i);print ""}' #获取从第八列开始到最后一列的内容

七、常用技巧

打印各磁盘可用大小

df | grep -v tmpfs | awk 'NR!=1 {disk[$1]=$4} \ END {for(i in disk) {printf "%-20s %-10s\n",i,disk[i]/1024"M"} }'

统计磁盘可用容量

df | tail -n +2 | grep -v tmpfs | awk '{sum+=$4} END{print "磁盘可用容量:"sum/1024/1024"G"}'

统计/etc下文件总大小

ls -l /etc | awk '/^-/{sum+=$5} END{print "文件总大小:"sum/1024"M"}'

统计访问Nginx的各IP访问次数

awk ' \ {IP[$1]++} \ END { \ for (i in IP) {print i,IP[i]} \ }' /var/log/nginx/access.log

查看Nginx 1点到5点半的日志

awk -F"[: /]" '$7":"$8 >= "01:00" && $7":"$8 <="05:30"' /var/log/nginx/access.log

查看Docker容器的CPU使用率

docker stats jenkins --no-stream |awk 'NR==2{print $3}'

今天的文章 awk命令详解分享到此就结束了，感谢您的阅读。

文章目录

一、概述

二、基础语法

2.1.记录与字段

2.2.内置变量

2.3.自定义变量

2.4.调用系统变量

2.5.自定义分隔符

2.6.内置变量RS、OFS、ORS

RS

OFS

ORS

2.7.print指令

2.8.条件匹配

2.9.BEGIN和END

2.10.数字计算

2.11.循环计数

三、awk条件判断

3.1.单分支语句

3.2.双分支if语句

3.3.多分支语句

四、awk数组与循环

4.1.遍历数组

4.2.for循环

4.3.while循环

4.4.中断语句

五、awk函数

5.1.内置I/O函数

getline函数

next函数

system(命令)函数

5.2.内置数值函数

int(expr)函数

rand()函数

srand([expr])

5.3.内置字符串函数

length([s])函数

index(字符串1，字符串2)

match(s,r)

tolower(srt)

toupper(str)

split(字符串，数组，分隔符)

gsub(r,s,[,t])

sub(r,s,[,t])

substr(s,i,[,n])

5.4.内置时间函数

5.5.用户自定义函数

六、常用命令

七、常用技巧

打印各磁盘可用大小

统计磁盘可用容量

统计/etc下文件总大小

统计访问Nginx的各IP访问次数

查看Nginx 1点到5点半的日志

查看Docker容器的CPU使用率

相关推荐