概述
- awk為程序員提供了完整的編程模型类垫,awk程序由一個(gè)主輸入循環(huán)(main input loop)維持,主輸入循環(huán)反復(fù)執(zhí)行,直到終止條件被觸發(fā)畦戒。awk已經(jīng)搭好了主輸入循環(huán)框架籍嘹,程序員寫(xiě)的代碼被嵌入到主輸入循環(huán)框架中執(zhí)行闪盔。例如在java中,程序員需要寫(xiě)一個(gè)main函數(shù)辱士,打開(kāi)文件泪掀、讀取文件行、進(jìn)行相應(yīng)處理颂碘,關(guān)閉文件异赫,awk自動(dòng)完成了上述步驟。
- awk還定義了兩個(gè)特殊的字段头岔,BEGIN和END塔拳,BEGIN用于在主輸入循環(huán)之前執(zhí)行,即在未讀取文件行之前執(zhí)行切油,END在主輸入循環(huán)之后執(zhí)行蝙斜,即在讀取輸入行完畢后執(zhí)行。
- 簡(jiǎn)單的說(shuō)澎胡,awk就是把文件逐行的讀入孕荠,以空格為默認(rèn)分隔符將每行切片,切開(kāi)的部分再進(jìn)行各種分析處理攻谁。
awk使用方法
- awk語(yǔ)句都是由模式和動(dòng)作組成稚伍,模式是一組用于測(cè)試輸入行是否需要執(zhí)行動(dòng)作的規(guī)則,動(dòng)作是包含語(yǔ)句戚宦、函數(shù)和表達(dá)式的執(zhí)行過(guò)程个曙。簡(jiǎn)而言之,模式?jīng)Q定動(dòng)作何時(shí)觸發(fā)和觸發(fā)事件受楼,動(dòng)作執(zhí)行對(duì)輸入行的處理垦搬。
- awk [-F 域分隔符] ‘a(chǎn)wk程序段’輸入文件
- awk -f awk腳本文件 輸入文件
- 基本命令格式如下:
case-1:
[root@localhost ~]# awk '條件1 {動(dòng)作 1} 條件 2 {動(dòng)作 2} …' 文件名
case-2:
awk '{pattern + action}' {filenames}
awk條件(pattern)
awk支持的主要條件.png
例如:
x>10:判斷變量 x 是否大于10;
x == y:判斷變量 x 是否等于變量 y艳汽;
A~B:判斷字符串 A 中是否包含能匹配 B 表達(dá)式的子字符串猴贰;
A!~B:判斷字符串 A 中是否不包含能匹配 B 表達(dá)式的子字符串;
- awk內(nèi)置函數(shù)
ARGC 命令行參數(shù)個(gè)數(shù)
ARGV 命令行參數(shù)排列
ENVIRON 支持隊(duì)列中系統(tǒng)環(huán)境變量的使用
FILENAME awk瀏覽的文件名
FNR 瀏覽文件的記錄數(shù)
FS 設(shè)置輸入域分隔符河狐,等價(jià)于命令行 -F選項(xiàng)
NF 瀏覽記錄的域的個(gè)數(shù)
NR 已讀的記錄數(shù)
OFS 輸出域分隔符
ORS 輸出記錄分隔符
RS 控制記錄分隔符
awk動(dòng)作(action)
格式化輸出米绕;
流程控制語(yǔ)句瑟捣;
awk調(diào)用的三種方式
1.命令行方式
awk [-F field-separator] 'commands' input-file(s)
其中,commands 是真正awk命令栅干,[-F域分隔符]是可選的迈套。 input-file(s) 是待處理的文件。
在awk中碱鳞,文件的每一行中桑李,由域分隔符分開(kāi)的每一項(xiàng)稱為一個(gè)域。通常劫笙,在不指名-F域分隔符的情況下芙扎,默認(rèn)的域分隔符是空格。
2.shell腳本方式
將所有的awk命令插入一個(gè)文件填大,并使awk程序可執(zhí)行戒洼,然后awk命令解釋器作為腳本的首行,一遍通過(guò)鍵入腳本名稱來(lái)調(diào)用允华。
相當(dāng)于shell腳本首行的:#!/bin/sh
可以換成:#!/bin/awk
3.將所有的awk命令插入一個(gè)單獨(dú)文件圈浇,然后調(diào)用:
awk -f awk-script-file input-file(s)
其中,-f選項(xiàng)加載awk-script-file中的awk腳本靴寂,input-file(s)跟上面的是一樣的磷蜀。
awk入門(mén)案例
- 按逗號(hào)分隔符獲取最后5行,第3列;(awk的默認(rèn)分隔符為空格)
[liyahui@172 14]$ tail -n 5 /etc/passwd | awk '{print $1}'
root
root
root
dmtsai
root
awk工作流程是這樣的:讀入有'\n'換行符分割的一條記錄百炬,然后將記錄按指定的域分隔符劃分域褐隆,填充域,$0則表示所有域,$1表示第一個(gè)域,$n表示第n個(gè)域剖踊。默認(rèn)域分隔符是"空白鍵" 或 "[tab]鍵",所以$1表示登錄用戶庶弃,$3表示登錄用戶ip,以此類推。
- 如果只是顯示/etc/passwd的賬戶
#cat /etc/passwd |awk -F ':' '{print $1}'
root
daemon
bin
sys
- 這種是awk+action的示例德澈,每行都會(huì)執(zhí)行action{print $1}歇攻。
- -F指定域分隔符為':'。
- 如果只是顯示/etc/passwd的賬戶和賬戶對(duì)應(yīng)的shell,而賬戶與shell之間以tab鍵分割;
#cat /etc/passwd |awk -F ':' '{print $1"\t"$7}'
root /bin/bash
daemon /bin/sh
bin /bin/sh
sys /bin/sh
- 如果只是顯示/etc/passwd的賬戶和賬戶對(duì)應(yīng)的shell,而賬戶與shell之間以逗號(hào)分割,而且在所有行添加列名name,shell,在最后一行添加"blue,/bin/nosh"梆造。
cat /etc/passwd |awk -F ':' 'BEGIN {print "name,shell"} {print $1","$7} END {print "blue,/bin/nosh"}'
name,shell
root,/bin/bash
daemon,/bin/sh
bin,/bin/sh
sys,/bin/sh
....
blue,/bin/nosh
- awk工作流程是這樣的:先執(zhí)行BEGING缴守,然后讀取文件,讀入有/n換行符分割的一條記錄镇辉,然后將記錄按指定的域分隔符劃分域屡穗,填充域,
1表示第一個(gè)域,$n表示第n個(gè)域,隨后開(kāi)始執(zhí)行模式所對(duì)應(yīng)的動(dòng)作action忽肛。接著開(kāi)始讀入第二條記錄······直到所有的記錄都讀完鸡捐,最后執(zhí)行END操作。
- 搜索/etc/passwd有root關(guān)鍵字的所有行
#awk -F: '/root/' /etc/passwd
root:x:0:0:root:/root:/bin/bash
- 這種是pattern的使用示例麻裁,匹配了pattern(這里是root)的行才會(huì)執(zhí)行action(沒(méi)有指定action,默認(rèn)輸出每行的內(nèi)容)。
- 搜索支持正則煎源,例如找root開(kāi)頭的: awk -F: '/^root/' /etc/passwd
- 搜索/etc/passwd有root關(guān)鍵字的所有行色迂,并顯示對(duì)應(yīng)的shell
# awk -F: '/root/{print $7}' /etc/passwd
/bin/bash
- 這里指定了action{print $7}
- 統(tǒng)計(jì)/etc/passwd:文件名,每行的行號(hào)手销,每行的列數(shù)歇僧,對(duì)應(yīng)的完整行內(nèi)容:
#awk -F ':' '{print "filename:" FILENAME ",linenumber:" NR ",columns:" NF ",linecontent:"$0}' /etc/passwd
- 使用printf替代print,可以讓代碼更加簡(jiǎn)潔,易讀
awk -F ':' '{printf("filename:%10s,linenumber:%s,columns:%s,linecontent:%s\n",FILENAME,NR,NF,$0)}' /etc/passwd
print和printf
- awk中同時(shí)提供了print和printf兩種打印輸出的函數(shù)锋拖。
- 其中print函數(shù)的參數(shù)可以是變量诈悍、數(shù)值或者字符串。字符串必須用雙引號(hào)引用兽埃,參數(shù)用逗號(hào)分隔侥钳。如果沒(méi)有逗號(hào),參數(shù)就串聯(lián)在一起而無(wú)法區(qū)分柄错。這里舷夺,逗號(hào)的作用與輸出文件的分隔符的作用是一樣的,只是后者是空格而已售貌。
- printf函數(shù)给猾,其用法和c語(yǔ)言中printf基本相似,可以格式化字符串,輸出復(fù)雜時(shí),printf更加好用颂跨,代碼更易懂敢伸。
awk編程
- 變量和賦值
- 除了awk的內(nèi)置變量,awk還可以自定義變量恒削。
- 下面統(tǒng)計(jì)/etc/passwd的賬戶人數(shù)
awk '{count++;print $0;} END{print "user count is ", count}' /etc/passwd
root:x:0:0:root:/root:/bin/bash
......
user count is 40
- count是自定義變量池颈。之前的action{}里都是只有一個(gè)print,其實(shí)print只是一個(gè)語(yǔ)句,而action{}可以有多個(gè)語(yǔ)句蔓同,以;號(hào)隔開(kāi)饶辙。
這里沒(méi)有初始化count,雖然默認(rèn)是0斑粱,但是妥當(dāng)?shù)淖龇ㄟ€是初始化為0,如下:
awk 'BEGIN {count=0;print "[start]user count is ", count} {count=count+1;print $0;} END{print "[end]user count is ", count}' /etc/passwd
[start]user count is 0
root:x:0:0:root:/root:/bin/bash
...
[end]user count is 40
- 統(tǒng)計(jì)某個(gè)文件夾下的文件占用的字節(jié)數(shù)
ls -l |awk 'BEGIN {size=0;} {size=size+$5;} END{print "[end]size is ", size}'
[end]size is 8657198
- 如果以M為單位顯示:
ls -l |awk 'BEGIN {size=0;} {size=size+$5;} END{print "[end]size is ", size/1024/1024,"M"}'
[end]size is 8.25889 M
- 注意弃揽,統(tǒng)計(jì)不包括文件夾的子目錄。
awk面試題
參考博客:
linux 之shell篇 awk命令
Shell awk命令詳解(格式+使用方法)
https://www.cnblogs.com/chenhuan001/p/6297615.html
shell 強(qiáng)大的awk
Shell編程之AWK的使用