AWK 官方手冊(cè):http://www.gnu.org/software/gawk/manual/gawk.html
awk是一個(gè)強(qiáng)大的文本分析工具覆获,相對(duì)于grep的查找,sed的編輯采记,awk在其對(duì)數(shù)據(jù)分析并生成報(bào)告時(shí),顯得尤為強(qiáng)大。簡(jiǎn)單來說awk就是把文件逐行的讀入,以空格為默認(rèn)分隔符將每行切片十性,切開的部分再進(jìn)行各種分析處理。
awk有3個(gè)不同版本: awk蹈集、nawk和gawk烁试,未作特別說明雇初,一般指gawk拢肆,gawk 是AWK 的 GNU 版本。
awk其名稱得自于它的創(chuàng)始人Alfred Aho 靖诗、Peter Weinberger 和 Brian Kernighan 姓氏的首個(gè)字母郭怪。實(shí)際上 AWK 的確擁有自己的語(yǔ)言: AWK 程序設(shè)計(jì)語(yǔ)言 ,三位創(chuàng)建者已將它正式定義為“樣式掃描和處理語(yǔ)言”刊橘。它允許您創(chuàng)建簡(jiǎn)短的程序鄙才,這些程序讀取輸入文件、為數(shù)據(jù)排序促绵、處理數(shù)據(jù)攒庵、對(duì)輸入執(zhí)行計(jì)算以及生成報(bào)表,還有無數(shù)其他的功能败晴。
語(yǔ)法
awk [選項(xiàng)參數(shù)] 'script' var=value file(s)
或
awk [選項(xiàng)參數(shù)] -f scriptfile var=value file(s)
調(diào)用awk
有三種方式調(diào)用awk
1.命令行方式
awk [-F field-separator] 'commands' input-file(s)
其中浓冒,commands 是真正awk命令,[-F域分隔符]是可選的尖坤。 input-file(s) 是待處理的文件稳懒。
在awk中,文件的每一行中慢味,由域分隔符分開的每一項(xiàng)稱為一個(gè)域场梆。通常墅冷,在不指名-F域分隔符的情況下,默認(rèn)的域分隔符是空格或油。
2.shell腳本方式
將所有的awk命令插入一個(gè)文件寞忿,并使awk程序可執(zhí)行,然后awk命令解釋器作為腳本的首行顶岸,一遍通過鍵入腳本名稱來調(diào)用罐脊。
相當(dāng)于shell腳本首行的:#!/bin/sh
可以換成:#!/bin/awk
3.將所有的awk命令插入一個(gè)單獨(dú)文件,然后調(diào)用:
awk -f awk-script-file input-file(s)
其中蜕琴,-f選項(xiàng)加載awk-script-file中的awk腳本萍桌,input-file(s)跟上面的是一樣的。
基本用法
log.txt文本內(nèi)容如下:
2 this is a test
3 Are you like awk
This's a test
10 There are orange,apple,mongo
用法一:
awk '{pattern + action}' {filenames}
盡管操作可能會(huì)很復(fù)雜凌简,但語(yǔ)法總是這樣上炎,其中 pattern 表示 AWK 在數(shù)據(jù)中查找的內(nèi)容,而 action 是在找到匹配內(nèi)容時(shí)所執(zhí)行的一系列命令雏搂∨菏花括號(hào)({})不需要在程序中始終出現(xiàn),但它們用于根據(jù)特定的模式對(duì)一系列指令進(jìn)行分組凸郑。 pattern就是要表示的正則表達(dá)式裳食,用斜杠括起來。
awk語(yǔ)言的最基本功能是在文件或者字符串中基于指定規(guī)則瀏覽和抽取信息芙沥,awk抽取信息后诲祸,才能進(jìn)行其他文本操作。完整的awk腳本通常用來格式化文本文件中的信息而昨。
通常救氯,awk是以文件的一行為處理單位的。awk每接收文件的一行歌憨,然后執(zhí)行相應(yīng)的命令着憨,來處理文本。
實(shí)例:
# 每行按空格或TAB分割务嫡,輸出文本中的1甲抖、4項(xiàng) (第0項(xiàng)為該整行)
$ awk '{print $1,$4}' log.txt
---------------------------------------------
2 a
3 like
This's
10 orange,apple,mongo
#這種是awk+action的示例,每行都會(huì)執(zhí)行action{print $1,$4}心铃。
# 格式化輸出
$ awk '{printf "%-8s %-10s\n",$1,$4}' log.txt
---------------------------------------------
2 a
3 like
This's
10 orange,apple,mongo
awk工作流程是這樣的:讀入有'\n'換行符分割的一條記錄准谚,然后將記錄按指定的域分隔符劃分域,填充域于个,$0則表示所有域,$1表示第一個(gè)域,$n表示第n個(gè)域氛魁。默認(rèn)域分隔符是"空白鍵" 或 "[tab]鍵"。
print和printf
awk中同時(shí)提供了print和printf兩種打印輸出的函數(shù)。
其中print函數(shù)的參數(shù)可以是變量秀存、數(shù)值或者字符串捶码。字符串必須用雙引號(hào)引用,參數(shù)用逗號(hào)分隔或链。如果沒有逗號(hào)惫恼,參數(shù)就串聯(lián)在一起而無法區(qū)分。這里澳盐,逗號(hào)的作用與輸出文件的分隔符的作用是一樣的祈纯,只是后者是空格而已。
printf函數(shù)叼耙,其用法和c語(yǔ)言中printf基本相似,可以格式化字符串,輸出復(fù)雜時(shí)腕窥,printf更加好用,代碼更易懂筛婉。
用法二:
awk -F #-F相當(dāng)于內(nèi)置變量FS, 指定分割字符
實(shí)例:
# 使用","分割
$ awk -F, '{print $1,$2}' log.txt
---------------------------------------------
2 this is a test
3 Are you like awk
This's a test
10 There are orange apple
# 或者使用內(nèi)建變量
$ awk 'BEGIN{FS=","} {print $1,$2}' log.txt
---------------------------------------------
2 this is a test
3 Are you like awk
This's a test
10 There are orange apple
# 使用多個(gè)分隔符.先使用空格分割簇爆,然后對(duì)分割結(jié)果再使用","分割
$ awk -F '[ ,]' '{print $1,$2,$5}' log.txt
---------------------------------------------
2 this test
3 Are awk
This's a
10 There apple
#顯示/etc/passwd的賬戶和賬戶對(duì)應(yīng)的shell,而賬戶與shell之間以tab鍵分割
#cat /etc/passwd |awk -F ':' '{print $1"\t"$7}'
root /bin/bash
daemon /bin/sh
bin /bin/sh
sys /bin/sh
用法三:
awk -v # 設(shè)置變量
實(shí)例:
$ awk -va=1 '{print $1,$1+a}' log.txt
---------------------------------------------
2 3
3 4
This's 1
10 11
$ awk -va=1 -vb=s '{print $1,$1+a,$1b}' log.txt
---------------------------------------------
2 3 2s
3 4 3s
This's 1 This'ss
10 11 10s
用法四:
awk -f {awk腳本} {文件名}
實(shí)例:
$ awk -f cal.awk log.txt
運(yùn)算符
運(yùn)算符 描述
= += -= *= /= %= ^= **= 賦值
?: C條件表達(dá)式
|| 邏輯或
&& 邏輯與
~ ~! 匹配正則表達(dá)式和不匹配正則表達(dá)式
< <= > >= != == 關(guān)系運(yùn)算符
空格 連接
+ - 加,減
* / % 乘爽撒,除與求余
+ - ! 一元加入蛆,減和邏輯非
^ *** 求冪
++ -- 增加或減少,作為前綴或后綴
$ 字段引用
in 數(shù)組成員
過濾第一列大于2的行
$ awk '$1>2' log.txt #命令
#輸出
3 Are you like awk
This's a test
10 There are orange,apple,mongo
過濾第一列等于2的行
$ awk '$1==2 {print $1,$3}' log.txt #命令
#輸出
2 is
過濾第一列大于2并且第二列等于'Are'的行
$ awk '$1>2 && $2=="Are" {print $1,$2,$3}' log.txt #命令
#輸出
3 Are you
內(nèi)建變量
變量 描述
\$n 當(dāng)前記錄的第n個(gè)字段硕勿,字段間由FS分隔
\$0 完整的輸入記錄
ARGC 命令行參數(shù)的數(shù)目
ARGIND 命令行中當(dāng)前文件的位置(從0開始算)
ARGV 命令行參數(shù)的數(shù)組
CONVFMT 數(shù)字轉(zhuǎn)換格式(默認(rèn)值為%.6g)ENVIRON環(huán)境變量關(guān)聯(lián)數(shù)組
ERRNO 最后一個(gè)系統(tǒng)錯(cuò)誤的描述
FIELDWIDTHS 字段寬度列表(用空格鍵分隔)
FILENAME 當(dāng)前文件名
FNR 各文件分別計(jì)數(shù)的行號(hào)(在awk處理多個(gè)輸入文件的時(shí)候哨毁,在處理完第一個(gè)文件后,NR并不會(huì)從1開始源武,而是繼續(xù)累加扼褪,因此就出現(xiàn)了FNR,每當(dāng)處理一個(gè)新文件的時(shí)候软能,F(xiàn)NR就從1開始計(jì)數(shù)迎捺,F(xiàn)NR可以理解為File Number of Record举畸。)
FS 字段分隔符(默認(rèn)是任何空格) (每行列/域的分隔符查排,F(xiàn)S也可以用正則,當(dāng)FS為空的時(shí)候抄沮,awk會(huì)把一行中的每個(gè)字符跋核,當(dāng)成一列來處理。RS被設(shè)定成非\n時(shí)叛买,\n會(huì)成FS分割符中的一個(gè)砂代。)
IGNORECASE 如果為真,則進(jìn)行忽略大小寫的匹配
NF 輸入字段分割符(目前的記錄被分割的字段的數(shù)目率挣,NF可以理解為Number of Field刻伊。)
NR 已經(jīng)讀出的記錄數(shù),就是行號(hào),從1開始(從awk開始執(zhí)行后捶箱,按照記錄分隔符讀取的數(shù)據(jù)次數(shù)智什,默認(rèn)的記錄分隔符為換行符,因此默認(rèn)的就是讀取的數(shù)據(jù)行數(shù)丁屎,NR可以理解為Number of Record的縮寫荠锭。)
OFMT 數(shù)字的輸出格式(默認(rèn)值是%.6g)
OFS 輸出記錄分隔符(輸出換行符),輸出時(shí)用指定的符號(hào)代替換行符 (輸出結(jié)果時(shí)每行的列分隔符晨川。)
ORS 輸出記錄分隔符(默認(rèn)值是一個(gè)換行符)(輸出結(jié)果時(shí)的分隔符证九,把ORS理解成RS反過程,這樣更容易記憶和理解)
RLENGTH 由match函數(shù)所匹配的字符串的長(zhǎng)度
RS 記錄分隔符(默認(rèn)是一個(gè)換行符)(輸入時(shí)文件中行分隔符共虑,RS也可能是正則表達(dá)式愧怜,RT是利用RS匹配出來的內(nèi)容,如果RS是某個(gè)固定的值時(shí)妈拌,RT就是RS的內(nèi)容叫搁。出當(dāng)RS為空時(shí),awk會(huì)自動(dòng)以多行來做為分割符供炎。)
RS,ORS,FS,OFS詳解:http://blog.51yip.com/shell/1151.html
RSTART 由match函數(shù)所匹配的字符串的第一個(gè)位置
SUBSEP 數(shù)組下標(biāo)分隔符(默認(rèn)值是/034)
實(shí)例:
$ awk 'BEGIN{printf "%4s %4s %4s %4s %4s %4s %4s %4s %4s\n","FILENAME","ARGC","FNR","FS","NF","NR","OFS","ORS","RS";printf "---------------------------------------------\n"} {printf "%4s %4s %4s %4s %4s %4s %4s %4s %4s\n",FILENAME,ARGC,FNR,FS,NF,NR,OFS,ORS,RS}' log.txt
FILENAME ARGC FNR FS NF NR OFS ORS RS
---------------------------------------------
log.txt 2 1 5 1
log.txt 2 2 5 2
log.txt 2 3 3 3
log.txt 2 4 4 4
$ awk -F\' 'BEGIN{printf "%4s %4s %4s %4s %4s %4s %4s %4s %4s\n","FILENAME","ARGC","FNR","FS","NF","NR","OFS","ORS","RS";printf "---------------------------------------------\n"} {printf "%4s %4s %4s %4s %4s %4s %4s %4s %4s\n",FILENAME,ARGC,FNR,FS,NF,NR,OFS,ORS,RS}' log.txt
FILENAME ARGC FNR FS NF NR OFS ORS RS
---------------------------------------------
log.txt 2 1 ' 1 1
log.txt 2 2 ' 1 2
log.txt 2 3 ' 2 3
log.txt 2 4 ' 1 4
# 輸出順序號(hào) NR, 匹配文本行號(hào)
$ awk '{print NR,FNR,$1,$2,$3}' log.txt
---------------------------------------------
1 1 2 this is
2 2 3 Are you
3 3 This's a test
4 4 10 There are
# 指定輸出分割符
$ awk '{print $1,$2,$5}' OFS=" $ " log.txt
---------------------------------------------
2 $ this $ test
3 $ Are $ awk
This's $ a $
10 $ There $
使用正則渴逻,字符串匹配
# 輸出第二列包含 "th",并打印第二列與第四列
$ awk '$2 ~ /th/ {print $2,$4}' log.txt
---------------------------------------------
this a
~ 表示模式開始音诫。// 中是模式惨奕。
# 輸出包含"re" 的行
$ awk '/re/ ' log.txt
---------------------------------------------
3 Are you like awk
10 There are orange,apple,mongo
忽略大小寫
$ awk 'BEGIN{IGNORECASE=1} /this/' log.txt
---------------------------------------------
2 this is a test
This's a test
模式取反
$ awk '$2 !~ /th/ {print $2,$4}' log.txt
Are like
a
There orange,apple,mongo
$ awk '!/th/ {print $2,$4}' log.txt
---------------------------------------------
Are like
a
There orange,apple,mongo
awk腳本
關(guān)于awk腳本,我們需要注意兩個(gè)關(guān)鍵詞BEGIN和END竭钝。
- BEGIN{ 這里面放的是執(zhí)行前的語(yǔ)句 }
- END {這里面放的是處理完所有的行后要執(zhí)行的語(yǔ)句 }
- {這里面放的是處理每一行時(shí)要執(zhí)行的語(yǔ)句}
假設(shè)有這么一個(gè)文件(學(xué)生成績(jī)表):
$ cat score.txt
Marry 2143 78 84 77
Jack 2321 66 78 45
Tom 2122 48 77 71
Mike 2537 87 97 95
Bob 2415 40 57 62
我們的awk腳本如下:
$ cat cal.awk
#!/bin/awk -f
#運(yùn)行前
BEGIN {
math = 0
english = 0
computer = 0
printf "NAME NO. MATH ENGLISH COMPUTER TOTAL\n"
printf "---------------------------------------------\n"
}
#運(yùn)行中
{
math+=$3
english+=$4
computer+=$5
printf "%-6s %-6s %4d %8d %8d %8d\n", $1, $2, $3,$4,$5, $3+$4+$5
}
#運(yùn)行后
END {
printf "---------------------------------------------\n"
printf " TOTAL:%10d %8d %8d \n", math, english, computer
printf "AVERAGE:%10.2f %8.2f %8.2f\n", math/NR, english/NR, computer/NR
}
awk工作流程是這樣的:先執(zhí)行BEGING梨撞,然后讀取文件,讀入有/n換行符分割的一條記錄香罐,然后將記錄按指定的域分隔符劃分域卧波,填充域,$0則表示所有域,$1表示第一個(gè)域,$n表示第n個(gè)域,隨后開始執(zhí)行模式所對(duì)應(yīng)的動(dòng)作action庇茫。接著開始讀入第二條記錄······直到所有的記錄都讀完港粱,最后執(zhí)行END操作。
我們來看一下執(zhí)行結(jié)果:
$ awk -f cal.awk score.txt
NAME NO. MATH ENGLISH COMPUTER TOTAL
---------------------------------------------
Marry 2143 78 84 77 239
Jack 2321 66 78 45 189
Tom 2122 48 77 71 196
Mike 2537 87 97 95 279
Bob 2415 40 57 62 159
---------------------------------------------
TOTAL: 319 393 350
AVERAGE: 63.80 78.60 70.00
條件語(yǔ)句
awk中的條件語(yǔ)句是從C語(yǔ)言中借鑒來的旦签,見如下聲明方式:
if (expression) {
statement;
statement;
... ...
}
if (expression) {
statement;
} else {
statement2;
}
if (expression) {
statement1;
} else if (expression1) {
statement2;
} else {
statement3;
}
統(tǒng)計(jì)某個(gè)文件夾下的文件占用的字節(jié)數(shù),過濾4096大小的文件(一般都是文件夾):
ls -l |awk 'BEGIN {size=0;print "[start]size is ", size} {if($5!=4096){size=size+$5;}} END{print "[end]size is ", size/1024/1024,"M"}'
[end]size is 8.22339 M
循環(huán)語(yǔ)句
awk中的循環(huán)語(yǔ)句同樣借鑒于C語(yǔ)言查坪,支持while、do/while宁炫、for偿曙、break、continue羔巢,這些關(guān)鍵字的語(yǔ)義和C語(yǔ)言中的語(yǔ)義完全相同望忆。
數(shù)組
因?yàn)閍wk中數(shù)組的下標(biāo)可以是數(shù)字和字母罩阵,數(shù)組的下標(biāo)通常被稱為關(guān)鍵字(key)。值和關(guān)鍵字都存儲(chǔ)在內(nèi)部的一張針對(duì)key/value應(yīng)用hash的表格里启摄。由于hash不是順序存儲(chǔ)永脓,因此在顯示數(shù)組內(nèi)容時(shí)會(huì)發(fā)現(xiàn),它們并不是按照你預(yù)料的順序顯示出來的鞋仍。數(shù)組和變量一樣常摧,都是在使用時(shí)自動(dòng)創(chuàng)建的,awk也同樣會(huì)自動(dòng)判斷其存儲(chǔ)的是數(shù)字還是字符串威创。一般而言落午,awk中的數(shù)組用來從記錄中收集信息,可以用于計(jì)算總和肚豺、統(tǒng)計(jì)單詞以及跟蹤模板被匹配的次數(shù)等等溃斋。
顯示/etc/passwd的賬戶
awk -F ':' 'BEGIN {count=0;} {name[count] = $1;count++;}; END{for (i = 0; i < NR; i++) print i, name[i]}' /etc/passwd
0 root
1 daemon
2 bin
3 sys
4 sync
5 games
......
這里使用for循環(huán)遍歷數(shù)組
另外一些實(shí)例
AWK的hello world程序?yàn)椋?/h5>
BEGIN { print "Hello, world!" }
計(jì)算文件大小
$ ls -l *.txt | awk '{sum+=$5} END {print sum}'
--------------------------------------------------
666581
從文件中找出長(zhǎng)度大于80的行
awk 'length>80' log.txt
打印九九乘法表
seq 9 | sed 'H;g' | awk -v RS='' '{for(i=1;i<=NF;i++)printf("%dx%d=%d%s", i, NR, i*NR, i==NR?"\n":"\t")}'
BEGIN { print "Hello, world!" }
$ ls -l *.txt | awk '{sum+=$5} END {print sum}'
--------------------------------------------------
666581
awk 'length>80' log.txt
seq 9 | sed 'H;g' | awk -v RS='' '{for(i=1;i<=NF;i++)printf("%dx%d=%d%s", i, NR, i*NR, i==NR?"\n":"\t")}'