關(guān)于AWK的10個(gè)經(jīng)典案例

awk是Linux系統(tǒng)下一個(gè)處理文本的編程語(yǔ)言工具顾翼,能用簡(jiǎn)短的程序處理標(biāo)準(zhǔn)輸入或文件投放、數(shù)據(jù)排序、計(jì)算以及生成報(bào)表等等适贸,應(yīng)用非常廣泛灸芳。

基本的命令語(yǔ)法:awk option 'pattern {action}' file

下面根據(jù)工作經(jīng)驗(yàn)總結(jié)了10個(gè)實(shí)用的awk案例,面試筆試題也經(jīng)常會(huì)出拜姿,供朋友們參考學(xué)習(xí)烙样。

1、分析訪問(wèn)日志(Nginx為例)

日志格式:

'$remote_addr - $remote_user [$time_local] "$request" $status $body_bytes_sent "$http_referer" "$http_user_agent" "$http_x_forwarded_for"'

統(tǒng)計(jì)訪問(wèn)IP次數(shù):

# awk '{a[$1]++}END{for(v in a)print v,a[v]}' access.log

統(tǒng)計(jì)訪問(wèn)訪問(wèn)大于100次的IP:

# awk '{a[$1]++}END{for(v ina){if(a[v]>100)print v,a[v]}}' access.log

統(tǒng)計(jì)訪問(wèn)IP次數(shù)并排序取前10:

# awk '{a[$1]++}END{for(v in a)print v,a[v]|"sort -k2 -nr |head -10"}' access.log

統(tǒng)計(jì)時(shí)間段訪問(wèn)最多的IP:

# awk'$4>="[02/Jan/2017:00:02:00" &&$4< ="[02/Jan/2017:00:03:00"{a[$1]++}END{for(v in a)print v,a[v]}'access.log

統(tǒng)計(jì)上一分鐘訪問(wèn)量:

# date=$(date -d '-1 minute'+%d/%d/%Y:%H:%M)

# awk -vdate=$date '$4~date{c++}END{printc}' access.log

統(tǒng)計(jì)訪問(wèn)最多的10個(gè)頁(yè)面:

# awk '{a[$7]++}END{for(vin a)print v,a[v]|"sort -k1 -nr|head -n10"}' access.log

統(tǒng)計(jì)每個(gè)URL數(shù)量和返回內(nèi)容總大腥锓省:

# awk '{a[$7]++;size[$7]+=$10}END{for(v ina)print a[v],v,size[v]}' access.log

統(tǒng)計(jì)每個(gè)IP訪問(wèn)狀態(tài)碼數(shù)量:

# awk '{a[$1" "$9]++}END{for(v ina)print v,a[v]}' access.log

統(tǒng)計(jì)訪問(wèn)IP是404狀態(tài)次數(shù):

# awk '{if($9~/404/)a[$1" "$9]++}END{for(i in a)print v,a[v]}' access.log

2谒获、兩個(gè)文件差異對(duì)比

文件內(nèi)容:

# seq 1 5 > a

# seq 3 7 > b

找出b文件在a文件相同記錄:

方法1:

# awk 'FNR==NR{a[$0];next}{if($0 in a)print $0}' a b

3

4

5

# awk 'FNR==NR{a[$0];next}{if($0 in a)print FILENAME,$0}' a b

b 3

b 4

b 5

# awk 'FNR==NR{a[$0]}NR>FNR{if($0 ina)print $0}' a b

3

4

5

# awk 'FNR==NR{a[$0]=1;next}(a[$0]==1)' a b? # a[$0]是通過(guò)b文件每行獲取值,如果是1說(shuō)明有

# awk 'FNR==NR{a[$0]=1;next}{if(a[$0]==1)print}' a b

3

4

5

方法2:

# awk 'FILENAME=="a"{a[$0]}FILENAME=="b"{if($0 in a)print $0}' a b

3

4

5

方法3:

# awk 'ARGIND==1{a[$0]=1}ARGIND==2 && a[$0]==1' a b

3

4

5

找出b文件在a文件不同記錄:

方法1:

# awk 'FNR==NR{a[$0];next}!($0 in a)' a b

6

7

# awk 'FNR==NR{a[$0]=1;next}(a[$0]!=1)' a b

# awk'FNR==NR{a[$0]=1;next}{if(a[$0]!=1)print}' a b

6

7

方法2:

# awk'FILENAME=="a"{a[$0]=1}FILENAME=="b" && a[$0]!=1' a b

方法3:

# awk 'ARGIND==1{a[$0]=1}ARGIND==2 && a[$0]!=1' a b

3壁却、合并兩個(gè)文件

文件內(nèi)容:

# cat a

zhangsan 20

lisi 23

wangwu 29

# cat b

zhangsan man

lisi woman

wangwu man

將a文件合并到b文件:

方法1:

# awk 'FNR==NR{a[$1]=$0;next}{print a[$1],$2}' a b

zhangsan 20 man

lisi 23 woman

wangwu 29 man

方法2:

# awk 'FNR==NR{a[$1]=$0}NR>FNR{print a[$1],$2}' a b

zhangsan 20 man

lisi 23 woman

wangwu 29 man

將a文件相同IP的服務(wù)名合并:

# cat a

192.168.1.1: httpd

192.168.1.1: tomcat

192.168.1.2: httpd

192.168.1.2: postfix

192.168.1.3: mysqld

192.168.1.4: httpd

# awk 'BEGIN{FS=":";OFS=":"}{a[$1]=a[$1] $2}END{for(v in a)print v,a[v]}' a

192.168.1.4: httpd

192.168.1.1: httpd tomcat

192.168.1.2: httpd postfix

192.168.1.3: mysqld

解讀:

數(shù)組a存儲(chǔ)是$1=a[$1] $2批狱,第一個(gè)a[$1]是以第一個(gè)字段為下標(biāo),值是a[$1] $2展东,也就是$1=a[$1] $2赔硫,值的a[$1]是用第一個(gè)字段為下標(biāo)獲取對(duì)應(yīng)的值,但第一次數(shù)組a還沒(méi)有元素琅锻,那么a[$1]是空值卦停,此時(shí)數(shù)組存儲(chǔ)是192.168.1.1=httpd向胡,再遇到192.168.1.1時(shí)恼蓬,a[$1]通過(guò)第一字段下標(biāo)獲得上次數(shù)組的httpd,把當(dāng)前處理的行第二個(gè)字段放到上一次同下標(biāo)的值后面僵芹,作為下標(biāo)192.168.1.1的新值处硬。此時(shí)數(shù)組存儲(chǔ)是192.168.1.1=httpd tomcat。每次遇到相同的下標(biāo)(第一個(gè)字段)就會(huì)獲取上次這個(gè)下標(biāo)對(duì)應(yīng)的值與當(dāng)前字段并作為此下標(biāo)的新值拇派。

4荷辕、將第一列合并到一行

# cat file

1 2 3

4 5 6

7 8 9

# awk '{for(i=1;i< =NF;i++)a[i]=a[i]$i" "}END{for(vin a)print a[v]}' file

1 4 7

2 5 8

3 6 9

解讀:

for循環(huán)是遍歷每行的字段,NF等于3件豌,循環(huán)3次疮方。

讀取第一行時(shí):

第一個(gè)字段:a[1]=a[1]1" "? 值a[1]還未定義數(shù)組,下標(biāo)也獲取不到對(duì)應(yīng)的值茧彤,所以為空骡显,因此a[1]=1 。

第二個(gè)字段:a[2]=a[2]2" "? 值a[2]數(shù)組a已經(jīng)定義,但沒(méi)有2這個(gè)下標(biāo)惫谤,也獲取不到對(duì)應(yīng)的值壁顶,為空,因此a[2]=2 溜歪。

第三個(gè)字段:a[3]=a[3]3" "? 值a[2]與上面一樣若专,為空,a[3]=3 。

讀取第二行時(shí):

第一個(gè)字段:a[1]=a[1]4" "? 值a[2]獲取數(shù)組a的2為下標(biāo)對(duì)應(yīng)的值蝴猪,上面已經(jīng)有這個(gè)下標(biāo)了调衰,對(duì)應(yīng)的值是1,因此a[1]=1 4

第二個(gè)字段:a[2]=a[2]5" "? 同上拯腮,a[2]=2 5

第三個(gè)字段:a[3]=a[3]6" "? 同上窖式,a[2]=3 6

讀取第三行時(shí)處理方式同上,數(shù)組最后還是三個(gè)下標(biāo)动壤,分別是1=1 4 7萝喘,2=2 5 8,3=36 9琼懊。最后for循環(huán)輸出所有下標(biāo)值阁簸。

5、字符串拆分

字符串拆分:

方法1:

# echo "hello" |awk -F '''{for(i=1;i< =NF;i++)print $i}'

h

e

l

l

o

方法2:

# echo "hello" |awk '{split($0,a,"''");for(v in a)print a[v]}'

l

o

h

e

l

6哼丈、統(tǒng)計(jì)出現(xiàn)的次數(shù)

統(tǒng)計(jì)字符串中每個(gè)字母出現(xiàn)的次數(shù):

# echo "a.b.c,c.d.e" |awk -F'[.,]' '{for(i=1;i< =NF;i++)a[$i]++}END{for(v in a)print v,a[v]}'

a 1

b 1

c 2

d 1

e 1

7启妹、費(fèi)用統(tǒng)計(jì)

得出每個(gè)員工出差總費(fèi)用及次數(shù):

# cat a

zhangsan 8000 1

zhangsan 5000 1

lisi 1000 1

lisi 2000 1

wangwu 1500 1

zhaoliu 6000 1

zhaoliu 2000 1

zhaoliu 3000 1

# awk '{name[$1]++;cost[$1]+=$2;number[$1]+=$3}END{for(v in name)print v,cost[v],number[v]}' a

zhangsan 5000 1

lisi 3000 2

wangwu 1500 1

zhaoliu 11000 3

8、獲取某列數(shù)字最大數(shù)

# cat a

a b 1

c d 2

e f 3

g h 3

i j 2

獲取第三字段最大值:

# awk 'BEGIN{max=0}{if($3>max)max=$3}END{print max}' a

3

打印第三字段最大行:

# awk 'BEGIN{max=0}{a[$0]=$3;if($3>max)max=$3}END{for(v in a)if(a[v]==max)print v}'a

g h 3

e f 3

9醉旦、去除文本第一行和最后一行

# seq 5 |awk'NR>2{print s}{s=$0}'

2

3

4

解讀:

讀取第一行饶米,NR=1,不執(zhí)行print s车胡,s=1

讀取第二行檬输,NR=2,不執(zhí)行print s匈棘,s=2 (大于為真)

讀取第三行丧慈,NR=3,執(zhí)行print s主卫,此時(shí)s是上一次p賦值內(nèi)容2逃默,s=3

最后一行,執(zhí)行print s簇搅,打印倒數(shù)第二行完域,s=最后一行

10、獲取Nginx upstream塊內(nèi)后端IP和端口

# cat a

upstream example-servers1 {

? server 127.0.0.1:80 weight=1 max_fails=2fail_timeout=30s;

}

upstream example-servers2 {

? server 127.0.0.1:80 weight=1 max_fails=2fail_timeout=30s;

? server 127.0.0.1:82 backup;

}

# awk '/example-servers1/,/}/{if(NR>2){print s}{s=$2}}' a

127.0.0.1:80

# awk '/example-servers1/,/}/{if(i>1)print s;s=$2;i++}' a

# awk '/example-servers1/,/}/{if(i>1){print s}{s=$2;i++}}' a

127.0.0.1:80

解讀:

讀取第一行瘩将,i初始值為0吟税,0>1為假关噪,不執(zhí)行print s,x=example-servers1乌妙,i=1

讀取第二行使兔,i=1,1>1為假藤韵,不執(zhí)行prints虐沥,s=127.0.0.1:80,i=2

讀取第三行,i=2泽艘,2>1為真欲险,執(zhí)行prints,此時(shí)s是上一次s賦值內(nèi)容127.0.0.1:80匹涮,i=3

最后一行天试,執(zhí)行print s,打印倒數(shù)第二行然低,s=最后一行喜每。

這種方式與上面一樣,只是用i++作為計(jì)數(shù)器雳攘。

掌握這些awk用法及思路带兜,我相信你在Linux下處理文本無(wú)敵了!

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末吨灭,一起剝皮案震驚了整個(gè)濱河市刚照,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌喧兄,老刑警劉巖无畔,帶你破解...
    沈念sama閱讀 222,104評(píng)論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異吠冤,居然都是意外死亡浑彰,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,816評(píng)論 3 399
  • 文/潘曉璐 我一進(jìn)店門(mén)咨演,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)闸昨,“玉大人蚯斯,你說(shuō)我怎么就攤上這事薄风。” “怎么了拍嵌?”我有些...
    開(kāi)封第一講書(shū)人閱讀 168,697評(píng)論 0 360
  • 文/不壞的土叔 我叫張陵遭赂,是天一觀的道長(zhǎng)。 經(jīng)常有香客問(wèn)我横辆,道長(zhǎng)撇他,這世上最難降的妖魔是什么? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 59,836評(píng)論 1 298
  • 正文 為了忘掉前任,我火速辦了婚禮困肩,結(jié)果婚禮上划纽,老公的妹妹穿的比我還像新娘。我一直安慰自己锌畸,他們只是感情好勇劣,可當(dāng)我...
    茶點(diǎn)故事閱讀 68,851評(píng)論 6 397
  • 文/花漫 我一把揭開(kāi)白布。 她就那樣靜靜地躺著潭枣,像睡著了一般比默。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上盆犁,一...
    開(kāi)封第一講書(shū)人閱讀 52,441評(píng)論 1 310
  • 那天命咐,我揣著相機(jī)與錄音,去河邊找鬼谐岁。 笑死醋奠,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的伊佃。 我是一名探鬼主播钝域,決...
    沈念sama閱讀 40,992評(píng)論 3 421
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼锭魔!你這毒婦竟也來(lái)了例证?” 一聲冷哼從身側(cè)響起,我...
    開(kāi)封第一講書(shū)人閱讀 39,899評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤迷捧,失蹤者是張志新(化名)和其女友劉穎织咧,沒(méi)想到半個(gè)月后,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體漠秋,經(jīng)...
    沈念sama閱讀 46,457評(píng)論 1 318
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡笙蒙,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,529評(píng)論 3 341
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了庆锦。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片捅位。...
    茶點(diǎn)故事閱讀 40,664評(píng)論 1 352
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖搂抒,靈堂內(nèi)的尸體忽然破棺而出艇搀,到底是詐尸還是另有隱情,我是刑警寧澤求晶,帶...
    沈念sama閱讀 36,346評(píng)論 5 350
  • 正文 年R本政府宣布焰雕,位于F島的核電站,受9級(jí)特大地震影響芳杏,放射性物質(zhì)發(fā)生泄漏矩屁。R本人自食惡果不足惜辟宗,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 42,025評(píng)論 3 334
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望吝秕。 院中可真熱鬧泊脐,春花似錦、人聲如沸烁峭。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 32,511評(píng)論 0 24
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)则剃。三九已至耘柱,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間棍现,已是汗流浹背调煎。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 33,611評(píng)論 1 272
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留己肮,地道東北人士袄。 一個(gè)月前我還...
    沈念sama閱讀 49,081評(píng)論 3 377
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像谎僻,于是被迫代替她去往敵國(guó)和親娄柳。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,675評(píng)論 2 359

推薦閱讀更多精彩內(nèi)容

  • 1艘绍、Nginx日志分析日志格式:'$remote_addr - $remote_user [$time_local...
    運(yùn)維前線(xiàn)閱讀 728評(píng)論 0 4
  • 轉(zhuǎn)載 原文的排版和內(nèi)容都更加友好,并且詳細(xì),我只是在這里貼出了一部分留作自己以后參考和學(xué)習(xí),如希望更詳細(xì)了解AWK...
    XKirk閱讀 3,222評(píng)論 2 25
  • 原文:http://521cto.blog.51cto.com/950229/945683 利用awk自身變量NR...
    ibadplum閱讀 1,814評(píng)論 0 2
  • 本章主要學(xué)習(xí)內(nèi)容awk介紹 ?awk基本用法 ?awk變量 ?awk格式化 ?awk操作符 ?awk條件判斷 ?a...
    楠人幫閱讀 1,273評(píng)論 0 8
  • Linux指令中文說(shuō)明傳送入口 整理自Linux指令中文說(shuō)明 文本和數(shù)據(jù)進(jìn)行處理的編程語(yǔ)言awk 是一種編程語(yǔ)言赤拒,...
    釋閑人閱讀 2,132評(píng)論 1 6