一.??AWK?說明
???????awk是一種編程語言欢际,用于在linux/unix下對文本和數(shù)據(jù)進(jìn)行處理母市。數(shù)據(jù)可以來自標(biāo)準(zhǔn)輸入、一個或多個文件损趋,或其它命令的輸出患久。它支持用戶自定義函數(shù)和動態(tài)正則表達(dá)式等先進(jìn)功能,是linux/unix下的一個強(qiáng)大編程工具浑槽。它在命令行中使用蒋失,但更多是作為腳本來使用。
???????awk的處理文本和數(shù)據(jù)的方式:它逐行掃描文件桐玻,從第一行到最后一行篙挽,尋找匹配的特定模式的行,并在這些行上進(jìn)行你想要的操作镊靴。如果沒有指定處理動作铣卡,則把匹配的行顯示到標(biāo)準(zhǔn)輸出(屏幕)链韭,如果沒有指定模式,則所有被操作所指定的行都被處理煮落。
???????awk分別代表其作者姓氏的第一個字母敞峭。因?yàn)樗淖髡呤侨齻€人,分別是Alfred Aho蝉仇、Brian Kernighan旋讹、Peter Weinberger。
???????gawk是awk的GNU版本轿衔,它提供了Bell實(shí)驗(yàn)室和GNU的一些擴(kuò)展沉迹。下面介紹的awk是以GUN的gawk為例的,在linux系統(tǒng)中已把a(bǔ)wk鏈接到gawk害驹,所以下面全部以awk進(jìn)行介紹鞭呕。
二.?awk命令格式和選項(xiàng)
2.1.?awk的語法有兩種形式
???????awk [options] 'script' var=value file(s)
???????awk [options] -f scriptfile var=value file(s)
2.2.?命令選項(xiàng)
(1)-F fs or --field-separator fs?:指定輸入文件折分隔符,fs是一個字符串或者是一個正則表達(dá)式裙秋,如-F:琅拌。
(2)-v var=value or --asign var=value?:賦值一個用戶定義變量缨伊。
(3)-f scripfile or --file scriptfile?:從腳本文件中讀取awk命令摘刑。
(4)-mf nnn and -mr nnn?:對nnn值設(shè)置內(nèi)在限制,-mf選項(xiàng)限制分配給nnn的最大塊數(shù)目刻坊;-mr選項(xiàng)限制記錄的最大數(shù)目枷恕。這兩個功能是Bell實(shí)驗(yàn)室版awk的擴(kuò)展功能,在標(biāo)準(zhǔn)awk中不適用谭胚。
(5)-W compact or --compat,?-W traditional or --traditional?:在兼容模式下運(yùn)行awk徐块。所以gawk的行為和標(biāo)準(zhǔn)的awk完全一樣,所有的awk擴(kuò)展都被忽略灾而。
(6)-W copyleft or --copyleft,?-W copyright or --copyright?:打印簡短的版權(quán)信息胡控。
(7)-W help or --help,?-W usage or --usage?:打印全部awk選項(xiàng)和每個選項(xiàng)的簡短說明。
(8)-W lint or --lint?:打印不能向傳統(tǒng)unix平臺移植的結(jié)構(gòu)的警告旁趟。
(9)-W lint-old or --lint-old?:打印關(guān)于不能向傳統(tǒng)unix平臺移植的結(jié)構(gòu)的警告昼激。
(10)-W posix?:打開兼容模式。但有以下限制锡搜,不識別:/x橙困、函數(shù)關(guān)鍵字、func耕餐、換碼序列以及當(dāng)fs是一個空格時凡傅,將新行作為一個域分隔符;操作符**和**=不能代替^和^=肠缔;fflush無效夏跷。
(11)-W re-interval or --re-inerval?:允許間隔正則表達(dá)式的使用哼转,參考(grep中的Posix字符類),如括號表達(dá)式[[:alpha:]]槽华。
(12)-W source program-text or --source program-text?:使用program-text作為源代碼释簿,可與-f命令混用喊式。
(13)-W version or --version?:打印bug報告信息的版本柳击。
三.?模式和操作
awk腳本是由模式和操作組成的:
??????????????pattern {action}?如$ awk '/root/' test,或$ awk '$3 < 100' test垒棋。
???????兩者是可選的懂鸵,如果沒有模式偏螺,則action應(yīng)用到全部記錄,如果沒有action匆光,則輸出匹配全部記錄套像。默認(rèn)情況下,每一個輸入行都是一條記錄终息,但用戶可通過RS變量指定不同的分隔符進(jìn)行分隔夺巩。
3.1.?模式
模式可以是以下任意一個:
(1)正則表達(dá)式:使用通配符的擴(kuò)展集。
(2)關(guān)系表達(dá)式:可以用下面運(yùn)算符表中的關(guān)系運(yùn)算符進(jìn)行操作周崭,可以是字符(3)串或數(shù)字的比較柳譬,如$2>%1選擇第二個字段比第一個字段長的行。
(4)模式匹配表達(dá)式:用運(yùn)算符~(匹配)和~!(不匹配)续镇。
(5)模式美澳,模式:指定一個行的范圍。該語法不能包括BEGIN和END模式摸航。
(6)BEGIN:讓用戶指定在第一條輸入記錄被處理之前所發(fā)生的動作制跟,通常可在這里設(shè)置全局變量酱虎。
(7)END:讓用戶在最后一條輸入記錄被讀取之后發(fā)生的動作雨膨。
3.2.?操作
???????操作由一人或多個命令、函數(shù)读串、表達(dá)式組成聊记,之間由換行符或分號隔開,并位于大括號內(nèi)爹土。主要有四部份:
(1)變量或數(shù)組賦值
(2)輸出命令
(3)內(nèi)置函數(shù)
(4)控制流命令
四.?awk的環(huán)境變量
變量描述
$n當(dāng)前記錄的第n個字段甥雕,字段間由FS分隔。
$0完整的輸入記錄胀茵。
ARGC命令行參數(shù)的數(shù)目社露。
ARGIND命令行中當(dāng)前文件的位置(從0開始算)。
ARGV包含命令行參數(shù)的數(shù)組琼娘。
CONVFMT數(shù)字轉(zhuǎn)換格式(默認(rèn)值為%.6g)
ENVIRON環(huán)境變量關(guān)聯(lián)數(shù)組峭弟。
ERRNO最后一個系統(tǒng)錯誤的描述附鸽。
FIELDWIDTHS字段寬度列表(用空格鍵分隔)。
FILENAME當(dāng)前文件名瞒瘸。
FNR同NR坷备,但相對于當(dāng)前文件。
FS字段分隔符(默認(rèn)是任何空格)情臭。
IGNORECASE如果為真省撑,則進(jìn)行忽略大小寫的匹配。
NF當(dāng)前記錄中的字段數(shù)俯在。
NR當(dāng)前記錄數(shù)竟秫。
OFMT數(shù)字的輸出格式(默認(rèn)值是%.6g)。
OFS輸出字段分隔符(默認(rèn)值是一個空格)跷乐。
ORS輸出記錄分隔符(默認(rèn)值是一個換行符)肥败。
RLENGTH由match函數(shù)所匹配的字符串的長度。
RS記錄分隔符(默認(rèn)是一個換行符)愕提。
RSTART由match函數(shù)所匹配的字符串的第一個位置馒稍。
SUBSEP數(shù)組下標(biāo)分隔符(默認(rèn)值是/034)。
五.?awk運(yùn)算符
運(yùn)算符描述
= += -= *= /= %= ^= **=賦值
?:C條件表達(dá)式
||邏輯或
&&邏輯與
~ ~!匹配正則表達(dá)式和不匹配正則表達(dá)式
< <= > >= != ==關(guān)系運(yùn)算符
空格連接
+ -加浅侨,減
* / &乘纽谒,除與求余
+ - !一元加,減和邏輯非
^ ***求冪
++ --增加或減少仗颈,作為前綴或后綴
$字段引用
in數(shù)組成員
六.?記錄和域
6.1.?記錄
???????awk把每一個以換行符結(jié)束的行稱為一個記錄佛舱。
???????記錄分隔符:默認(rèn)的輸入和輸出的分隔符都是回車,保存在內(nèi)建變量ORS和RS中挨决。
???????$0變量:它指的是整條記錄。如$ awk '{print $0}' test將輸出test文件中的所有記錄订歪。
???????變量NR:一個計數(shù)器脖祈,每處理完一條記錄,NR的值就增加1刷晋。
???????如$ awk '{print NR,$0}' test將輸出test文件中所有記錄盖高,并在記錄前顯示記錄號。
6.2.?域
???????記錄中每個單詞稱做“域”眼虱,默認(rèn)情況下以空格或tab分隔喻奥。awk可跟蹤域的個數(shù),并在內(nèi)建變量NF中保存該值捏悬。如$ awk '{print $1,$3}' test將打印test文件中第一和第三個以空格分開的列(域)撞蚕。
6.3.?域分隔符
???????內(nèi)建變量FS保存輸入域分隔符的值,默認(rèn)是空格或tab过牙。我們可以通過-F命令行選項(xiàng)修改FS的值甥厦。如$ awk -F: '{print $1,$5}' test將打印以冒號為分隔符的第一纺铭,第五列的內(nèi)容。
???????可以同時使用多個域分隔符刀疙,這時應(yīng)該把分隔符寫成放到方括號中舶赔,如$awk -F'[:/t]' '{print $1,$3}' test,表示以空格谦秧、冒號和tab作為分隔符竟纳。
???????輸出域的分隔符默認(rèn)是一個空格,保存在OFS中疚鲤。如$ awk -F: '{print $1,$5}' test蚁袭,$1和$5間的逗號就是OFS的值。
七.?gawk專用正則表達(dá)式元字符
以下幾個是gawk專用的石咬,不適合unix版本的awk揩悄。
(1)/Y?:匹配一個單詞開頭或者末尾的空字符串。
(2)/B:匹配單詞內(nèi)的空字符串鬼悠。
(3)/<:匹配一個單詞的開頭的空字符串删性,錨定開始。
(4)/>?:匹配一個單詞的末尾的空字符串焕窝,錨定末尾蹬挺。
(5)/w?:匹配一個字母數(shù)字組成的單詞。
(6)/W?:匹配一個非字母數(shù)字組成的單詞它掂。
(7)/‘:匹配字符串開頭的一個空字符串巴帮。
(8)/'?:匹配字符串末尾的一個空字符串。
八.?匹配操作符(~)
???????用來在記錄或者域內(nèi)匹配正則表達(dá)式虐秋。如$ awk '$1 ~/^root/' test將顯示test文件第一列中以root開頭的行榕茧。
九.?比較表達(dá)式
conditional expression1 ? expression2: expression3,
例如:$ awk '{max = {$1 > $3} ? $1: $3: print max}' test客给。如果第一個域大于第三個域用押,$1就賦值給max,否則$3就賦值給max靶剑。
$ awk '$1 + $2 < 100' test蜻拨。如果第一和第二個域相加大于100,則打印這些行桩引。
$ awk '$1 > 5 && $2 < 10' test,如果第一個域大于5缎讼,并且第二個域小于10,則打印這些行坑匠。
十.?范圍模板
???????范圍模板匹配從第一個模板的第一次出現(xiàn)到第二個模板的第一次出現(xiàn)之間所有行血崭。如果有一個模板沒出現(xiàn),則匹配到開頭或末尾。如$ awk '/root/,/mysql/' test將顯示root第一次出現(xiàn)到mysql第一次出現(xiàn)之間的所有行功氨。
十一.?示例
1序苏、awk '/101/' file?顯示文件file中包含101的匹配行。
awk '/101/,/105/' file
awk '$1 == 5' file
awk '$1 == "CT"' file?注意必須帶雙引號
awk '$1 * $2 >100 ' file
awk '$2 >5 && $2<=15' file
2捷凄、awk '{print NR,NF,$1,$NF,}' file?顯示文件file的當(dāng)前記錄號忱详、域數(shù)和每一行的第一個和最后一個域。
awk '/101/ {print $1,$2 + 10}' file?顯示文件file的匹配行的第一跺涤、二個域加10匈睁。
awk '/101/ {print $1$2}' file
awk '/101/ {print $1 $2}' file?顯示文件file的匹配行的第一、二個域桶错,但顯示時域中間沒有分隔符航唆。
3、df | awk '$4>1000000 '?通過管道符獲得輸入院刁,如:顯示第4個域滿足條件的行糯钙。
4、awk -F "|" '{print $1}' file?按照新的分隔符“|”進(jìn)行操作退腥。
awk 'BEGIN { FS="[: /t|]" }
{print $1,$2,$3}' file?通過設(shè)置輸入分隔符(FS="[: /t|]")修改輸入分隔符任岸。
Sep="|"
awk -F $Sep '{print $1}' file?按照環(huán)境變量Sep的值做為分隔符。
awk -F '[ :/t|]' '{print $1}' file?按照正則表達(dá)式的值做為分隔符狡刘,這里代表空格享潜、:、TAB嗅蔬、|同時做為分隔符剑按。
awk -F '[][]' '{print $1}' file?按照正則表達(dá)式的值做為分隔符,這里代表[澜术、]
5艺蝴、awk -f awkfile file?通過文件awkfile的內(nèi)容依次進(jìn)行控制。
cat awkfile
/101/{print "/047 Hello! /047"} --遇到匹配行以后打印?' Hello! './047代表單引號瘪板。
{print $1,$2} --因?yàn)闆]有模式控制吴趴,打印每一行的前兩個域。
6侮攀、awk '$1 ~ /101/ {print $1}' file?顯示文件中第一個域匹配101的行(記錄)。
7厢拭、awk 'BEGIN { OFS="%"}
{print $1,$2}' file?通過設(shè)置輸出分隔符(OFS="%")修改輸出格式兰英。
8、awk 'BEGIN { max=100 ;print "max=" max}
BEGIN?表示在處理任意行之前進(jìn)行的操作供鸠。
{max=($1 >max ?$1:max); print $1,"Now max is "max}' file?取得文件第一個域的最大值畦贸。
9、awk '$1 * $2 >100 {print $1}' file?顯示文件中第一個域匹配101的行(記錄)。
10薄坏、awk '{$1 == 'Chi' {$3 = 'China'; print}' file?找到匹配行后先將第3個域替換后再顯示該行(記錄)趋厉。
awk '{$7 %= 3; print $7}' file?將第7域被3除,并將余數(shù)賦給第7域再打印胶坠。
11君账、awk '/tom/ {wage=$2+$3; printf wage}' file?找到匹配行后為變量wage賦值并打印該變量。
12沈善、awk '/tom/ {count++;}
END {print "tom was found "count" times"}' file
END表示在所有輸入行處理完后進(jìn)行處理乡数。
13、awk 'gsub(//$/,"");gsub(/,/,""); cost+=$4;
END {print "The total is $" cost>"filename"}' file
gsub函數(shù)用空串替換$和,再將結(jié)果輸出到filename中闻牡。
1 2 3 $1,200.00
1 2 3 $2,300.00
1 2 3 $4,000.00
awk '{gsub(//$/,"");gsub(/,/,"");
if ($4>1000&&$4<2000) c1+=$4;
else if ($4>2000&&$4<3000) c2+=$4;
else if ($4>3000&&$4<4000) c3+=$4;
else c4+=$4; }
END {printf "c1=[%d];c2=[%d];c3=[%d];c4=[%d]/n",c1,c2,c3,c4}"' file
通過if和else if完成條件語句
awk '{gsub(//$/,"");gsub(/,/,"");
if ($4>3000&&$4<4000) exit;
else c4+=$4; }
END {printf "c1=[%d];c2=[%d];c3=[%d];c4=[%d]/n",c1,c2,c3,c4}"' file
通過exit在某條件時退出净赴,但是仍執(zhí)行END操作。
awk '{gsub(//$/,"");gsub(/,/,"");
if ($4>3000) next;
else c4+=$4; }
END {printf "c4=[%d]/n",c4}"' file
通過next在某條件時跳過該行罩润,對下一行執(zhí)行操作玖翅。
14、awk '{ print FILENAME,$0 }' file1 file2 file3>fileall
???????把file1割以、file2金度、file3的文件內(nèi)容全部寫到fileall中,格式為打印文件并前置文件名拳球。?
15审姓、awk ' $1!=previous { close(previous); previous=$1 }
{print substr($0,index($0," ") +1)>$1}' fileall
???????把合并后的文件重新分拆為3個文件。并與原文件一致祝峻。?
16魔吐、awk 'BEGIN {"date"|getline d; print d}'
???????通過管道把date的執(zhí)行結(jié)果送給getline,并賦給變量d莱找,然后打印酬姆。?
17、awk 'BEGIN {system("echo "Input your name://c""); getline d;print "/nYour name is",d,"/b!/n"}'
通過getline命令交互輸入name奥溺,并顯示出來辞色。
awk 'BEGIN {FS=":"; while(getline< "/etc/passwd" >0) { if($1~"050[0-9]_") print $1}}'
打印/etc/passwd文件中用戶名包含050x_的用戶名。
18浮定、awk '{ i=1;while(i
awk '{ for(i=1;i
type file|awk -F "/" '
{ for(i=1;i
{ if(i==NF-1) { printf "%s",$i }
else { printf "%s/",$i } }}'
顯示一個文件的全路徑相满。?
用for和if顯示日期
awk 'BEGIN {
for(j=1;j<=12;j++)
{ flag=0;
printf "/n%d月份/n",j;
for(i=1;i<=31;i++)
{
if (j==2&&i>28) flag=1;
if ((j==4||j==6||j==9||j==11)&&i>30) flag=1;
if (flag==0) {printf "%02d%02d ",j,i}
}
}
}'
19、在awk中調(diào)用系統(tǒng)變量必須用單引號桦卒,如果是雙引號立美,則表示字符串
Flag=abcd
awk '{print '$Flag'}'?結(jié)果為abcd
awk '{print "$Flag"}'?結(jié)果為$Flag
20.?其他小示例
$ awk '/^(no|so)/' test-----打印所有以模式no或so開頭的行。
$ awk '/^[ns]/{print $1}' test-----如果記錄以n或s開頭方灾,就打印這個記錄建蹄。
$ awk '$1 ~/[0-9][0-9]$/(print $1}' test-----如果第一個域以兩個數(shù)字結(jié)束就打印這個記錄碌更。
$ awk '$1 == 100 || $2 < 50' test-----如果第一個或等于100或者第二個域小于50,則打印該行洞慎。
$ awk '$1 != 10' test-----如果第一個域不等于10就打印該行痛单。
$ awk '/test/{print $1 + 10}' test-----如果記錄包含正則表達(dá)式test,則第一個域加10并打印出來劲腿。
$ awk '{print ($1 > 5 ? "ok "$1: "error"$1)}' test-----如果第一個域大于5則打印問號后面的表達(dá)式值旭绒,否則打印冒號后面的表達(dá)式值。
$ awk '/^root/,/^mysql/' test----打印以正則表達(dá)式root開頭的記錄到以正則表達(dá)式mysql開頭的記錄范圍內(nèi)的所有記錄谆棱。如果找到一個新的正則表達(dá)式root開頭的記錄快压,則繼續(xù)打印直到下一個以正則表達(dá)式mysql開頭的記錄為止,或到文件末尾垃瞧。