Linux Shell：awk文本處理工具丑掺，Linux的SQL神器（一篇搞定awk）

摘要：Linux贾虽，Shell，awk

awk簡介

awk是一個強大的文本分析工具吼鱼，尤其是對linux中的結構化二維表數(shù)據(jù)可以實現(xiàn)類似SQL的檢索蓬豁，統(tǒng)計，替換功能菇肃。簡單來說awk就是把文件逐行的讀入地粪，以空格為默認分隔符將每行切片，切開的部分再進行各種分析處理琐谤，簡單而言awk等于遍歷蟆技，正則，邏輯判斷斗忌，操作的shell代碼集合

功能支持：文本匹配质礼，文本轉化，文本統(tǒng)計分析
操作對象：文件或者標準輸入
工作方式：逐行掃描文件织阳，從第一行到最后一行眶蕉，執(zhí)行匹配和操作邏輯

awk語法

（1）awk基本語法快速開始

awk的基本語法如下

awk 'pattern' filename
awk '{action}' filename
awk 'pattern {action}' filename

其中pattern代表匹配條件，action代表匹配到之后的操作唧躲，filename代表文件造挽，其中filename（或者標準輸入輸出）必不可少，pattern和action二者必須有其中一個弄痹，否則無法運行饭入。一共支持三種方式，表明awk支持文件匹配（結合正則或者關系運算匹配）肛真，文件操作和對匹配到的內(nèi)容做操作谐丢。除了對文件操作之外，一種常用的是用在標準輸入輸出上

echo 'something' | awk '{action}'

下面分別對4中方式進行測試
1.只有匹配條件
如果只有匹配條件則打印出所有符合條件的整行，匹配方式可以為正則匹配乾忱，在正則表達式前后加上/pattern/

awk '/test/{print $0}' /etc/group
docker:x:999:test
test:x:1001:

另一種是條件過濾匹配讥珍，例如精確匹配第一個元素為docker的行，精確匹配需要對匹配內(nèi)容加雙引號饭耳，不需要/pattern/

awk 'BEGIN{FS=":"}$1=="docker"{print $0}' /etc/group
docker:x:999,test

其中awk整體匹配+操作語句使用單引號括起來串述，語句內(nèi)部有字符需要精確匹配使用雙引號括起來执解，$1是被分割后每行的第一個元素寞肖，索引從1開始，$0代表整行

2.只有操作模式
這種不對行做篩選直接操作衰腌，操作的模式最常用的是調(diào)用打印函數(shù)print新蟆，比如打印分割之后的第一個元素

awk 'BEGIN{FS=":"}{print $1}' /etc/group
root
daemon
bin
sys

如果想打印多個元素可以寫多個$n，例如解析一個日志右蕊，以空格分割后取整個字段字符串

awk '/label'\'': 1/{print $6 $7 $8 $9 $10 $11 $12 $13}' details.log
{'ent_name':'海航科技股份有限公司','bad_date':'2020-06-01','predict_date':'2020-03-03','label':1}
{'ent_name':'撫順特殊鋼股份有限公司','bad_date':'2018-12-01','predict_date':'2018-09-02','label':1}
{'ent_name':'東旭光電科技股份有限公司','bad_date':'2020-02-01','predict_date':'2019-11-03','label':1}

另一種輸出連續(xù)列的方法是調(diào)用C語法循環(huán)語句琼稻，使用printf打印結尾不帶換行符直接追加打印

awk '/label'\'': 1/{for (i=6;i<=13;i++)printf $i" ";printf "\n"}' details.log

3.匹配條件+操作模式
兩者結合先篩選出符合的行再做統(tǒng)一操作，例如篩選包含docker的行輸出第一個元素

awk 'BEGIN{FS=":"}/docker/{print $1}' /etc/group
docker

4.對標準輸入進行操作
可以對標準輸出做awk操作饶囚，產(chǎn)生標準輸出的方式有cat帕翻，echo等，以及可以在控制臺輸出的工具萝风，例如
使用cat的輸出

cat /etc/group |awk 'BEGIN{FS=":"}{print $1}'
root
daemon
bin
sys
adm

使用echo的輸出

echo "1 2 3 4" |awk '{print $2}'
2

使用其他命令到控制臺的輸出嘀掸，比如使用/usr/local/bin/下的自定義工具getip輸出IP

getip |awk 'BEGIN{FS="."}{print $1}'
192

比如docker images命令的輸出篩選鏡像

docker images | awk '/mysql/'
mysql                                        5.7                            09361feeb475   5 months ago    447MB
mysql                                        latest                         5c62e459e087   5 months ago    556MB

awk命令參數(shù)

awk命名可以在上面的基礎上增加可配參數(shù)，常用參數(shù)如下

命令選項	描述
-F	指定文本分隔符规惰，默認是Tab或者空格
-v	在復雜邏輯中設置變量
' '	引用代碼塊
-f	-f或者-file睬塌，從腳本文件中讀取awk命令
BEGIN	初始化代碼塊，在每一行處理之前運行歇万，設置處理邏輯的全全局變量
END	結尾代碼塊揩晴，在每一行處理完之后再執(zhí)行，輸出最終的計算結果
{}	代碼塊贪磺，編寫處理邏輯硫兰，BEGIN和END后面也需要{}

對其中幾個進行測試，-F文本問個符號

echo "1,2,3,4" |awk -F "," '{print $2}' 
2

awk -F ":" '{print $1}' /etc/group
root
daemon
bin
sys

BEGIN用于在awk匹配邏輯之前設置全局變量寒锚，必須大寫例如設置內(nèi)置分隔符

awk  'BEGIN{FS=":"}{print $1}' /etc/group

也可以設置自定義變量瞄崇，變量的命名由用戶自定義，如果有多個變量中間用分號;隔開壕曼，在引用的時候action中直接引用變量名（不加$）,如果是純串不需要引用用雙引號括起來

awk 'BEGIN{FS=":";v1="用戶組是"}{print v1$1}' /etc/group
用戶組是mysql
用戶組是docker
用戶組是test

-v設置awk全局變量苏研，可以在action中引用設置的變量，效果和在BEGIN中設置一樣

awk  -v v1="用戶組是:" -v v2=" gid是" 'BEGIN{FS=":"}{print v1$1v2$2}' /etc/group
用戶組是:mysql gid是x
用戶組是:docker gid是x
用戶組是:test gid是x

END用于在遍歷完每一行后進行一個計算操作腮郊，最終得出全部計算結果摹蘑，例如統(tǒng)計總共遍歷了多少行

awk 'BEGIN{FS=":";cnt=0}{cnt+=1}END{print cnt}' /etc/group
71

這個和cat /etc/group |wc -l結果一致，進一步可以將計算結果寫入文件

awk 'BEGIN{FS=":";cnt=0}{cnt+=1}END{print cnt}' /etc/group > cnt.txt

（2）awk內(nèi)置變量

對于awk來說變量又分為內(nèi)置變量和自定義變量轧飞，awk中包含很多內(nèi)置變量衅鹿，比如說-F命令默認的分隔符是Tab或者空格撒踪，實際上就是awk的內(nèi)部變量FS來控制的，內(nèi)置變量的目的是在awk邏輯中進行修改和引用大渤，常用的內(nèi)置變量如下

變量名	描述
$0	當前記錄制妄，整個一行記錄
$1~$n	當前記錄被分隔符分割之后的元素，根據(jù)索引位置排
FS	字段分隔符默認是空格
NF	字段個數(shù)泵三，就是有多少列
NR	行號耕捞，從1開始
RS	記錄之間的分隔符，默認是換行符
FILENAME	當前輸入文件的名字
IGNORECASE	如果為真烫幕，則進行忽略大小寫的匹配

剛才在BEGIN中已經(jīng)測試使用了內(nèi)置變量FS俺抽，以及$0和$1等，現(xiàn)在測試以下字段個數(shù)较曼，行號磷斧，以及忽略大小寫
NF可能是num of feature

echo '1 2 3 4' |awk '{print NF}'
4

NR顯示行號，比如選取70行以上的

awk 'BEGIN{FS=":"}NR>70{print $0}' /etc/group
test:x:1001:

復雜一點取偶數(shù)行捷犹，直接拿到NR計算即可弛饭，這個等于判定符號對整數(shù)和字符通吃

awk 'BEGIN{FS=":"}NR%2==0{print $0}' /etc/group

IGNORECASE忽略大小寫，比如用在精確匹配中大寫匹配規(guī)則可以匹配小寫內(nèi)容

awk 'BEGIN{FS=":";IGNORECASE=1}$1=="Docker"{print $0}' /etc/group
docker:x:999:test

具體是將IGNORECASE加入BEGIN中萍歉，1是開啟侣颂，0是關閉，默認關閉

（3）pattern語法

pattern部分分為正則表達式和條件過濾翠桦，正則舉幾個例子即可

正則匹配部分

^符號匹配行首横蜒，比如查看ls的是文件夾的

ll |awk /^d/
drwxr-xr-x  5 root     root           4096 12月  9 17:25 ./
drwxr-xr-x 62 root root       4096 12月 13 14:36 ../
drwxr-xr-x  4 root     root           4096 7月  29 18:48 bisai/
drwxrwxr-x  2 root root       4096 2月  20  2019 docker/

$匹配結尾，比如在echo中使用-e激活換行符销凑，匹配以f結尾的行

echo -e "dsd\nsdslhf\nssdf\n" |awk '/f$/'
sdslhf
ssdf

[ ]匹配字符集丛晌，可以完成多個字符集中任何一個字符的匹配，比如匹配以d或者s開頭的并且第二個字符是s的結果

echo -e "dsd\nkdslhf\nssdf\n" |awk '/^[ds]s/'
dsd
ssdf

[^ ]排他設置斗幼，和字符集匹配相反澎蛛，只要不在指定的字符集內(nèi)其他的都算匹配到，比如匹配首字母不是k和s的所有行

echo -e "dsd\nkdslhf\nssdf\n" |awk '/^[^ks]/'
dsd

再比如包含匹配蜕窿，只要行中包含精確匹配的內(nèi)容谋逻，對輸出篩選包含do字眼的

ll |awk /do/
drwxrwxr-x  2 root root       4096 2月  20  2019 docker/
-rw-r--r--  1 root     root       43844133 10月  8 06:17 docker-18.06.3-ce.tgz
-rw-r--r--  1 root     root           1200 10月 14 08:53 docker.services

match函數(shù)：macth可以返回指定要匹配內(nèi)容，類似通用的正則表達式桐经，格式如下

match($0,/pattern/,a);action

在match函數(shù)中最后一個元素定義了一個a數(shù)組毁兆，使用print輸出a的第一個匹配元素a[1]，如果是a[0]就是匹配到的行

ifconfig wlp2s0|grep netmask |awk '{match($0,/([0-9]{1,3}\.[0-9]{1,3}\.[0-9]{1,3}\.[0-9]{1,3})/,a); print a[1]}'
192.168.43.59

記錄一個轉義問題阴挣，如果要匹配單引號气堕，語句如下，先\轉移再用小括號括起來

echo ''\''123'\''' |awk '/'\''/'
'123'

條件過濾部分

條件過濾部分可以實現(xiàn)單分之和多分支邏輯，語法如下

awk 'BEGIN{}條件{action}END{}'

例如統(tǒng)計每行第三個字段是工商的行數(shù)茎芭，相當于SQL的select count... where...

awk '$3=="工商"{i++}END{print i}' reason_code.txt
21

其中$3=="工商"是條件放在最前面揖膜，{i++}是action初始的變量i為0，最后調(diào)用print打印出統(tǒng)計值梅桩，在這個基礎上再增加一個條件壹粟，第四列是高的，相當于select count... where...and...

awk '$3=="工商"&&$4=="高"{i++}END{print i}' reason_code.txt
6

使用&&完成條件的交集宿百，同理并集使用||趁仙，也可以完成檢索展示的工作，例如檢索A列等于某值時B列的值

awk '$3=="工商"{print $2}' reason_code.txt 
企業(yè)經(jīng)營年限
法定代表人變更
企業(yè)機構類型
高層變動

（4）action語法

action對每一行過濾后的結構進行操作犀呼，最簡單的就是打印幸撕，除此之外可以在這一步完成統(tǒng)計分析的邏輯編寫
awk還可以實現(xiàn)select sum的功能薇组，對一列累加求和

awk -F "," '{sum+=$2}END{print sum}' pira_label_score.txt 
1315

使用action可以實現(xiàn)類似SQL group by的功能外臂，分組統(tǒng)計個數(shù)，類似于select count(1) group by律胀，比如

awk '{x[$3]+=1}END{for(i in x){print i,x[i]}}' reason_code.txt 
財務 5
稅務 1
工商 21

實現(xiàn)的方式是在action中定義一個關聯(lián)數(shù)組x（字段）宋光，然后往里面添加key和+1，在END中再遍歷一次即可炭菌，如果不使用awk而是寫shell定義數(shù)組和遍歷需要很長一段罪佳，如下

#/bin/bash
unset x
declare -A x

while read line
do
    key=`echo $line |awk -F ' ' '{print $3}'`
    x[$key]=$[${x[$key]}+1]
done<reason_code.txt

for i in ${!x[@]}
do
    echo $i,${x[$i]}
done

在action里面可以加入條件篩選，相當于action也可以包含pattern的功能黑低，比如統(tǒng)計出每行第三個字段是工商的行數(shù)赘艳，相當于SQL的select count ...where...

awk '{if($3=="工商")i++}END{print i}' reason_code.txt
10

再加一個分之判斷，統(tǒng)計一下工商和征信克握，多個判斷條件之間要用;分號隔開蕾管，如果不用分號需要將條件判斷后面的代碼加{}代碼段

awk '{if($3=="工商") i++; else if($3=="征信") j++;}END{print i,j}' reason_code.txt
21 10

同樣除了統(tǒng)計剛才這個awk邏輯還可以完成替換打印輸出，相當于case when

awk '{if($3=="工商")print "數(shù)據(jù)源是工商"; else if($3=="債股")print "數(shù)據(jù)源是債股"; else print "數(shù)據(jù)源是其他"}' reason_code.txt
數(shù)據(jù)源是其他
數(shù)據(jù)源是工商
數(shù)據(jù)源是其他
數(shù)據(jù)源是其他

也可以實現(xiàn)類似SQL的功能菩暗，檢索每行第三個元素是工商的第一個字段掰曾，太強了，感覺這個非常實用停团，相當于select ... where...

awk '{if($3=="工商")print $2}' reason_code.txt 
企業(yè)經(jīng)營年限
法定代表人變更
企業(yè)機構類型
高層變動

再舉一個例子旷坦，將第二列大于等于9的第一列篩選出來寫入一個文件

awk -F "," '{if($2>=9)print $1}' pira_label_score.txt > awk.txt
cat awk.txt 
1000053
1000088
1000089
1000116
1000205
1000229

實際上action可以一步到位，將條件和操作全部寫在action里面佑稠，多條件分之注意在else秒梅，else if之前增加分號

awk常用任務

獲取配置文件中某個key的value，例如有一個config.yml

cat config.yml 
mysql_host: 172.17.0.1
mysql_port: 3306
mysql_user: xiaogp
mysql_password: ******

現(xiàn)要從中獲取其中的mysql_host

awk -F ':' '$1=="mysql_host"{gsub(" ","",$0);print $2}' config.yml 
172.17.0.1

其中gsub用來替換空格舌胶，順序為先調(diào)用gsub去除空格捆蜀，在使用-F進行分割，再判斷$1=="mysql_host，因此如果寫成-F ': '（冒號空格）就無法分割導致$1=="mysql_host匹配不上為空

最后編輯于：2021.12.22 22:37:40

?著作權歸作者所有,轉載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末漱办，一起剝皮案震驚了整個濱河市这刷，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌娩井，老刑警劉巖暇屋，帶你破解...
沈念sama閱讀 218,941評論 6贊 508
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場離奇詭異洞辣，居然都是意外死亡咐刨，警方通過查閱死者的電腦和手機，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 93,397評論 3贊 395
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門扬霜，熙熙樓的掌柜王于貴愁眉苦臉地迎上來定鸟，“玉大人，你說我怎么就攤上這事著瓶×瑁” “怎么了？”我有些...
開封第一講書人閱讀 165,345評論 0贊 356
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵材原，是天一觀的道長沸久。經(jīng)常有香客問我，道長余蟹，這世上最難降的妖魔是什么卷胯？我笑而不...
開封第一講書人閱讀 58,851評論 1贊 295
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮威酒，結果婚禮上窑睁，老公的妹妹穿的比我還像新娘。我一直安慰自己葵孤，他們只是感情好担钮，可當我...
茶點故事閱讀 67,868評論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著佛呻，像睡著了一般裳朋。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上吓著，一...
開封第一講書人閱讀 51,688評論 1贊 305
城市分裂傳說
那天鲤嫡，我揣著相機與錄音，去河邊找鬼绑莺。笑死暖眼，一個胖子當著我的面吹牛，可吹牛的內(nèi)容都是我干的纺裁。我是一名探鬼主播诫肠，決...
沈念sama閱讀 40,414評論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼司澎，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了栋豫？” 一聲冷哼從身側響起挤安，我...
開封第一講書人閱讀 39,319評論 0贊 276
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎丧鸯，沒想到半個月后蛤铜，有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 45,775評論 1贊 315
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡丛肢，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 37,945評論 3贊 336
?白月光啟示錄
正文我和宋清朗相戀三年围肥，在試婚紗的時候發(fā)現(xiàn)自己被綠了。大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片蜂怎。...
茶點故事閱讀 40,096評論 1贊 350
活死人
序言：一個原本活蹦亂跳的男人離奇死亡穆刻，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出杠步，到底是詐尸還是另有隱情氢伟，我是刑警寧澤，帶...
沈念sama閱讀 35,789評論 5贊 346
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布篮愉，位于F島的核電站腐芍，受9級特大地震影響差导，放射性物質發(fā)生泄漏试躏。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點故事閱讀 41,437評論 3贊 331
男人毒藥：我在死后第九天來索命
文/蒙蒙一设褐、第九天我趴在偏房一處隱蔽的房頂上張望颠蕴。院中可真熱鬧，春花似錦助析、人聲如沸犀被。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,993評論 0贊 22
一樁弒父案外冀，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽寡键。三九已至，卻和暖如春雪隧，著一層夾襖步出監(jiān)牢的瞬間西轩，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 33,107評論 1贊 271
情欲美人皮
我被黑心中介騙來泰國打工脑沿，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留藕畔，地道東北人。一個月前我還...
沈念sama閱讀 48,308評論 3贊 372
代替公主和親
正文我出身青樓庄拇，卻偏偏與公主長得像注服，于是被迫代替她去往敵國和親韭邓。傳聞我的和親對象是個殘疾皇子，可洞房花燭夜當晚...
茶點故事閱讀 45,037評論 2贊 355

Linux Shell：awk文本處理工具，Linux的SQL神器（一篇搞定awk）