摘要:Linux
贾虽,Shell
,awk
awk簡介
awk是一個強大的文本分析工具
吼鱼,尤其是對linux中的結構化二維表數(shù)據(jù)可以實現(xiàn)類似SQL
的檢索蓬豁,統(tǒng)計,替換功能菇肃。簡單來說awk就是把文件逐行
的讀入地粪,以空格
為默認分隔符將每行切片,切開的部分再進行各種分析處理琐谤,簡單而言awk等于遍歷
蟆技,正則
,邏輯判斷
斗忌,操作
的shell代碼集合
- 功能支持:
文本匹配
质礼,文本轉化
,文本統(tǒng)計分析
- 操作對象:
文件
或者標準輸入
- 工作方式:
逐行掃描
文件织阳,從第一行到最后一行眶蕉,執(zhí)行匹配和操作邏輯
awk語法
(1)awk基本語法快速開始
awk的基本語法如下
awk 'pattern' filename
awk '{action}' filename
awk 'pattern {action}' filename
其中pattern代表匹配條件,action代表匹配到之后的操作唧躲,filename代表文件造挽,其中filename(或者標準輸入輸出)必不可少,pattern和action二者必須有其中一個弄痹,否則無法運行饭入。一共支持三種方式,表明awk支持文件匹配(結合正則或者關系運算匹配)肛真,文件操作和對匹配到的內(nèi)容做操作谐丢。除了對文件操作之外,一種常用的是用在標準輸入輸出上
echo 'something' | awk '{action}'
下面分別對4中方式進行測試
1.只有匹配條件
如果只有匹配條件則打印出所有符合條件的整行,匹配方式可以為正則匹配
乾忱,在正則表達式前后加上/pattern/
awk '/test/{print $0}' /etc/group
docker:x:999:test
test:x:1001:
另一種是條件過濾匹配
讥珍,例如精確匹配第一個元素為docker的行,精確匹配需要對匹配內(nèi)容加雙引號饭耳,不需要/pattern/
awk 'BEGIN{FS=":"}$1=="docker"{print $0}' /etc/group
docker:x:999,test
其中awk整體匹配+操作語句使用單引號括起來串述,語句內(nèi)部有字符需要精確匹配使用雙引號括起來执解,$1
是被分割后每行的第一個元素寞肖,索引從1開始,$0
代表整行
2.只有操作模式
這種不對行做篩選直接操作衰腌,操作的模式最常用的是調(diào)用打印函數(shù)print
新蟆,比如打印分割之后的第一個元素
awk 'BEGIN{FS=":"}{print $1}' /etc/group
root
daemon
bin
sys
如果想打印多個元素可以寫多個$n
,例如解析一個日志右蕊,以空格分割后取整個字段字符串
awk '/label'\'': 1/{print $6 $7 $8 $9 $10 $11 $12 $13}' details.log
{'ent_name':'海航科技股份有限公司','bad_date':'2020-06-01','predict_date':'2020-03-03','label':1}
{'ent_name':'撫順特殊鋼股份有限公司','bad_date':'2018-12-01','predict_date':'2018-09-02','label':1}
{'ent_name':'東旭光電科技股份有限公司','bad_date':'2020-02-01','predict_date':'2019-11-03','label':1}
另一種輸出連續(xù)列的方法是調(diào)用C語法循環(huán)語句琼稻,使用printf
打印結尾不帶換行符直接追加打印
awk '/label'\'': 1/{for (i=6;i<=13;i++)printf $i" ";printf "\n"}' details.log
3.匹配條件+操作模式
兩者結合先篩選出符合的行再做統(tǒng)一操作,例如篩選包含docker的行輸出第一個元素
awk 'BEGIN{FS=":"}/docker/{print $1}' /etc/group
docker
4.對標準輸入進行操作
可以對標準輸出做awk操作饶囚,產(chǎn)生標準輸出的方式有cat
帕翻,echo
等,以及可以在控制臺輸出的工具萝风,例如
使用cat的輸出
cat /etc/group |awk 'BEGIN{FS=":"}{print $1}'
root
daemon
bin
sys
adm
使用echo的輸出
echo "1 2 3 4" |awk '{print $2}'
2
使用其他命令到控制臺的輸出嘀掸,比如使用/usr/local/bin/下的自定義工具getip輸出IP
getip |awk 'BEGIN{FS="."}{print $1}'
192
比如docker images命令的輸出篩選鏡像
docker images | awk '/mysql/'
mysql 5.7 09361feeb475 5 months ago 447MB
mysql latest 5c62e459e087 5 months ago 556MB
awk命令參數(shù)
awk命名可以在上面的基礎上增加可配參數(shù),常用參數(shù)如下
命令選項 | 描述 |
---|---|
-F | 指定文本分隔符规惰,默認是Tab或者空格 |
-v | 在復雜邏輯中設置變量 |
' ' | 引用代碼塊 |
-f | -f或者-file睬塌,從腳本文件中讀取awk命令 |
BEGIN | 初始化代碼塊,在每一行處理之前運行歇万,設置處理邏輯的全全局變量 |
END | 結尾代碼塊揩晴,在每一行處理完之后再執(zhí)行,輸出最終的計算結果 |
{} | 代碼塊贪磺,編寫處理邏輯硫兰,BEGIN和END后面也需要{} |
對其中幾個進行測試,-F
文本問個符號
echo "1,2,3,4" |awk -F "," '{print $2}'
2
awk -F ":" '{print $1}' /etc/group
root
daemon
bin
sys
BEGIN
用于在awk匹配邏輯之前設置全局變量寒锚,必須大寫例如設置內(nèi)置分隔符
awk 'BEGIN{FS=":"}{print $1}' /etc/group
也可以設置自定義變量瞄崇,變量的命名由用戶自定義,如果有多個變量中間用分號;
隔開壕曼,在引用的時候action中直接引用變量名(不加$),如果是純串不需要引用用雙引號括起來
awk 'BEGIN{FS=":";v1="用戶組是"}{print v1$1}' /etc/group
用戶組是mysql
用戶組是docker
用戶組是test
-v
設置awk全局變量苏研,可以在action中引用設置的變量,效果和在BEGIN中設置一樣
awk -v v1="用戶組是:" -v v2=" gid是" 'BEGIN{FS=":"}{print v1$1v2$2}' /etc/group
用戶組是:mysql gid是x
用戶組是:docker gid是x
用戶組是:test gid是x
END
用于在遍歷完每一行后進行一個計算操作腮郊,最終得出全部計算結果摹蘑,例如統(tǒng)計總共遍歷了多少行
awk 'BEGIN{FS=":";cnt=0}{cnt+=1}END{print cnt}' /etc/group
71
這個和cat /etc/group |wc -l
結果一致,進一步可以將計算結果寫入文件
awk 'BEGIN{FS=":";cnt=0}{cnt+=1}END{print cnt}' /etc/group > cnt.txt
(2)awk內(nèi)置變量
對于awk來說變量又分為內(nèi)置變量
和自定義變量
轧飞,awk中包含很多內(nèi)置變量衅鹿,比如說-F
命令默認的分隔符是Tab或者空格撒踪,實際上就是awk的內(nèi)部變量FS
來控制的,內(nèi)置變量的目的是在awk邏輯中進行修改和引用大渤,常用的內(nèi)置變量如下
變量名 | 描述 |
---|---|
$0 | 當前記錄制妄,整個一行記錄 |
$1~$n | 當前記錄被分隔符分割之后的元素,根據(jù)索引位置排 |
FS | 字段分隔符 默認是空格 |
NF | 字段個數(shù)泵三,就是有多少列 |
NR | 行號耕捞,從1開始 |
RS | 記錄之間的分隔符,默認是換行符 |
FILENAME | 當前輸入文件的名字 |
IGNORECASE | 如果為真烫幕,則進行忽略大小寫的匹配 |
剛才在BEGIN中已經(jīng)測試使用了內(nèi)置變量FS
俺抽,以及$0和$1等,現(xiàn)在測試以下字段個數(shù)较曼,行號磷斧,以及忽略大小寫
NF
可能是num of feature
echo '1 2 3 4' |awk '{print NF}'
4
NR
顯示行號,比如選取70行以上的
awk 'BEGIN{FS=":"}NR>70{print $0}' /etc/group
test:x:1001:
復雜一點取偶數(shù)行捷犹,直接拿到NR計算即可弛饭,這個等于判定符號對整數(shù)和字符通吃
awk 'BEGIN{FS=":"}NR%2==0{print $0}' /etc/group
IGNORECASE
忽略大小寫,比如用在精確匹配中大寫匹配規(guī)則可以匹配小寫內(nèi)容
awk 'BEGIN{FS=":";IGNORECASE=1}$1=="Docker"{print $0}' /etc/group
docker:x:999:test
具體是將IGNORECASE加入BEGIN中萍歉,1是開啟侣颂,0是關閉,默認關閉
(3)pattern語法
pattern部分分為正則表達式和條件過濾翠桦,正則舉幾個例子即可
正則匹配部分
^
符號匹配行首横蜒,比如查看ls的是文件夾的
ll |awk /^d/
drwxr-xr-x 5 root root 4096 12月 9 17:25 ./
drwxr-xr-x 62 root root 4096 12月 13 14:36 ../
drwxr-xr-x 4 root root 4096 7月 29 18:48 bisai/
drwxrwxr-x 2 root root 4096 2月 20 2019 docker/
$
匹配結尾,比如在echo中使用-e激活換行符销凑,匹配以f結尾的行
echo -e "dsd\nsdslhf\nssdf\n" |awk '/f$/'
sdslhf
ssdf
[ ]
匹配字符集丛晌,可以完成多個字符集中任何一個字符的匹配,比如匹配以d或者s開頭的并且第二個字符是s的結果
echo -e "dsd\nkdslhf\nssdf\n" |awk '/^[ds]s/'
dsd
ssdf
[^ ]
排他設置斗幼,和字符集匹配相反澎蛛,只要不在指定的字符集內(nèi)其他的都算匹配到,比如匹配首字母不是k和s的所有行
echo -e "dsd\nkdslhf\nssdf\n" |awk '/^[^ks]/'
dsd
再比如包含匹配蜕窿,只要行中包含精確匹配的內(nèi)容谋逻,對輸出篩選包含do字眼的
ll |awk /do/
drwxrwxr-x 2 root root 4096 2月 20 2019 docker/
-rw-r--r-- 1 root root 43844133 10月 8 06:17 docker-18.06.3-ce.tgz
-rw-r--r-- 1 root root 1200 10月 14 08:53 docker.services
match函數(shù):macth可以返回指定要匹配內(nèi)容,類似通用的正則表達式桐经,格式如下
match($0,/pattern/,a);action
在match函數(shù)中最后一個元素定義了一個a數(shù)組毁兆,使用print輸出a的第一個匹配元素a[1],如果是a[0]就是匹配到的行
ifconfig wlp2s0|grep netmask |awk '{match($0,/([0-9]{1,3}\.[0-9]{1,3}\.[0-9]{1,3}\.[0-9]{1,3})/,a); print a[1]}'
192.168.43.59
記錄一個轉義問題阴挣,如果要匹配單引號气堕,語句如下,先\
轉移再用小括號括起來
echo ''\''123'\''' |awk '/'\''/'
'123'
條件過濾部分
條件過濾部分可以實現(xiàn)單分之和多分支邏輯,語法如下
awk 'BEGIN{}條件{action}END{}'
例如統(tǒng)計每行第三個字段是工商的行數(shù)茎芭,相當于SQL的select count... where...
awk '$3=="工商"{i++}END{print i}' reason_code.txt
21
其中$3=="工商"
是條件放在最前面揖膜,{i++}
是action初始的變量i為0,最后調(diào)用print打印出統(tǒng)計值梅桩,在這個基礎上再增加一個條件壹粟,第四列是高的,相當于select count... where...and...
awk '$3=="工商"&&$4=="高"{i++}END{print i}' reason_code.txt
6
使用&&
完成條件的交集宿百,同理并集使用||
趁仙,也可以完成檢索展示的工作,例如檢索A列等于某值時B列的值
awk '$3=="工商"{print $2}' reason_code.txt
企業(yè)經(jīng)營年限
法定代表人變更
企業(yè)機構類型
高層變動
(4)action語法
action對每一行過濾后的結構進行操作犀呼,最簡單的就是打印幸撕,除此之外可以在這一步完成統(tǒng)計分析的邏輯編寫
awk還可以實現(xiàn)select sum
的功能薇组,對一列累加求和
awk -F "," '{sum+=$2}END{print sum}' pira_label_score.txt
1315
使用action可以實現(xiàn)類似SQL group by的功能外臂,分組統(tǒng)計個數(shù),類似于select count(1) group by
律胀,比如
awk '{x[$3]+=1}END{for(i in x){print i,x[i]}}' reason_code.txt
財務 5
稅務 1
工商 21
實現(xiàn)的方式是在action中定義一個關聯(lián)數(shù)組x(字段)宋光,然后往里面添加key和+1,在END中再遍歷一次即可炭菌,如果不使用awk而是寫shell定義數(shù)組和遍歷需要很長一段罪佳,如下
#/bin/bash
unset x
declare -A x
while read line
do
key=`echo $line |awk -F ' ' '{print $3}'`
x[$key]=$[${x[$key]}+1]
done<reason_code.txt
for i in ${!x[@]}
do
echo $i,${x[$i]}
done
在action里面可以加入條件篩選,相當于action也可以包含pattern的功能黑低,比如統(tǒng)計出每行第三個字段是工商的行數(shù)赘艳,相當于SQL的select count ...where...
awk '{if($3=="工商")i++}END{print i}' reason_code.txt
10
再加一個分之判斷,統(tǒng)計一下工商和征信克握,多個判斷條件之間要用;
分號隔開蕾管,如果不用分號需要將條件判斷后面的代碼加{}
代碼段
awk '{if($3=="工商") i++; else if($3=="征信") j++;}END{print i,j}' reason_code.txt
21 10
同樣除了統(tǒng)計剛才這個awk邏輯還可以完成替換打印輸出,相當于case when
awk '{if($3=="工商")print "數(shù)據(jù)源是工商"; else if($3=="債股")print "數(shù)據(jù)源是債股"; else print "數(shù)據(jù)源是其他"}' reason_code.txt
數(shù)據(jù)源是其他
數(shù)據(jù)源是工商
數(shù)據(jù)源是其他
數(shù)據(jù)源是其他
也可以實現(xiàn)類似SQL的功能菩暗,檢索每行第三個元素是工商的第一個字段掰曾,太強了,感覺這個非常實用停团,相當于select ... where...
awk '{if($3=="工商")print $2}' reason_code.txt
企業(yè)經(jīng)營年限
法定代表人變更
企業(yè)機構類型
高層變動
再舉一個例子旷坦,將第二列大于等于9的第一列篩選出來寫入一個文件
awk -F "," '{if($2>=9)print $1}' pira_label_score.txt > awk.txt
cat awk.txt
1000053
1000088
1000089
1000116
1000205
1000229
實際上action可以一步到位,將條件和操作全部寫在action里面佑稠,多條件分之注意在else秒梅,else if之前增加分號
awk常用任務
獲取配置文件中某個key的value,例如有一個config.yml
cat config.yml
mysql_host: 172.17.0.1
mysql_port: 3306
mysql_user: xiaogp
mysql_password: ******
現(xiàn)要從中獲取其中的mysql_host
awk -F ':' '$1=="mysql_host"{gsub(" ","",$0);print $2}' config.yml
172.17.0.1
其中gsub用來替換空格舌胶,順序為先調(diào)用gsub去除空格捆蜀,在使用-F進行分割,再判斷$1=="mysql_host,因此如果寫成-F ': '(冒號空格)就無法分割導致$1=="mysql_host匹配不上為空