linux三劍客(grep册烈、sed、awk)基本使用

鏡像下載婿禽、域名解析赏僧、時(shí)間同步請點(diǎn)擊 阿里云開源鏡像站

準(zhǔn)備

作為一個(gè)經(jīng)常在服務(wù)器上游走的后端,需要熟悉不少命令行操作扭倾。其中淀零,grep、sed膛壹、awk號稱"linux三劍客"驾中,使用頻繁,功能強(qiáng)大模聋,本文通過一個(gè)實(shí)例演示下基本用法肩民。首先準(zhǔn)備一個(gè)文本文件,命名為text.txt链方,內(nèi)容如下:

cat text.txt
1     province    省份  青海省
2     domain  域名或者ip  tianfengyinlou.cn
3     subject_no  主體備案號   青ICP備11000289號
4     addr    注冊地址   青海省西寧市城中區(qū)南關(guān)街138號
5     check_time  備案時(shí)間, 時(shí)間對象  2011-06-23 16:38:00
6     update_time 更新時(shí)間, 毫秒級時(shí)間戳    1607414120745
7     site_no 網(wǎng)站備案/許可證號   青ICP備11000289號-2
8     site_url    站點(diǎn)/網(wǎng)站首頁網(wǎng)址   www.tianfengyinlou.cn
9     comp_name   主辦單位名稱(公司名稱)    西寧天豐銀樓金銀珠寶有限公司

grep

首先持痰,最簡單的是grep。經(jīng)常用來過濾查看日志祟蚀。對于grep需要知道如下幾個(gè)常用的命令選項(xiàng):

-n

額外輸出行號工窍。例如過濾出每一行包含"青"的記錄:

grep -n "青" text.txt                                                                                              
1:1     province    省份  青海省
3:3     subject_no  主體備案號   青ICP備11000289號
4:4     addr    注冊地址    青海省西寧市城中區(qū)南關(guān)街138號
7:7     site_no 網(wǎng)站備案/許可證號   青ICP備11000289號-2

-v

排除匹配的行。例如排除包含"青"的行記錄:

grep -v '青' text.txt                                                                                              
2     domain  域名或者ip  tianfengyinlou.cn
5     check_time  備案時(shí)間, 時(shí)間對象  2011-06-23 16:38:00
6     update_time 更新時(shí)間, 毫秒級時(shí)間戳    1607414120745
8     site_url    站點(diǎn)/網(wǎng)站首頁網(wǎng)址   www.tianfengyinlou.cn
9     comp_name   主辦單位名稱(公司名稱)    西寧天豐銀樓金銀珠寶有限公司

-E

支持?jǐn)U展正則匹配前酿。grep的時(shí)候患雏,我們可以按照正則表達(dá)式來進(jìn)行匹配,但在需要擴(kuò)展正則匹配時(shí)薪者,要通過-E指定才能生效纵苛。常見的或操作,比如篩選包含"青海省"或者"青ICP"的行記錄,不指定-E是無法獲得想要的結(jié)果的攻人。

grep -E '青海省|青ICP' text.txt                                                                                    
1     province    省份  青海省
3     subject_no  主體備案號   青ICP備11000289號
4     addr    注冊地址    青海省西寧市城中區(qū)南關(guān)街138號
7     site_no 網(wǎng)站備案/許可證號   青ICP備11000289號-2

-l

只輸出有匹配行的文件名取试。有時(shí)候,我們并不需要輸出匹配的行記錄怀吻,僅僅只是需要知道匹配到了行記錄的文件名:

grep -l 青 text.txt                                                                                         
text.txt

-R

遞歸匹配目錄中的文件內(nèi)容瞬浓。有時(shí)候,在一個(gè)目錄中我們并不知道哪個(gè)文件內(nèi)容包含我們想要的結(jié)果蓬坡,此時(shí)猿棉,可以查找整個(gè)目錄,輸出匹配的文件名以及行記錄:

grep -R 青海 ./DevMisc
# ... 
./DevMisc/linux三劍客.md:1     province     省份                   青海省
./DevMisc/linux三劍客.md:4     addr         注冊地址                青海省西寧市城中區(qū)南關(guān)街138號
./DevMisc/text.txt:1     province    省份  青海省
./DevMisc/text.txt:4     addr    注冊地址    青海省西寧市城中區(qū)南關(guān)街138號

結(jié)合-l參數(shù)就可以知道一個(gè)目錄中有哪些文件包含了匹配項(xiàng):

grep -Rl 青 ./DevMisc                                                                                                  
./DevMisc/linux三劍客.md
./DevMisc/text.txt

-A

通過-A(after)指定輸出匹配行后的額外行數(shù)屑咳。例如萨赁,想要額外輸出包含"青"的行記錄后一行,可以指定-A1:

grep -A1 青 text.txt                                                                                               
1     province    省份  青海省
2     domain  域名或者ip  tianfengyinlou.cn
--
3     subject_no  主體備案號   青ICP備11000289號
4     addr    注冊地址    青海省西寧市城中區(qū)南關(guān)街138號
5     check_time  備案時(shí)間, 時(shí)間對象  2011-06-23 16:38:00
--
7     site_no 網(wǎng)站備案/許可證號   青ICP備11000289號-2
8     site_url    站點(diǎn)/網(wǎng)站首頁網(wǎng)址   www.tianfengyinlou.cn

-B

通過-B(before)指定輸出匹配行前的額外行數(shù)兆龙。例如杖爽,想要額外輸出包含"青"的行記錄前一行,可以指定-B1:

grep -B1 青 text.txt                                                                                               
1     province    省份  青海省
--
2     domain  域名或者ip  tianfengyinlou.cn
3     subject_no  主體備案號   青ICP備11000289號
4     addr    注冊地址    青海省西寧市城中區(qū)南關(guān)街138號
--
6     update_time 更新時(shí)間, 毫秒級時(shí)間戳    1607414120745
7     site_no 網(wǎng)站備案/許可證號   青ICP備11000289號-2

-C

通過-C指定輸出匹配行前后的額外行數(shù)紫皇。例如慰安,想要額外輸出包含"青"的行記錄前后各一行,可以指定-C1:

grep -C1 青 text.txt                                                                                               
1     province    省份  青海省
2     domain  域名或者ip  tianfengyinlou.cn
--
--
2     domain  域名或者ip  tianfengyinlou.cn
3     subject_no  主體備案號   青ICP備11000289號
4     addr    注冊地址    青海省西寧市城中區(qū)南關(guān)街138號
5     check_time  備案時(shí)間, 時(shí)間對象  2011-06-23 16:38:00
--
--
6     update_time 更新時(shí)間, 毫秒級時(shí)間戳    1607414120745
7     site_no 網(wǎng)站備案/許可證號   青ICP備11000289號-2
8     site_url    站點(diǎn)/網(wǎng)站首頁網(wǎng)址   www.tianfengyinlou.cn

sed

查找

sed的各項(xiàng)操作需要指定一個(gè)特定的動(dòng)作聪铺。查找需要指定一個(gè)動(dòng)作為p(print)化焕,例如,打印出第三行的記錄铃剔,需要指定行號加動(dòng)作3p:

sed -n 3p text.txt 
3     subject_no  主體備案號   青ICP備11000289號

這里必須指定一個(gè)選項(xiàng)-n撒桨。因?yàn)閟ed的默認(rèn)行為是遍歷文本文件的每一行并輸出每一行,假如不帶-n選項(xiàng)键兜,第三行會(huì)輸出兩次=默認(rèn)輸出一次+命令行指定輸出一次:

sed 3p text.txt
1     province    省份  青海省
2     domain  域名或者ip  tianfengyinlou.cn
3     subject_no  主體備案號   青ICP備11000289號
3     subject_no  主體備案號   青ICP備11000289號
4     addr    注冊地址   青海省西寧市城中區(qū)南關(guān)街138號
5     check_time  備案時(shí)間, 時(shí)間對象  2011-06-23 16:38:00
6     update_time 更新時(shí)間, 毫秒級時(shí)間戳    1607414120745
7     site_no 網(wǎng)站備案/許可證號   青ICP備11000289號-2
8     site_url    站點(diǎn)/網(wǎng)站首頁網(wǎng)址   www.tianfengyinlou.cn
9     comp_name   主辦單位名稱(公司名稱)    西寧天豐銀樓金銀珠寶有限公司

所以-n的作用是取消sed的默認(rèn)輸出行為, 一般都只與p組合使用元莫。利用sed的默認(rèn)輸出行為,我們可以模擬復(fù)制每一行的操作蝶押,有時(shí)候在特定場景下非常有用:

sed p text.txt
1     province    省份  青海省
1     province    省份  青海省
2     domain  域名或者ip  tianfengyinlou.cn
2     domain  域名或者ip  tianfengyinlou.cn
3     subject_no  主體備案號   青ICP備11000289號
3     subject_no  主體備案號   青ICP備11000289號
4     addr    注冊地址   青海省西寧市城中區(qū)南關(guān)街138號
4     addr    注冊地址   青海省西寧市城中區(qū)南關(guān)街138號
5     check_time  備案時(shí)間, 時(shí)間對象  2011-06-23 16:38:00
5     check_time  備案時(shí)間, 時(shí)間對象  2011-06-23 16:38:00
6     update_time 更新時(shí)間, 毫秒級時(shí)間戳    1607414120745
6     update_time 更新時(shí)間, 毫秒級時(shí)間戳    1607414120745
7     site_no 網(wǎng)站備案/許可證號   青ICP備11000289號-2
7     site_no 網(wǎng)站備案/許可證號   青ICP備11000289號-2
8     site_url    站點(diǎn)/網(wǎng)站首頁網(wǎng)址   www.tianfengyinlou.cn
8     site_url    站點(diǎn)/網(wǎng)站首頁網(wǎng)址   www.tianfengyinlou.cn
9     comp_name   主辦單位名稱(公司名稱)    西寧天豐銀樓金銀珠寶有限公司
9     comp_name   主辦單位名稱(公司名稱)    西寧天豐銀樓金銀珠寶有限公司

sed不僅可以輸出指定的某一行,還可以按行號范圍進(jìn)行輸出火欧,例如輸出1-5行:

sed -n 1,5p text.txt                                                                                           
1     province    省份  青海省
2     domain  域名或者ip  tianfengyinlou.cn
3     subject_no  主體備案號   青ICP備11000289號
4     addr    注冊地址    青海省西寧市城中區(qū)南關(guān)街138號
5     check_time  備案時(shí)間, 時(shí)間對象  2011-06-23 16:38:00

sed還可以按照正則匹配來輸出特定的行棋电。格式為/xx/p, 例如,查找包含"青海省"的行記錄:

sed -n '/青海省/p' text.txt                                                                                 
1     province    省份  青海省
4     addr    注冊地址    青海省西寧市城中區(qū)南關(guān)街138號

查找包含數(shù)字0到6的行記錄:

sed -n '/[0-6]/p' text.txt                                                                                         
1     province    省份  青海省
2     domain  域名或者ip  tianfengyinlou.cn
3     subject_no  主體備案號   青ICP備11000289號
4     addr    注冊地址    青海省西寧市城中區(qū)南關(guān)街138號
5     check_time  備案時(shí)間, 時(shí)間對象  2011-06-23 16:38:00
6     update_time 更新時(shí)間, 毫秒級時(shí)間戳    1607414120745
7     site_no 網(wǎng)站備案/許可證號   青ICP備11000289號-2

查找以0結(jié)尾的行記錄:

sed -n '/0$/p' text.txt                                                                                           
5     check_time  備案時(shí)間, 時(shí)間對象  2011-06-23 16:38:00

如果想要支持?jǐn)U展正則匹配苇侵,需要通過-r來指定赶盔,例如查找每一行包含"青海省"或者"青"的記錄:

sed -nr '/青海省|青/p' text.txt                                                                                   
1     province    省份  青海省
3     subject_no  主體備案號   青ICP備11000289號
4     addr    注冊地址    青海省西寧市城中區(qū)南關(guān)街138號
7     site_no 網(wǎng)站備案/許可證號   青ICP備11000289號-2

sed正則匹配也支持按范圍輸出,格式為/xx/,/xx/p榆浓。例如查找包含"domain"的行到包含"addr"的行記錄:

sed -n '/domain/,/addr/p' text.txt
2     domain  域名或者ip  tianfengyinlou.cn
3     subject_no  主體備案號   青ICP備11000289號
4     addr    注冊地址    青海省西寧市城中區(qū)南關(guān)街138號

刪除

# 刪除第三行
sed 3d text.txt                                                                                                    
1     province    省份  青海省
2     domain  域名或者ip  tianfengyinlou.cn
4     addr    注冊地址    青海省西寧市城中區(qū)南關(guān)街138號
5     check_time  備案時(shí)間, 時(shí)間對象  2011-06-23 16:38:00
6     update_time 更新時(shí)間, 毫秒級時(shí)間戳    1607414120745
7     site_no 網(wǎng)站備案/許可證號   青ICP備11000289號-2
8     site_url    站點(diǎn)/網(wǎng)站首頁網(wǎng)址   www.tianfengyinlou.cn
9     comp_name   主辦單位名稱(公司名稱)    西寧天豐銀樓金銀珠寶有限公司

# 刪除包含青的行
sed '/青/d' text.txt                                                                                               
2     domain  域名或者ip  tianfengyinlou.cn
5     check_time  備案時(shí)間, 時(shí)間對象  2011-06-23 16:38:00
6     update_time 更新時(shí)間, 毫秒級時(shí)間戳    1607414120745
8     site_url    站點(diǎn)/網(wǎng)站首頁網(wǎng)址   www.tianfengyinlou.cn
9     comp_name   主辦單位名稱(公司名稱)    西寧天豐銀樓金銀珠寶有限公司

# 更改text.txt
cat text.txt                                                                                                       ysj@yangsj2-knownsec
1     province    省份  青海省
2     domain  域名或者ip  tianfengyinlou.cn

3     subject_no  主體備案號   青ICP備11000289號
4     addr    注冊地址    青海省西寧市城中區(qū)南關(guān)街138號
#5     check_time  備案時(shí)間, 時(shí)間對象  2011-06-23 16:38:00

#6     update_time 更新時(shí)間, 毫秒級時(shí)間戳    1607414120745
7     site_no 網(wǎng)站備案/許可證號   青ICP備11000289號-2
8     site_url    站點(diǎn)/網(wǎng)站首頁網(wǎng)址   www.tianfengyinlou.cn
9     comp_name   主辦單位名稱(公司名稱)    西寧天豐銀樓金銀珠寶有限公司

# 刪除空行和注釋行
sed -r '/^$|#/d' text.txt                                                                                          
1     province    省份  青海省
2     domain  域名或者ip  tianfengyinlou.cn
3     subject_no  主體備案號   青ICP備11000289號
4     addr    注冊地址    青海省西寧市城中區(qū)南關(guān)街138號
7     site_no 網(wǎng)站備案/許可證號   青ICP備11000289號-2
8     site_url    站點(diǎn)/網(wǎng)站首頁網(wǎng)址   www.tianfengyinlou.cn
9     comp_name   主辦單位名稱(公司名稱)    西寧天豐銀樓金銀珠寶有限公司

增加

sed的增加動(dòng)作有三種:

  • i:在指定行的上方增加一行
  • a: 在指定行的下方增加一行
  • c: 在指定行的地方增加一行于未,原有行會(huì)被覆蓋

上述三種增加行為示例為:

注意:示例的增加行為在mac上會(huì)報(bào)錯(cuò),可能在mac上用法不一致。

# 在第3行上方增加一行記錄
sed '3i insert oneline above 3rd line' text.txt 
1     province    省份  青海省
2     domain  域名或者ip  tianfengyinlou.cn
insert oneline above 3rd line
3     subject_no  主體備案號   青ICP備11000289號
4     addr    注冊地址    青海省西寧市城中區(qū)南關(guān)街138號
5     check_time  備案時(shí)間, 時(shí)間對象  2011-06-23 16:38:00
6     update_time 更新時(shí)間, 毫秒級時(shí)間戳    1607414120745
7     site_no 網(wǎng)站備案/許可證號   青ICP備11000289號-2
8     site_url    站點(diǎn)/網(wǎng)站首頁網(wǎng)址   www.tianfengyinlou.cn
9     comp_name   主辦單位名稱(公司名稱)    西寧天豐銀樓金銀珠寶有限公司

# 在第3行下方增加一行記錄
sed '3a insert oneline after 3rd line' text.txt 
1     province    省份  青海省
2     domain  域名或者ip  tianfengyinlou.cn
3     subject_no  主體備案號   青ICP備11000289號
insert oneline after 3rd line
4     addr    注冊地址    青海省西寧市城中區(qū)南關(guān)街138號
5     check_time  備案時(shí)間, 時(shí)間對象  2011-06-23 16:38:00
6     update_time 更新時(shí)間, 毫秒級時(shí)間戳    1607414120745
7     site_no 網(wǎng)站備案/許可證號   青ICP備11000289號-2
8     site_url    站點(diǎn)/網(wǎng)站首頁網(wǎng)址   www.tianfengyinlou.cn
9     comp_name   主辦單位名稱(公司名稱)    西寧天豐銀樓金銀珠寶有限公司

# 在第3行創(chuàng)建一行記錄烘浦,原記錄被替換
sed '3c create oneline at 3rd line' text.txt 
1     province    省份  青海省
2     domain  域名或者ip  tianfengyinlou.cn
create oneline at 3rd line
4     addr    注冊地址    青海省西寧市城中區(qū)南關(guān)街138號
5     check_time  備案時(shí)間, 時(shí)間對象  2011-06-23 16:38:00
6     update_time 更新時(shí)間, 毫秒級時(shí)間戳    1607414120745
7     site_no 網(wǎng)站備案/許可證號   青ICP備11000289號-2
8     site_url    站點(diǎn)/網(wǎng)站首頁網(wǎng)址   www.tianfengyinlou.cn
9     comp_name   主辦單位名稱(公司名稱)    西寧天豐銀樓金銀珠寶有限公司

修改

上述所有的操作輸出均沒有改變文件自身的內(nèi)容抖坪。想要使得操作改變文件自身的內(nèi)容,需要指定選項(xiàng)-i闷叉。指定-i的操作需要格外小心擦俐。

例如,在文件中第一行插入一行記錄:

sed -i '1i add oneline above first line' text.txt
cat text.txt 
add oneline above first line
1     province    省份  青海省
2     domain  域名或者ip  tianfengyinlou.cn
3     subject_no  主體備案號   青ICP備11000289號
4     addr    注冊地址    青海省西寧市城中區(qū)南關(guān)街138號
5     check_time  備案時(shí)間, 時(shí)間對象  2011-06-23 16:38:00
6     update_time 更新時(shí)間, 毫秒級時(shí)間戳    1607414120745
7     site_no 網(wǎng)站備案/許可證號   青ICP備11000289號-2
8     site_url    站點(diǎn)/網(wǎng)站首頁網(wǎng)址   www.tianfengyinlou.cn
9     comp_name   主辦單位名稱(公司名稱)    西寧天豐銀樓金銀珠寶有限公司

sed的刪除動(dòng)作為d(delete),例如刪除文件中的第一行:

# 刪除增加的第一行
sed -i 1d text.txt 
cat text.txt 
1     province    省份  青海省
2     domain  域名或者ip  tianfengyinlou.cn
3     subject_no  主體備案號   青ICP備11000289號
4     addr    注冊地址    青海省西寧市城中區(qū)南關(guān)街138號
5     check_time  備案時(shí)間, 時(shí)間對象  2011-06-23 16:38:00
6     update_time 更新時(shí)間, 毫秒級時(shí)間戳    1607414120745
7     site_no 網(wǎng)站備案/許可證號   青ICP備11000289號-2
8     site_url    站點(diǎn)/網(wǎng)站首頁網(wǎng)址   www.tianfengyinlou.cn
9     comp_name   主辦單位名稱(公司名稱)    西寧天豐銀樓金銀珠寶有限公司

當(dāng)然握侧,我們也有辦法做安全的刪除操作蚯瞧,即將-i換成-i.bak 可以在真實(shí)改動(dòng)文件內(nèi)容前,備份文件品擎。但是這個(gè)操作一般不適合應(yīng)用在大文件上埋合,因?yàn)閭浞莺苈?/p>

# 刪除第一行并備份
sed -i.bak 1d text.txt 
cat text.txt
2     domain  域名或者ip  tianfengyinlou.cn
3     subject_no  主體備案號   青ICP備11000289號
4     addr    注冊地址    青海省西寧市城中區(qū)南關(guān)街138號
5     check_time  備案時(shí)間, 時(shí)間對象  2011-06-23 16:38:00
6     update_time 更新時(shí)間, 毫秒級時(shí)間戳    1607414120745
7     site_no 網(wǎng)站備案/許可證號   青ICP備11000289號-2
8     site_url    站點(diǎn)/網(wǎng)站首頁網(wǎng)址   www.tianfengyinlou.cn
9     comp_name   主辦單位名稱(公司名稱)    西寧天豐銀樓金銀珠寶有限公司
cat text.txt.bak 
1     province    省份  青海省
2     domain  域名或者ip  tianfengyinlou.cn
3     subject_no  主體備案號   青ICP備11000289號
4     addr    注冊地址    青海省西寧市城中區(qū)南關(guān)街138號
5     check_time  備案時(shí)間, 時(shí)間對象  2011-06-23 16:38:00
6     update_time 更新時(shí)間, 毫秒級時(shí)間戳    1607414120745
7     site_no 網(wǎng)站備案/許可證號   青ICP備11000289號-2
8     site_url    站點(diǎn)/網(wǎng)站首頁網(wǎng)址   www.tianfengyinlou.cn
9     comp_name   主辦單位名稱(公司名稱)    西寧天豐銀樓金銀珠寶有限公司

替換

sed可以對文件內(nèi)容進(jìn)行替換(substitute),格式為使用任意三個(gè)相同的符號萄传,如三個(gè)斜線s/xx/yy/g甚颂、三個(gè)#號s#xx#yy#g、三個(gè)@符號s@xx@yy@g等盲再,效果是將xx替換為yy西设。

這里的符號選擇是任意的,可以是三個(gè)1答朋,三個(gè)2都行贷揽。常用的是上述三種,因?yàn)楹臀募?nèi)容重合度最小梦碗,具體使用哪種禽绪,需要根據(jù)文件內(nèi)容選擇。如果文件內(nèi)容本身包含了/洪规,則不方便使用三個(gè)斜線來操作印屁。

# 將"青" 替換為"蜀"
sed 's/青/蜀/g' text.txt                                                                                           
1     province    省份  蜀海省
2     domain  域名或者ip  tianfengyinlou.cn
3     subject_no  主體備案號   蜀ICP備11000289號
4     addr    注冊地址    蜀海省西寧市城中區(qū)南關(guān)街138號
5     check_time  備案時(shí)間, 時(shí)間對象  2011-06-23 16:38:00
6     update_time 更新時(shí)間, 毫秒級時(shí)間戳    1607414120745
7     site_no 網(wǎng)站備案/許可證號   蜀ICP備11000289號-2
8     site_url    站點(diǎn)/網(wǎng)站首頁網(wǎng)址   www.tianfengyinlou.cn
9     comp_name   主辦單位名稱(公司名稱)    西寧天豐銀樓金銀珠寶有限公司

# 將第三行的青替換為蜀
sed '3s/青/蜀/g' text.txt                                                                                          
1     province    省份  青海省
2     domain  域名或者ip  tianfengyinlou.cn
3     subject_no  主體備案號   蜀ICP備11000289號
4     addr    注冊地址    青海省西寧市城中區(qū)南關(guān)街138號
5     check_time  備案時(shí)間, 時(shí)間對象  2011-06-23 16:38:00
6     update_time 更新時(shí)間, 毫秒級時(shí)間戳    1607414120745
7     site_no 網(wǎng)站備案/許可證號   青ICP備11000289號-2
8     site_url    站點(diǎn)/網(wǎng)站首頁網(wǎng)址   www.tianfengyinlou.cn
9     comp_name   主辦單位名稱(公司名稱)    西寧天豐銀樓金銀珠寶有限公司

# 把所有數(shù)字替換為x
sed -r 's/[0-9]/x/g' text.txt                                                                                      
x     province    省份  青海省
x     domain  域名或者ip  tianfengyinlou.cn
x     subject_no  主體備案號   青ICP備xxxxxxxx號
x     addr    注冊地址    青海省西寧市城中區(qū)南關(guān)街xxx號
x     check_time  備案時(shí)間, 時(shí)間對象  xxxx-xx-xx xx:xx:xx
x     update_time 更新時(shí)間, 毫秒級時(shí)間戳    xxxxxxxxxxxxx
x     site_no 網(wǎng)站備案/許可證號   青ICP備xxxxxxxx號-x
x     site_url    站點(diǎn)/網(wǎng)站首頁網(wǎng)址   www.tianfengyinlou.cn
x     comp_name   主辦單位名稱(公司名稱)    西寧天豐銀樓金銀珠寶有限公司

g是全局(gloabal)替換的意思,如果不要g斩例,則只會(huì)替換匹配到的第一項(xiàng):

# 把每一行的第一個(gè)數(shù)字替換為x
sed -r 's/[0-9]/x/' text.txt                                                                                      
x     province    省份  青海省
x     domain  域名或者ip  tianfengyinlou.cn
x     subject_no  主體備案號   青ICP備11000289號
x     addr    注冊地址    青海省西寧市城中區(qū)南關(guān)街138號
x     check_time  備案時(shí)間, 時(shí)間對象  2011-06-23 16:38:00
x     update_time 更新時(shí)間, 毫秒級時(shí)間戳    1607414120745
x     site_no 網(wǎng)站備案/許可證號   青ICP備11000289號-2
x     site_url    站點(diǎn)/網(wǎng)站首頁網(wǎng)址   www.tianfengyinlou.cn
x     comp_name   主辦單位名稱(公司名稱)    西寧天豐銀樓金銀珠寶有限公司

反向引用

反向引用就是利用正則的組匹配來以組為單位進(jìn)行替換雄人。

# 例如匹配所有的英文詞句([a-z_.]+),然后把他們用<>括起來, \1表示第一組念赶,這里只有一個(gè)組匹配
sed -r 's/([a-z_.]+)/<\1>/g' text.txt                                                                              
1     <province>    省份  青海省
2     <domain>  域名或者<ip>  <tianfengyinlou.cn>
3     <subject_no>  主體備案號   青ICP備11000289號
4     <addr>    注冊地址    青海省西寧市城中區(qū)南關(guān)街138號
5     <check_time>  備案時(shí)間, 時(shí)間對象  2011-06-23 16:38:00
6     <update_time> 更新時(shí)間, 毫秒級時(shí)間戳    1607414120745
7     <site_no> 網(wǎng)站備案/許可證號   青ICP備11000289號-2
8     <site_url>    站點(diǎn)/網(wǎng)站首頁網(wǎng)址   <www.tianfengyinlou.cn>
9     <comp_name>   主辦單位名稱(公司名稱)    西寧天豐銀樓金銀珠寶有限公司

awk

取行

awk可以通過NR(Number of Record) 指定行號础钠,輸出特定的行:

# 輸出第三行
awk 'NR==3' text.txt                                                                                               
3     subject_no  主體備案號   青ICP備11000289號

也可以按行號范圍輸出:

# 輸出第三到第六行
awk 'NR==3, NR==6' text.txt                                                                                        
3     subject_no  主體備案號   青ICP備11000289號
4     addr    注冊地址    青海省西寧市城中區(qū)南關(guān)街138號
5     check_time  備案時(shí)間, 時(shí)間對象  2011-06-23 16:38:00
6     update_time 更新時(shí)間, 毫秒級時(shí)間戳    1607414120745

# 也可以通過比較指定輸出范圍
# 輸出3到4行
awk 'NR>=3 && NR<5' text.txt                                                                                       
3     subject_no  主體備案號   青ICP備11000289號
4     addr    注冊地址    青海省西寧市城中區(qū)南關(guān)街138號

第二個(gè)NR如果是個(gè)無效的行號值,則默認(rèn)取出指定起始行之后所有的行記錄:

# 輸出第三行之后的所有行
awk 'NR==3, NR==xx' text.txt                                                                                       
3     subject_no  主體備案號   青ICP備11000289號
4     addr    注冊地址    青海省西寧市城中區(qū)南關(guān)街138號
5     check_time  備案時(shí)間, 時(shí)間對象  2011-06-23 16:38:00
6     update_time 更新時(shí)間, 毫秒級時(shí)間戳    1607414120745
7     site_no 網(wǎng)站備案/許可證號   青ICP備11000289號-2
8     site_url    站點(diǎn)/網(wǎng)站首頁網(wǎng)址   www.tianfengyinlou.cn
9     comp_name   主辦單位名稱(公司名稱)    西寧天豐銀樓金銀珠寶有限公司

取行操作依然支持正則匹配:

# 輸出包含青的行
awk '/青/' text.txt                                                                                                
1     province    省份  青海省
3     subject_no  主體備案號   青ICP備11000289號
4     addr    注冊地址    青海省西寧市城中區(qū)南關(guān)街138號
7     site_no 網(wǎng)站備案/許可證號   青ICP備11000289號-2

# 輸出以"號"結(jié)尾的行
awk '/號$/' text.txt                                                                                               
3     subject_no  主體備案號   青ICP備11000289號
4     addr    注冊地址    青海省西寧市城中區(qū)南關(guān)街138號

# 輸出包含domain到包含addr的行
awk '/domain/, /addr/' text.txt                                                                                    
2     domain  域名或者ip  tianfengyinlou.cn
3     subject_no  主體備案號   青ICP備11000289號
4     addr    注冊地址    青海省西寧市城中區(qū)南關(guān)街138號

取列

awk可以使用{print $列號} 取出列值:

# 例如叉谜,取出第二列的值
awk '{print $2}' text.txt                                                                                      
province
domain
subject_no
addr
check_time
update_time
site_no
site_url
comp_name

# 取出第2列及最后一列NF(Number of Fields)的值
awk '{print $2,$NF}' text.txt                                                                                      
province 青海省
domain tianfengyinlou.cn
subject_no 青ICP備11000289號
addr 青海省西寧市城中區(qū)南關(guān)街138號
check_time 16:38:00
update_time 1607414120745
site_no 青ICP備11000289號-2
site_url www.tianfengyinlou.cn
comp_name 西寧天豐銀樓金銀珠寶有限公司

# 使用column -t 對齊輸出
awk '{print $2,$NF}' text.txt | column -t                                                                          
province     青海省
domain       tianfengyinlou.cn
subject_no   青ICP備11000289號
addr         青海省西寧市城中區(qū)南關(guān)街138號
check_time   16:38:00
update_time  1607414120745
site_no      青ICP備11000289號-2
site_url     www.tianfengyinlou.cn
comp_name    西寧天豐銀樓金銀珠寶有限公司

awk取列時(shí)旗吁,默認(rèn)是空格為分隔符,可以通過-F指定分隔符停局,例如很钓,第7-8行:

awk "NR==7,NR==8" text.txt                                                                                         
7     site_no 網(wǎng)站備案/許可證號   青ICP備11000289號-2
8     site_url    站點(diǎn)/網(wǎng)站首頁網(wǎng)址   www.tianfengyinlou.cn

取出第7香府、8行后,按/進(jìn)行劃分码倦,取出劃分后的第二列:

awk "NR==7,NR==8" text.txt | awk -F/ '{print $2}'                                                                  
許可證號   青ICP備11000289號-2
網(wǎng)站首頁網(wǎng)址   www.tianfengyinlou.cn

-F 可以通過[]正則指定多個(gè)分隔符:

# 按空格和/ 進(jìn)行分隔, 取出1到4列
awk "NR==7,NR==8" text.txt | awk -F'[ /]+' '{print $1,$2,$3,$4}'                                                   
7 site_no 網(wǎng)站備案 許可證號
8 site_url 站點(diǎn) 網(wǎng)站首頁網(wǎng)址

精確取行列

awk可以精確取出某一行某一列的值企孩。一些用例如:

# ~ 表示包含, !~ 表示不包含
# 取出第四列包含"青"的行
awk '$4 ~ /青/' text.txt                                                                                       
1     province    省份  青海省
3     subject_no  主體備案號   青ICP備11000289號
4     addr    注冊地址    青海省西寧市城中區(qū)南關(guān)街138號
7     site_no 網(wǎng)站備案/許可證號   青ICP備11000289號-2

# 取出第四列以"號"結(jié)尾的行叹洲,并輸出最后一列
awk '$4 ~ /號$/{print $NF}' text.txt                                                                               
青ICP備11000289號
青海省西寧市城中區(qū)南關(guān)街138號

# 取出第2列以d開始柠硕,到第四列以號結(jié)尾的行記錄
awk '$2 ~ /^d/, $4 ~/號$/' text.txt                                                                                
2     domain  域名或者ip  tianfengyinlou.cn
3     subject_no  主體備案號   青ICP備11000289號

BEGIN

awk可以使用BEGIN在操作文件內(nèi)容前執(zhí)行一些命令:

# 列如輸出表頭
awk 'BEGIN{print "序號","名稱","含義","示例"} {print $1,$2,$3,$4}' text.txt | column -t                            
序號  名稱          含義                   示例
1     province     省份                   青海省
2     domain       域名或者ip              tianfengyinlou.cn
3     subject_no   主體備案號              青ICP備11000289號
4     addr         注冊地址                青海省西寧市城中區(qū)南關(guān)街138號
5     check_time   備案時(shí)間,               時(shí)間對象
6     update_time  更新時(shí)間,               毫秒級時(shí)間戳
7     site_no      網(wǎng)站備案/許可證號        青ICP備11000289號-2
8     site_url     站點(diǎn)/網(wǎng)站首頁網(wǎng)址        www.tianfengyinlou.cn
9     comp_name    主辦單位名稱(公司名稱)    西寧天豐銀樓金銀珠寶有限公司

END

awk可以使用END在操作文件內(nèi)容后執(zhí)行一些命令:

# 通常用于做統(tǒng)計(jì), 例如對第一列求和
awk '{sum+=$1} END{print sum}' text.txt                                                                            
45

使用小結(jié)

  • grep运提、sed蝗柔、awk都可以過濾行記錄,但過濾行記錄時(shí)優(yōu)先選擇grep民泵,其過濾行的效率最高癣丧。
  • sed主要用于對文件內(nèi)容做出各種修改(增加、替換等)栈妆。
  • awk主要用于對文件內(nèi)容取行列操作胁编。

本文轉(zhuǎn)自:https://juejin.cn/post/7100556924524953614

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市鳞尔,隨后出現(xiàn)的幾起案子嬉橙,更是在濱河造成了極大的恐慌,老刑警劉巖寥假,帶你破解...
    沈念sama閱讀 218,682評論 6 507
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件市框,死亡現(xiàn)場離奇詭異,居然都是意外死亡糕韧,警方通過查閱死者的電腦和手機(jī)枫振,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,277評論 3 395
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來萤彩,“玉大人粪滤,你說我怎么就攤上這事∪阜觯” “怎么了杖小?”我有些...
    開封第一講書人閱讀 165,083評論 0 355
  • 文/不壞的土叔 我叫張陵,是天一觀的道長愚墓。 經(jīng)常有香客問我窍侧,道長,這世上最難降的妖魔是什么转绷? 我笑而不...
    開封第一講書人閱讀 58,763評論 1 295
  • 正文 為了忘掉前任,我火速辦了婚禮硼啤,結(jié)果婚禮上议经,老公的妹妹穿的比我還像新娘斧账。我一直安慰自己,他們只是感情好煞肾,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,785評論 6 392
  • 文/花漫 我一把揭開白布咧织。 她就那樣靜靜地躺著,像睡著了一般籍救。 火紅的嫁衣襯著肌膚如雪习绢。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,624評論 1 305
  • 那天蝙昙,我揣著相機(jī)與錄音闪萄,去河邊找鬼。 笑死奇颠,一個(gè)胖子當(dāng)著我的面吹牛败去,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播烈拒,決...
    沈念sama閱讀 40,358評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼圆裕,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了荆几?” 一聲冷哼從身側(cè)響起吓妆,我...
    開封第一講書人閱讀 39,261評論 0 276
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎吨铸,沒想到半個(gè)月后行拢,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,722評論 1 315
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡焊傅,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,900評論 3 336
  • 正文 我和宋清朗相戀三年剂陡,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片狐胎。...
    茶點(diǎn)故事閱讀 40,030評論 1 350
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡鸭栖,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出握巢,到底是詐尸還是另有隱情晕鹊,我是刑警寧澤,帶...
    沈念sama閱讀 35,737評論 5 346
  • 正文 年R本政府宣布暴浦,位于F島的核電站溅话,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏歌焦。R本人自食惡果不足惜飞几,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,360評論 3 330
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望独撇。 院中可真熱鬧屑墨,春花似錦躁锁、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,941評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至以躯,卻和暖如春槐秧,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背忧设。 一陣腳步聲響...
    開封第一講書人閱讀 33,057評論 1 270
  • 我被黑心中介騙來泰國打工刁标, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人见转。 一個(gè)月前我還...
    沈念sama閱讀 48,237評論 3 371
  • 正文 我出身青樓命雀,卻偏偏與公主長得像,于是被迫代替她去往敵國和親斩箫。 傳聞我的和親對象是個(gè)殘疾皇子吏砂,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,976評論 2 355

推薦閱讀更多精彩內(nèi)容