在linux 的使用中欺旧,相同的正則表達(dá)式在不同的命令中所實(shí)現(xiàn)的匹配結(jié)果并完全相同姑丑,這就免不了導(dǎo)致我們?cè)谑褂脮r(shí)候的疑惑。要解決這個(gè)疑惑辞友,我們需要了解一些背景:
POSIX 是一個(gè)標(biāo)準(zhǔn)栅哀,其中定義了一些正則表達(dá)式的規(guī)范,而Linux基本上實(shí)現(xiàn)了POSIX的規(guī)范踏枣,但并沒有參加正式的POSIX認(rèn)證(這個(gè)說法查自百度的百科詞條POSIX)昌屉。 而POSIX 定義了兩種正則表達(dá)式語法,一種是BRE(Basic Regex Expression)茵瀑,另一種是ERE(Extended Regex Expression).
關(guān)于基本正則表達(dá)式(BRE),其支持的基本用法有:
^ 表示匹配行首
$ 表示匹配行尾
. 表示匹配任意單個(gè)字符间驮,但是不含換行符‘\n’
[] 匹配區(qū)間的任意字符,區(qū)間中可以是一個(gè)到多個(gè)字符马昨,因?yàn)?并不是單一符號(hào)表示竞帽,所以需要用雙引號(hào) 引用起來.
[^] 區(qū)間任意字符都不匹配,因?yàn)椴皇菃我环?hào)表示鸿捧,所以要用 雙引號(hào) 引用起來. 同樣屹篓,區(qū)間中可以是一個(gè)到多個(gè)字符.
- 遞增的連續(xù)區(qū)間,從來不能單獨(dú)使用匙奴,常用在 [] 的內(nèi)部堆巧,比如 "[a-z]" 表示a到z中的任意字符."[^a-z]" 表示a-z都不能匹配,也就是a-z之外的字符匹配.
* 屬于二級(jí)正則表達(dá)式泼菌,因?yàn)槠浔硎厩懊嫫ヅ涑霈F(xiàn)的此處谍肤,此處表示匹配0次到多次.
\ 這個(gè)表示轉(zhuǎn)義字符. 比如:echo "abcde\f" | grep -o '\\' 的結(jié)果為: \
ERE作為擴(kuò)展正則表達(dá)式,其除了支持BRE哗伯,還支持如下的基本用法:
擴(kuò)展的regular expression, 主要是實(shí)現(xiàn)二級(jí)正則表達(dá)式荒揣,也就是對(duì)匹配次數(shù)進(jìn)行限制.
+ 限制匹配的次數(shù)為1到多次.
? 限制匹配的次數(shù)為1次或者0次.
() 單一字符,可以直接跟限制次數(shù)的表達(dá)式焊刹,但是對(duì)于字符串系任,就需要用()引用起來,然后才能跟限制次數(shù)的表達(dá)式.
{n} 匹配前面的表達(dá)式n次
{n,} 匹配前面的表達(dá)式n次或者更多次.
{n,m} 匹配前面的表達(dá)式n次到m次.
| 相當(dāng)于邏輯或虐块,a|b 表示匹配a或者b.
關(guān)于上述擴(kuò)展以及基本正則表達(dá)式俩滥,參考https://man.linuxde.net/docs/shell_regex.html
知道了上述的基本和擴(kuò)展正則表達(dá)式,當(dāng)使用linux命令的時(shí)候贺奠,要查看幫助都支持什么正則表達(dá)式举农,比如: grep命令,其幫助文檔中有如下一段:
-G, --basic-regexp
Interpret PATTERN as a basic regular expression (BRE, see
below). This is the default.
也就是說,默認(rèn)情況下敞嗡,grep 支持基本BRE正則表達(dá)式.
實(shí)際上颁糟,并不是所有的命令都完全兼容的支持 BRE與ERE航背, 對(duì)于不同的命令,可能都有特殊的情況棱貌,比如:grep 就無法把 \t 識(shí)別為tab鍵對(duì)應(yīng)的值玖媚。對(duì)于grep的這個(gè)情況,有如下的多種解決方法:
a.
指定grep 使用perl的正則表達(dá)式婚脱,參數(shù)為: -P今魔, perl 正則是支持 "\t" 表示tab.
b.
使用 "^V<tab>" 來實(shí)現(xiàn)向grep 傳遞tab鍵的值, 其中引號(hào)里面的內(nèi)容并不是看到的輸入字符,而是以下操作的結(jié)果: 按下ctrl+v, 然后按下tab建障贸。
這種方式有一個(gè)明顯的缺點(diǎn): 如果需要在shell腳本中實(shí)現(xiàn)grep 的話错森,顯然該方法并不具有很好的通用性.
c.
3.1.2.4 ANSI-C Quoting,通過這里描述的ANSI-C的Quoting的特性篮洁,我們可以用 $'\t' 來表示 tab 鍵的值. 個(gè)人的理解是: shell 對(duì)這個(gè) $'\t' 進(jìn)行了interpreted, 然后把結(jié)果傳遞給了grep 做進(jìn)一步的處理涩维,但是如果用在grep中的正則表達(dá)式比較復(fù)雜,而tab僅僅是其中一個(gè)字符袁波,那么用起來比較麻煩,另外瓦阐,并且不是所有的shell都支持對(duì)$'\t'的 interpreted. 所以通用性也不是很好.
d.
用printf 命令來輸出 tab 對(duì)應(yīng)的鍵值,然后傳遞給grep 進(jìn)行處理篷牌。具體的用法是 :printf '\t' 睡蟋,這個(gè)命令的結(jié)果就是 tab鍵的值,可以傳遞給grep 使用枷颊。比如用: grep "$(printf '\t')" foo.txt 命令戳杀。 如果是復(fù)雜的正則表達(dá)式,那么依然具有很好的兼容性夭苗。個(gè)人比較推薦.
在linux 的shell中豺瘤,對(duì)變量的訪問是用 $加上變量名稱來實(shí)現(xiàn)的,如果變量的值是多行的內(nèi)容(比如是一個(gè)文件的內(nèi)容)听诸,那么這時(shí)候?qū)ψ兞康脑L問就有兩種方式, 訪問變量時(shí)候是否用引號(hào),對(duì)應(yīng)的結(jié)果是不一樣的蚕泽,如果使用了引號(hào)晌梨,那么是按行進(jìn)行處理的,如果沒有用引號(hào)须妻,那么是作為一個(gè)整體處理的仔蝌。
[root@test~]# str=`head /etc/os-release`
[root@test ~]# echo $str
NAME="Red Hat Enterprise Linux Workstation" VERSION="7.6 (Maipo)" ID="rhel" ID_LIKE="fedora" VARIANT="Workstation" VARIANT_ID="workstation" VERSION_ID="7.6" PRETTY_NAME="Red Hat Enterprise Linux Workstation 7.6 (Maipo)" ANSI_COLOR="0;31" CPE_NAME="cpe:/o:redhat:enterprise_linux:7.6:GA:workstation"
[root@test ~]# echo "$str"
NAME="Red Hat Enterprise Linux Workstation"
VERSION="7.6 (Maipo)"
ID="rhel"
ID_LIKE="fedora"
VARIANT="Workstation"
VARIANT_ID="workstation"
VERSION_ID="7.6"
PRETTY_NAME="Red Hat Enterprise Linux Workstation 7.6 (Maipo)"
ANSI_COLOR="0;31"
CPE_NAME="cpe:/o:redhat:enterprise_linux:7.6:GA:workstation"
[root@test ~]#