簡(jiǎn)而言之,正則表達(dá)式是一種符號(hào)表示法梳毙,被用來(lái)識(shí)別文本模式哺窄。在某種程度上,它們與匹配文件和路徑名的shell通配符比較相似账锹,但其規(guī)模更龐大萌业。許多命令行工具和大多數(shù)對(duì)的編程語(yǔ)言都支持正則表達(dá)式,以此來(lái)幫助解決文本操作問(wèn)題奸柬。但不同工具以及不同語(yǔ)言之間的正則表達(dá)式則略有差異生年。
提到正則表達(dá)式,不得不談到grep程序——相當(dāng)于我們的老朋友廓奕。grep程序會(huì)在文本文件中查找一個(gè)指定的正則表達(dá)式抱婉,并把匹配行輸出列標(biāo)準(zhǔn)輸出。我們可以使用grep程序查找固定的字符串懂从,同時(shí)授段,grep程序已這樣的方式來(lái)接受選項(xiàng)和參數(shù)。為了更好的探究grep程序番甩,我們可以創(chuàng)建一些文本文件來(lái)搜尋侵贵,然后就可以對(duì)文件列表執(zhí)行簡(jiǎn)單的搜索。通過(guò)各種grep選項(xiàng)來(lái)搜尋匹配項(xiàng)或者不匹配項(xiàng)的文件列表缘薛。
它可能看起來(lái)并不明顯窍育,但是grep程序一直使用了正則表達(dá)式,雖然是非常簡(jiǎn)單的例子宴胧。這個(gè)正則表達(dá)式“bzip”意味著匹配項(xiàng)所在行至少包含4個(gè)字符漱抓,并且安照“b”、“z”恕齐、“i”乞娄、“p”的順序出現(xiàn)在匹配行的某處,之間沒(méi)有其他的字符。字符串“bzip”中的所有字符都是原義字符仪或,因?yàn)樗鼈兤ヅ浔旧砣纺鳌3嗽x字符外,正則表達(dá)式也可能包含元字符范删,其被用來(lái)指定更加復(fù)雜的匹配項(xiàng)蕾域。正則表達(dá)式由^、$到旦、*等固定符號(hào)組成旨巷,其他所有字符都被認(rèn)為是原義字符。個(gè)別情況下添忘,反斜杠會(huì)被用來(lái)創(chuàng)建元系列采呐,也允許元字符被轉(zhuǎn)義為原義字符,而不是解釋為元字符昔汉。
如果我們?cè)谡齽t表達(dá)式中包含它懈万,它將會(huì)匹配在此位置的任意一個(gè)字符。在正則表達(dá)式中靶病,插入符號(hào)和美元符號(hào)會(huì)被看作是錨點(diǎn)。這意味著正則表達(dá)式只有在文本行的開(kāi)頭或末尾找到時(shí)口予,才算發(fā)生一次匹配娄周。
另外,除了能在正則表達(dá)式中的給定位置匹配任意符之外沪停,通過(guò)使用中括號(hào)表達(dá)式煤辨,我們能夠指定一個(gè)字符集合(包含在不加括號(hào)的情況下會(huì)被解釋為元字符的字符)來(lái)被匹配。在兩種情況下木张,會(huì)在中括號(hào)表達(dá)式中使用元字符众辨, 并且有著不同的含義,第一個(gè)元字符是插入字符舷礼,其被用來(lái)否定鹃彻;第二個(gè)是連字符字符,其被用來(lái)表示一個(gè)字符區(qū)域妻献。如果 在正則表達(dá)式中的第一個(gè)字符是插入字符蛛株,則剩余的字符則被看作是不會(huì)在給定的字符位置出現(xiàn)的字符集合。