正則表達(dá)式是一種查找以及字符串替換操作谐宙。正則表達(dá)式在文本編輯器中廣泛使用坞笙,比如正則表達(dá)式被用于:
檢查文本中是否含有指定的特征詞
找出文中匹配特征詞的位置
從文本中提取信息铲敛,比如:字符串的子串
修改文本
與文本編輯器相似嘶卧,幾乎所有的高級(jí)編程語言都支持正則表達(dá)式。在這樣的語境下环戈,“文本”也就是一個(gè)字符串闷板,可以執(zhí)行的操作都是類似的。一些編程語言(比如Perl院塞,JavaScript)會(huì)檢查正則表達(dá)式的語法遮晚。
正則表達(dá)式是什么?
正則表達(dá)式只是一個(gè)字符串拦止。沒有長(zhǎng)度限制县遣,但是,這樣的正則表達(dá)式長(zhǎng)度往往較短汹族。如下所示是一些正則表達(dá)式的例子:
I had a \S+ day today
[A-Za-z0-9-_]{3,16}
\d\d\d\d-\d\d-\d\d
v(\d+)(.\d+)*
TotalMessages="(.*?)"
<[^<>]>
這些字符串實(shí)際上都是微型計(jì)算機(jī)程序萧求。正則表達(dá)式的語法,實(shí)際上是一種輕量級(jí)顶瞒、簡(jiǎn)潔夸政、適用于特定領(lǐng)域的編程語言。記住這一點(diǎn)榴徐,那么你就很容易理解下面的事情:
每一個(gè)正則表達(dá)式守问,都可以分解為一個(gè)指令序列,比如“先找到這樣的字符坑资,再找到那樣的字符耗帕,再?gòu)闹姓业揭粋€(gè)字符。盐茎。兴垦。”
每一個(gè)正則表達(dá)式都有輸入(文本)和輸出(匹配規(guī)則的輸出字柠,有時(shí)是修改后的文本)
正則表達(dá)式有可能出現(xiàn)語法錯(cuò)誤——不是所有的字符串都是正則表達(dá)式
正則表達(dá)式語法很有個(gè)性探越,也可以說很恐怖
有時(shí)可以通過編譯,使得正則表達(dá)式執(zhí)行更快
在實(shí)現(xiàn)中窑业,正則表達(dá)式還有其他的特點(diǎn)钦幔。本文將重點(diǎn)討論正則表達(dá)式的核心語法,在幾乎所有的正則表達(dá)式中都可以見到這些規(guī)則常柄。
特別提示:正則表達(dá)式與文件通配語法無關(guān)鲤氢,比如 *.xml
正則表達(dá)式的基礎(chǔ)語法
字符
正則表達(dá)式中包含了一系列的字符,這些字符只能匹配它們本身西潘。有一些被稱為“元字符”的特殊字符卷玉,可以匹配一些特殊規(guī)則。
如下所示的例子中喷市,我用紅色標(biāo)出了元字符相种。
I had a \S+ day today
[A-Za-z0-9-_]{3,16}
\d\d\d\d-\d\d-\d\d
v(\d+)(.\d+)*
TotalMessages="(.*?)"
<[^<>]*>
大部分的字符,包括所有的字母和數(shù)字字符品姓,是普通字符寝并。也就意味著箫措,它們只能匹配它們自己,如下所示的正則表達(dá)式:
cat
意味著衬潦,只能匹配一個(gè)字符串斤蔓,以“c”開頭,然后是字符“a”镀岛,緊跟著是字符“t”的字符串弦牡。
到目前為止,正則表達(dá)式的功能類似于
常規(guī)的Find功能
Java中的String.indexOf()函數(shù)
PHP中的strpos()函數(shù)
等等
注意:不做特殊說明哎媚,正則表達(dá)式中是區(qū)分大小寫的喇伯。但是,幾乎所有正則表達(dá)式的實(shí)現(xiàn)拨与,都會(huì)提供一個(gè)Flag用來控制是否區(qū)分大小寫稻据。
點(diǎn)“.”
我們第一個(gè)要講解的元字符是“.”。這個(gè)符號(hào)意味著可以匹配任意一個(gè)字符买喧。如下所示的正則表達(dá)式:
c.t
意味著匹配“以c開頭,之后是任意一個(gè)字符捻悯,緊跟著是字母t”的字符串。
在一段文本中淤毛,這樣的正則表達(dá)式可以用來找出cat,cot,czt這樣的字符串今缚,甚至可以找出c.t這樣的組合,但是不能找到ct或者是coot這樣的字符串低淡。
使用反斜杠“\”可以忽略元字符姓言,使得元字符的功能與普通字符一樣。所以蔗蹋,正則表達(dá)式
c.t
表示“找到字母c,然后是一個(gè)句號(hào)(“.”)何荚,緊跟著字母t”
反斜杠本身也是一個(gè)元字符,這意味著反斜杠本身也可以通過相似的方法變回到普通字符的用途猪杭。因此餐塘,正則表達(dá)式
c\t
表示匹配“以字符c開頭,然后是一個(gè)反斜杠,緊跟著是字母t”的字符串皂吮。
注意戒傻!在正則表達(dá)式的實(shí)現(xiàn)中,.是不能用于匹配換行符的蜂筹⌒枘桑”換行符“的表示方法在不同實(shí)現(xiàn)中也不同。實(shí)際編程時(shí)艺挪,請(qǐng)參考相關(guān)文檔不翩。在本文中,我認(rèn)為.是可以匹配任意字符的。實(shí)現(xiàn)環(huán)境通常會(huì)提供一個(gè)Flag標(biāo)志位慌盯,來控制這一點(diǎn)。
字符類
字符類是一組在方括號(hào)內(nèi)的字符掂器,表示可以匹配其中的任何一個(gè)字符亚皂。
正則表達(dá)式c[aeiou]t,表示可以匹配的字符串是”以c開頭国瓮,接著是aeiou中的任何一個(gè)字符灭必,最后以t結(jié)尾”。在文本的實(shí)際應(yīng)用中乃摹,這樣的正則表達(dá)式可以匹配:cat,cet,cit,cot,cut五種字符串禁漓。
正則表達(dá)式[0123456789]表示匹配任意一個(gè)整數(shù)。
正則表達(dá)式[a]表示匹配單字符a孵睬。
包含忽略字符的例子
a表示匹配字符串[a]
[[]\ab]表示匹配的字符為”[“或者”]”或者”a”,或者”b”
[\[]]表示匹配的字符為”\”或者 “[”或者”]”
在字符類中播歼,字符的重復(fù)和出現(xiàn)順序并不重要。[dabaaabcc]與[abc]是相同的
重要提示:字符類中和字符類外的規(guī)則有時(shí)不同掰读,一些字符在字符類中是元字符秘狞,在字符類外是普通字符。一些字符正好相反蹈集。還有一些字符在字符類中和字符類外都是元字符烁试,這要視情況而定!
比如拢肆,.表示匹配任意一個(gè)字符减响,而[.]表示匹配一個(gè)全角句號(hào)。這不是一回事郭怪!
字符類的范圍
在字符集中支示,你可以通過使用短橫線來表示匹配字母或數(shù)字的范圍。
[b-f]與[b,c,d,e,f]相同移盆,都是匹配一個(gè)字符”b”或”c”或”d”或”e”或”f”
[A-Z]與[ABCDEFGHIJKLMNOPQRSTUVWXYZ]相同悼院,都是匹配任意一個(gè)大寫字母。
[1-9]與[123456789]相同咒循,都是匹配任意一個(gè)非零數(shù)字据途。