導(dǎo)語
正則表達(dá)式的作用:
- 測試字符串內(nèi)的模式
- 替換文本
- 基于模式匹配從字符串中提取子字符串
語法
正則表達(dá)式的各組成部分可以是單個字符啡邑、字符集辱志、字符范圍或在幾個字符之間選擇撤防。 也可以是這些組成部分的任意組合番枚。
寫完第一步是需要測試的涌庭,這里提供一個在線測試網(wǎng)站RegexPlaner
以下是個人常用的(具體的看官方文檔)
- 通過在一對分隔符之間放置表達(dá)式的各種組成部分审轮,就可以構(gòu)建正則表達(dá)式
/expression/ - 最簡單的正則表達(dá)式是與搜索字符串相比較的單個普通字符肥哎。 例如,單字符正則表達(dá)式 A 會始終匹配字母 A疾渣,無論其會出現(xiàn)在搜索字符串的哪個位置篡诽。
/A/
/a/
/123/ - 元字符
-
.
:匹配除換行符以外的任意字符 - \w:匹配字母或數(shù)字或下劃線或漢字
- \s:匹配任意的空白符
- \d:匹配任意數(shù)字
- \b:匹配單詞的開始和結(jié)束
- ^:字符串的開始
- ¥:字符串的結(jié)束
- 當(dāng)然如果你字符串中本來就有這些符號,就可以使用\來進(jìn)行轉(zhuǎn)義
.
榴捡,如*
就應(yīng)該寫成
E.G:
\ba\w*\b
匹配以字母a開頭的單詞——先是某個單詞開始處(\b)杈女,然后是字母a,然后是任意數(shù)量的字母或數(shù)字(\w),最后是單詞結(jié)束處(\b)吊圾。
\d+
匹配1個或更多連續(xù)的數(shù)字达椰。這里的+是和類似的元字符,不同的是*匹配重復(fù)任意次(可能是0次)项乒,而+則匹配重復(fù)1次或更多次啰劲。
元字符^
(和數(shù)字6在同一個鍵位上的符號)和$
都匹配一個位置,這和\b
有點類似檀何。^
匹配你要用來查找的字符串的開頭蝇裤,$
匹配結(jié)尾。比如一個網(wǎng)站如果要求你填寫的QQ號必須為5位到12位數(shù)字時频鉴,可以使用:^\d{5,12}$
- 限定符
-
*
:匹配零次或多次前面的字符或子表達(dá)式 -
+
: 匹配一次或多次前面的字符或子表達(dá)式 - `?:匹配零次或一次
-
{n}
: 匹配N次 -
{n,}
: 匹配N或更多次 -
{n,m}
: 匹配N到M次
E.G:Linux\d+
:匹配Linux之后跟的一個或多個數(shù)字
- 字符類
如果你想匹配沒有預(yù)定義元字符的字符集合(比如元音字母a,e,i,o,u),你只需要在方括號里列出它們就行了栓辜,像[aeiou]就匹配任何一個英文元音字母,[.?!]匹配標(biāo)點符號(.或?或!)垛孔。
- [a-z]&[A-Z]:匹配任意一個小寫字母&大寫字母
E.G:
/(?0\d{2}[) -]?\d{8}
:就可以匹配(010)88886666藕甩,或022-22334455,或02912345678之類的似炎。首先使用\對(
進(jìn)行轉(zhuǎn)義辛萍,然后匹配一個或沒有0,再接著兩個數(shù)字羡藐,[)-]
則匹配一次) or -
這兩個符號贩毕,最后再加上\d{8}
匹配八位數(shù)字
- 反義
有時需要查找不屬于某個能簡單定義的字符類的字符。比如想查找除了數(shù)字以外仆嗦,其它任意字符都行的情況辉阶,這時需要用到反義。
- \W:匹配任意不是字母,數(shù)字谆甜,下劃線垃僚,漢字的字符
- \S:匹配任意不是空白符的字符
...
*[^z]:匹配除了z以外的任意字符
- 分支條件 .
正則表達(dá)式里的分枝條件指的是有幾種規(guī)則,如果滿足其中任意一種規(guī)則都應(yīng)該當(dāng)成匹配规辱,具體方法是用|
把不同的規(guī)則分隔開谆棺。
E.G:
-
0\d{2}-\d{8}|0\d{3}-\d{7}
這個表達(dá)式能匹配兩種以連字號分隔的電話號碼:一種是三位區(qū)號,8位本地號(如010-12345678)罕袋,一種是4位區(qū)號改淑,7位本地號(0376-2233445) -
\d{5}-\d{4}|\d{5}
這個表達(dá)式用于匹配美國的郵政編碼。美國郵編的規(guī)則是5位數(shù)字浴讯,或者用連字號間隔的9位數(shù)字朵夏。之所以要給出這個例子是因為它能說明一個問題:使用分枝條件時,要注意各個條件的順序榆纽。如果你把它改成\d{5}|\d{5}-\d{4}
的話仰猖,那么就只會匹配5位的郵編(以及9位郵編的前5位)。原因是匹配分枝條件時奈籽,將會從左到右地測試每個條件饥侵,如果滿足了某個分枝的話,就不會去再管其它的條件了衣屏。
- 分組
前面我們看到單個字符數(shù)字等可以重復(fù)爆捞,其實多個也是可以的,這就需要使用分組啦
E.G:
((2[0-4]\d|25[0-5]|[01]?\d\d?)\.){3}(2[0-4]\d|25[0-5]|[01]?\d\d?)
:匹配IP地址勾拉,自己領(lǐng)會~