【正則表達(dá)式】正則表達(dá)式介紹

參考文章

學(xué)習(xí)之前

學(xué)習(xí)之前，先安裝一個(gè)Mac上用的軟件忱辅，來測(cè)試你的正則表達(dá)式是否正確七蜘，我這里用的RegExRX.

正則表達(dá)式是能夠更精確的描述你的需求，來進(jìn)行文本匹配的工具墙懂。

學(xué)習(xí)正則表達(dá)式的最好方法是從例子開始橡卤，理解例子之后再自己對(duì)例子進(jìn)行修改，實(shí)驗(yàn)损搬。

常用語法歸納

常用的元字符：

代碼	說明
`.`	匹配除換行符以外的任意字符
`\w`	匹配字母或數(shù)字或下劃線或漢字
`\s`	匹配任意的空白符
`\d`	匹配數(shù)字
`\b`	匹配單詞的開始或結(jié)束
`^`	匹配字符串的開始
`$`	匹配字符串的結(jié)束

常用的限定符：

代碼/語法	說明
`*`	重復(fù)零次或更多次
`+`	重復(fù)一次或更多次
`?`	重復(fù)零次或一次
`{n}`	重復(fù)n次
`{n,}`	重復(fù)n次或更多次
`{n,m}`	重復(fù)n到m次

常用的反義代碼：

代碼/語法	說明
`\W`	匹配任意不是字母碧库，數(shù)字，下劃線场躯，漢字的字符
`\S`	匹配任意不是空白符的字符
`\D`	匹配任意非數(shù)字的字符
`\B`	匹配不是單詞開頭或結(jié)束的位置
`[^x]`	匹配除了x以外的任意字符
`[^aeiou]`	匹配除了aeiou這幾個(gè)字母以外的任意字符

常用分組語法：

分類	代碼/語法	說明
捕獲	`exp`	匹配exp谈为，并捕獲文本到自動(dòng)命名的組里
`(?<name>exp)`	匹配exp，并捕獲文本到名稱為name的組里踢关，也可以寫成（?'name'exp）
`(?:exp)`	匹配exp，不捕獲匹配的文本粘茄，也不給此分組分配組號(hào)
零寬斷言	`(?=exp)`	匹配exp前面的位置
`(?<=exp)`	匹配exp后面的位置
`(?!exp)`	匹配后面跟的不是exp的位置
`(?<!exp)`	匹配前面不是exp的位置
注釋	`(?#comment)`	這種類型的分組不對(duì)正則表達(dá)式的處理產(chǎn)生任何影響签舞，用于提供注釋讓人閱讀

懶惰限定符：

代碼/語法	說明
`*？`	重復(fù)任意次柒瓣，但盡可能少重復(fù)
`+儒搭？`	重復(fù)1次或更多次，但盡可能少重復(fù)
`芙贫？搂鲫？`	重復(fù)0次或1次，但盡可能少重復(fù)
`{n,m}`	重復(fù)n到m次磺平，但盡可能少重復(fù)
`{n,}`	重復(fù)n次以上魂仍，但盡可能少重復(fù)

常用的處理選項(xiàng)：

名稱	說明
IgnoreCase(忽略大小寫)	匹配時(shí)不區(qū)分大小寫
Multiline(多行模式)	更改^和$的含義，使它們分別在任意一行的行首和行尾匹配拣挪，而不僅僅在整個(gè)字符串的開頭和結(jié)尾匹配擦酌。(在此模式下,$的精確含意是:匹配\n之前的位置以及字符串結(jié)束前的位置.)
Singleline(單行模式)	更改.的含義，使它與每一個(gè)字符匹配（包括換行符\n）
IgnorePatternWhitespace(忽略空白)	忽略表達(dá)式中的非轉(zhuǎn)義空白并啟用由#標(biāo)記的注釋
ExplicitCapture(顯式捕獲)	僅捕獲已被顯式命名的組菠劝。

本文未詳細(xì)討論的語法：

代碼/語法	說明
`\a`	報(bào)警字符(打印它的效果是電腦嘀一聲)
`\b`	通常是單詞分界位置赊舶，但如果在字符類里使用代表退格
`\t`	制表符，Tab
`\r`	回車
`\v`	豎向制表符
`\f`	換頁符
`\n`	換行符
`\e`	Escape
`\0nn`	ASCII代碼中八進(jìn)制代碼為nn的字符
`\xnn`	ASCII代碼中十六進(jìn)制代碼為nn的字符
`\unnnn`	Unicode代碼中十六進(jìn)制代碼為nnnn的字符
`\cN`	ASCII控制字符。比如\cC代表Ctrl+C
`\A`	字符串開頭(類似^笼平，但不受處理多行選項(xiàng)的影響)
`\Z`	字符串結(jié)尾或行尾(不受處理多行選項(xiàng)的影響)
`\z`	字符串結(jié)尾(類似$园骆，但不受處理多行選項(xiàng)的影響)
`\G`	當(dāng)前搜索的開頭
`\p{name}`	Unicode中命名為name的字符類，例如\p{IsGreek}
`(?>exp)`	貪婪子表達(dá)式
`(?<x>-<y>exp)`	平衡組
`(?im-nsx:exp)`	在子表達(dá)式exp中改變處理選項(xiàng)
`(?im-nsx)`	為表達(dá)式后面的部分改變處理選項(xiàng)
`(?(exp)yes\no)`(此處`\`應(yīng)為豎杠寓调，由于簡(jiǎn)書不給轉(zhuǎn)義锌唾，所以寫成了反斜杠)	把exp當(dāng)作零寬正向先行斷言，如果在這個(gè)位置能匹配捶牢，使用yes作為此組的表達(dá)式鸠珠；否則使用no
`(?(exp)yes)`	同上，只是使用空表達(dá)式作為no
`(?(name)yes\no)`(此處`\`應(yīng)為豎杠秋麸，由于簡(jiǎn)書不給轉(zhuǎn)義渐排，所以寫成了反斜杠)	如果命名為name的組捕獲到了內(nèi)容，使用yes作為表達(dá)式灸蟆；否則使用no
`(?(name)yes)`	同上驯耻，只是使用空表達(dá)式作為no

常用語法分析

講一些元字符

元字符\b匹配一個(gè)位置，這個(gè)位置上是單詞分隔符（空格炒考，標(biāo)點(diǎn)符號(hào)可缚，或者換行符）。 ^[1]

元字符`\b`

元字符.匹配除了換行符以外的任意字符斋枢。

元字符*匹配的既不是位置帘靡，也不是字符，而是數(shù)量——它指定*前邊的內(nèi)容可以連續(xù)重復(fù)使用任意次以使整個(gè)表達(dá)式得到匹配瓤帚。

.*連在一起就意味著任意數(shù)量的不包含換行的字符描姚。

比如我們要找的是hi后面不遠(yuǎn)處跟著一個(gè)Lucy，我們應(yīng)該用\bhi\b.*\bLucy\b戈次。

元字符`.*`

元字符\d匹配一位數(shù)字轩勘，如0\d\d-\d\d\d\d\d\d\d\d，它匹配這樣的字符串：以0開頭怯邪，然后是兩個(gè)數(shù)字绊寻，然后是一個(gè)連字號(hào)“-”，最后是8個(gè)數(shù)字(也就是中國(guó)的電話號(hào)碼悬秉。當(dāng)然澄步，這個(gè)例子只能匹配區(qū)號(hào)為3位的情形)。其中驮俗，-不是元字符，只匹配它本身——連字符允跑。我們用重負(fù)符號(hào)來簡(jiǎn)化這個(gè)正則0\d{2}-\d{8}王凑。

\s匹配任意的空白符搪柑，包括空格，制表符(Tab)索烹，換行符工碾，中文全角空格等。

\w匹配字母或數(shù)字或下劃線或漢字等.

\ba\w*\b匹配以字母a開頭的單詞——先是某個(gè)單詞開始處(\b)百姓，然后是字母a,然后是任意數(shù)量的字母或數(shù)字(\w*)渊额，最后是單詞結(jié)束處(\b)。

`\ba\w*\b`

\d+匹配1個(gè)或更多連續(xù)的數(shù)字垒拢。這里的+是和*類似的元字符旬迹，不同的是*匹配重復(fù)任意次(可能是0次)，而+則匹配重復(fù)1次或更多次求类。

`\d+`

\b\w{6}\b 匹配剛好6個(gè)字符的單詞奔垦。

元字符^（和數(shù)字6在同一個(gè)鍵位上的符號(hào)）和$都匹配一個(gè)位置，這和\b有點(diǎn)類似尸疆。^匹配你要用來查找的字符串的開頭椿猎，$匹配結(jié)尾。這兩個(gè)代碼在驗(yàn)證輸入的內(nèi)容時(shí)非常有用寿弱，比如一個(gè)網(wǎng)站如果要求你填寫的QQ號(hào)必須為5位到12位數(shù)字時(shí)犯眠，可以使用：^\d{5,12}$。

這里的{5,12}和前面介紹過的{2}是類似的症革，只不過{2}匹配只能不多不少重復(fù)2次筐咧，{5,12}則是重復(fù)的次數(shù)不能少于5次，不能多于12次噪矛，否則都不匹配嗜浮。

因?yàn)槭褂昧?code>^和$，所以輸入的整個(gè)字符串都要用來和\d{5,12}來匹配摩疑，也就是說整個(gè)輸入必須是5到12個(gè)數(shù)字，因此如果輸入的QQ號(hào)能匹配這個(gè)正則表達(dá)式的話畏铆，那就符合要求了雷袋。

和忽略大小寫的選項(xiàng)類似，有些正則表達(dá)式處理工具還有一個(gè)處理多行的選項(xiàng)辞居。如果選中了這個(gè)選項(xiàng)楷怒，^和$的意義就變成了匹配行的開始處和結(jié)束處。

說說字符轉(zhuǎn)義

如果你想查找元字符本身的話瓦灶，比如你查找.,或者*,就出現(xiàn)了問題：你沒辦法指定它們鸠删，因?yàn)樗鼈儠?huì)被解釋成別的意思。這時(shí)你就得使用\來取消這些字符的特殊意義贼陶。因此刃泡，你應(yīng)該使用.和*巧娱。當(dāng)然，要查找\本身烘贴，你也得用\.

例如：deerchao.net匹配deerchao.net禁添，C:\Windows匹配C:\Windows。

重復(fù)

你已經(jīng)看過了前面的*,+,{2},{5,12}這幾個(gè)匹配重復(fù)的方式了桨踪。

下面是一些使用重復(fù)的例子：

Windows\d+匹配Windows后面跟1個(gè)或更多數(shù)字

^\w+匹配一行的第一個(gè)單詞(或整個(gè)字符串的第一個(gè)單詞老翘，具體匹配哪個(gè)意思得看選項(xiàng)設(shè)置)

字符類

[aeiou]就匹配任何一個(gè)英文元音字母，[.?!]匹配標(biāo)點(diǎn)符號(hào)(.或?或!)锻离。

[0-9]代表的含意與\d就是完全一致的：一位數(shù)字

\(?0\d{2}[) -]?\d{8}可以匹配幾種格式的電話號(hào)碼铺峭，像(010)88886666，或022-22334455汽纠，或02912345678等卫键。我們對(duì)它進(jìn)行一些分析吧：首先是一個(gè)轉(zhuǎn)義字符(,它能出現(xiàn)0次或1次(?),然后是一個(gè)0，后面跟著2個(gè)數(shù)字(\d{2})疏虫，然后是)或-或空格中的一個(gè)永罚，它出現(xiàn)1次或不出現(xiàn)(?)，最后是8個(gè)數(shù)字(\d{8})卧秘。

分支條件

不幸的是呢袱，上面那個(gè)表達(dá)式也能匹配010)12345678或(022-87654321這樣的“不正確”的格式。要解決這個(gè)問題翅敌，我們需要用到分枝條件羞福。

0\d{2}-\d{8}|0\d{3}-\d{7}這個(gè)表達(dá)式能匹配兩種以連字號(hào)分隔的電話號(hào)碼：一種是三位區(qū)號(hào)，8位本地號(hào)(如010-12345678)蚯涮，一種是4位區(qū)號(hào)治专，7位本地號(hào)(0376-2233445)。

\d{5}-\d{4}|\d{5}這個(gè)表達(dá)式用于匹配美國(guó)的郵政編碼遭顶。美國(guó)郵編的規(guī)則是5位數(shù)字张峰，或者用連字號(hào)間隔的9位數(shù)字。之所以要給出這個(gè)例子是因?yàn)樗苷f明一個(gè)問題：使用分枝條件時(shí)棒旗，要注意各個(gè)條件的順序喘批。如果你把它改成\d{5}|\d{5}-\d{4}的話，那么就只會(huì)匹配5位的郵編(以及9位郵編的前5位)铣揉。原因是匹配分枝條件時(shí)饶深，將會(huì)從左到右地測(cè)試每個(gè)條件，如果滿足了某個(gè)分枝的話逛拱，就不會(huì)去再管其它的條件了敌厘。

分組

我們已經(jīng)提到了怎么重復(fù)單個(gè)字符（直接在字符后面加上限定符就行了）；但如果想要重復(fù)多個(gè)字符又該怎么辦朽合？你可以用小括號(hào)來指定子表達(dá)式(也叫做分組)俱两，然后你就可以指定這個(gè)子表達(dá)式的重復(fù)次數(shù)了饱狂。

(\d{1,3}\.){3}\d{1,3}是一個(gè)簡(jiǎn)單的IP地址匹配表達(dá)式^[2]。要理解這個(gè)表達(dá)式锋华，請(qǐng)按下列順序分析它：\d{1,3}匹配1到3位的數(shù)字嗡官，(\d{1,3}\.){3}匹配三位數(shù)字加上一個(gè)英文句號(hào)(這個(gè)整體也就是這個(gè)分組)重復(fù)3次，最后再加上一個(gè)一到三位的數(shù)字(\d{1,3})毯焕。

不幸的是衍腥，它也將匹配256.300.888.999這種不可能存在的IP地址。如果能使用算術(shù)比較的話纳猫，或許能簡(jiǎn)單地解決這個(gè)問題婆咸，但是正則表達(dá)式中并不提供關(guān)于數(shù)學(xué)的任何功能，所以只能使用冗長(zhǎng)的分組芜辕，選擇尚骄，字符類來描述一個(gè)正確的IP地址：((2[0-4]\d|25[0-5]|[01]?\d\d?)\.){3}(2[0-4]\d|25[0-5]|[01]?\d\d?)。

反義

例子：

<a[^>]+>匹配用尖括號(hào)括起來的以a開頭的字符串侵续。

后向引用

使用小括號(hào)指定一個(gè)子表達(dá)式后倔丈，匹配這個(gè)子表達(dá)式的文本(也就是此分組捕獲的內(nèi)容)可以在表達(dá)式或其它程序中作進(jìn)一步的處理。默認(rèn)情況下状蜗，每個(gè)分組會(huì)自動(dòng)擁有一個(gè)組號(hào)需五，規(guī)則是：從左向右，以分組的左括號(hào)為標(biāo)志轧坎，分組0對(duì)應(yīng)整個(gè)正則表達(dá)式宏邮，掃描兩遍的：第一遍只給未命名組分配（從1開始），第二遍只給命名組分配－－因此所有命名組的組號(hào)都大于未命名的組號(hào) 缸血。

你可以使用(?:exp)這樣的語法來剝奪一個(gè)分組對(duì)組號(hào)分配的參與權(quán)．

后向引用用于重復(fù)搜索前面某個(gè)分組匹配的文本蜜氨。例如，\1代表分組1匹配的文本捎泻。

\b(\w+)\b\s+\1\b可以用來匹配重復(fù)的單詞飒炎，像go go, 或者kitty kitty。這個(gè)表達(dá)式首先是一個(gè)單詞笆豁，也就是單詞開始處和結(jié)束處之間的多于一個(gè)的字母或數(shù)字(\b(\w+)\b)厌丑，這個(gè)單詞會(huì)被捕獲到編號(hào)為1的分組中，然后是1個(gè)或幾個(gè)空白符(\s+)渔呵，最后是分組1中捕獲的內(nèi)容（也就是前面匹配的那個(gè)單詞）(\1)。

`(\b\w+\b)\s+\1\b`與`\b(\w+)\b\s+\1\b`應(yīng)該是一樣的

你也可以自己指定子表達(dá)式的組名砍鸠。要指定一個(gè)子表達(dá)式的組名扩氢，請(qǐng)使用這樣的語法：(?<Word>\w+)(或者把尖括號(hào)換成'也行：(?'Word'\w+)),這樣就把\w+的組名指定為Word了。要反向引用這個(gè)分組捕獲的內(nèi)容爷辱，你可以使用\k<Word>,所以上一個(gè)例子也可以寫成這樣：\b(?<Word>\w+)\b\s+\k<Word>\b录豺。

零寬斷言

用于指定一個(gè)位置朦肘，這個(gè)位置應(yīng)該滿足一定的條件(即斷言)(Lookahead and Lookbehind Zero-Length Assertions).

(?=exp)也叫零寬度正預(yù)測(cè)先行斷言，它斷言自身出現(xiàn)的位置的后面能匹配表達(dá)式exp双饥。比如\b\w+(?=ing\b)媒抠，匹配以ing結(jié)尾的單詞的前面部分(除了ing以外的部分)，如查找I'm singing while you're dancing.時(shí)咏花，它會(huì)匹配sing和danc趴生。

`\b\w+(?=ing\b)`

(?<=exp)也叫零寬度正回顧后發(fā)斷言，它斷言自身出現(xiàn)的位置的前面能匹配表達(dá)式exp昏翰。比如(?<=\bre)\w+\b會(huì)匹配以re開頭的單詞的后半部分(除了re以外的部分)苍匆，例如在查找reading a book時(shí)，它匹配ading棚菊。

假如你想要給一個(gè)很長(zhǎng)的數(shù)字中每三位間加一個(gè)逗號(hào)(當(dāng)然是從右邊加起了)浸踩，你可以這樣查找需要在前面和里面添加逗號(hào)的部分：((?<=\d)\d{3})+\b，用它對(duì)1234567890進(jìn)行查找時(shí)結(jié)果是234567890统求。

我覺得這樣寫更好理解：`(?<=\d)(\d{3})+\b`

下面這個(gè)例子同時(shí)使用了這兩種斷言：(?<=\s)\d+(?=\s)匹配以空白符間隔的數(shù)字(再次強(qiáng)調(diào)检碗，不包括這些空白符)。

`(?<=\s)\d+(?=\s)`

負(fù)向零寬斷言

前面我們提到過怎么查找不是某個(gè)字符或不在某個(gè)字符類里的字符的方法(反義)码邻。但是如果我們只是想要確保某個(gè)字符沒有出現(xiàn)折剃，但并不想去匹配它時(shí)怎么辦？例如冒滩，如果我們想查找這樣的單詞--它里面出現(xiàn)了字母q,但是q后面跟的不是字母u,我們可以嘗試這樣：

\b\w*q[^u]\w*\b匹配包含后面不是字母u的字母q的單詞微驶。但是如果多做測(cè)試(或者你思維足夠敏銳，直接就觀察出來了)开睡，你會(huì)發(fā)現(xiàn)因苹，如果q出現(xiàn)在單詞的結(jié)尾的話，像Iraq,Benq篇恒，這個(gè)表達(dá)式就會(huì)出錯(cuò)扶檐。這是因?yàn)?code>[^u]總要匹配一個(gè)字符，所以如果q是單詞的最后一個(gè)字符的話胁艰，后面的[^u]將會(huì)匹配q后面的單詞分隔符(可能是空格款筑，或者是句號(hào)或其它的什么)，后面的\w*\b將會(huì)匹配下一個(gè)單詞腾么，于是\b\w*q[^u]\w*\b就能匹配整個(gè)Iraq fighting奈梳。負(fù)向零寬斷言能解決這樣的問題，因?yàn)樗黄ヅ湟粋€(gè)位置解虱，并不消費(fèi)任何字符∪列耄現(xiàn)在，我們可以這樣來解決這個(gè)問題：\b\w*q(?!u)\w*\b殴泰。

`\b\w*q[^u]\w*\b`

`\b\w*q(?!u)\w*\b`

零寬度負(fù)預(yù)測(cè)先行斷言(?!exp)于宙，斷言此位置的后面不能匹配表達(dá)式exp浮驳。例如：\d{3}(?!\d)匹配三位數(shù)字，而且這三位數(shù)字的后面不能是數(shù)字捞魁；\b((?!abc)\w)+\b匹配不包含連續(xù)字符串a(chǎn)bc的單詞至会。

同理，我們可以用(?<!exp),零寬度負(fù)回顧后發(fā)斷言來斷言此位置的前面不能匹配表達(dá)式exp：(?<![a-z])\d{7}匹配前面不是小寫字母的七位數(shù)字谱俭。

`(?<![a-z])\d{7}`

一個(gè)更復(fù)雜的例子：(?<=<(\w+)>).*(?=<\/\1>)匹配不包含屬性的簡(jiǎn)單HTML標(biāo)簽內(nèi)里的內(nèi)容奉件。 (?<=<(\w+)>)指定了這樣的前綴：被尖括號(hào)括起來的單詞(比如可能是<b>)，然后是.*(任意的字符串),最后是一個(gè)后綴(?=<\/\1>)旺上。注意后綴里的\/瓶蚂，它用到了前面提過的字符轉(zhuǎn)義；\1則是一個(gè)反向引用宣吱，引用的正是捕獲的第一組窃这，前面的(\w+)匹配的內(nèi)容，這樣如果前綴實(shí)際上是<b>的話征候，后綴就是</b>了杭攻。整個(gè)表達(dá)式匹配的是<b>和`</b>之間的內(nèi)容(再次提醒，不包括前綴和后綴本身)疤坝。

零寬斷言和負(fù)向零寬斷言的區(qū)別：

零寬斷言篩選出來的文本是符合斷言位置之后的文本兆解，而負(fù)向，則是符合斷言位置之前的文本
如果不使用斷言跑揉，則會(huì)把符合的整個(gè)文本篩選出來

注釋

小括號(hào)的另一種用途是通過語法(?#comment)來包含注釋锅睛。例如：2[0-4]\d(?#200-249)|250-5|[01]?\d\d?(?#0-199)。

要包含注釋的話历谍，最好是啟用“忽略模式里的空白符”選項(xiàng)现拒，這樣在編寫表達(dá)式時(shí)能任意的添加空格，Tab望侈，換行印蔬，而實(shí)際使用時(shí)這些都將被忽略。啟用這個(gè)選項(xiàng)后脱衙，在#后面到這一行結(jié)束的所有文本都將被當(dāng)成注釋忽略掉侥猬。例如，我們可以前面的一個(gè)表達(dá)式寫成這樣：

(?<=    # 斷言要匹配的文本的前綴
      <(\w+)> # 查找尖括號(hào)括起來的字母或數(shù)字(即HTML/XML標(biāo)簽)
      )       # 前綴結(jié)束
      .*      # 匹配任意文本
      (?=     # 斷言要匹配的文本的后綴
      <\/\1>  # 查找尖括號(hào)括起來的內(nèi)容：前面是一個(gè)"/"捐韩，后面是先前捕獲的標(biāo)簽
      )       # 后綴結(jié)束

貪婪與懶惰

當(dāng)正則表達(dá)式中包含能接受重復(fù)的限定符時(shí)退唠，通常的行為是（在使整個(gè)表達(dá)式能得到匹配的前提下）匹配盡可能多的字符。以這個(gè)表達(dá)式為例：a.*b荤胁，它將會(huì)匹配最長(zhǎng)的以a開始铜邮，以b結(jié)束的字符串。如果用它來搜索aabab的話，它會(huì)匹配整個(gè)字符串a(chǎn)abab松蒜。這被稱為貪婪匹配。

有時(shí)已旧，我們更需要懶惰匹配秸苗，也就是匹配盡可能少的字符。前面給出的限定符都可以被轉(zhuǎn)化為懶惰匹配模式运褪，只要在它后面加上一個(gè)問號(hào)?惊楼。這樣.*?就意味著匹配任意數(shù)量的重復(fù)，但是在能使整個(gè)匹配成功的前提下使用最少的重復(fù)〗斩铮現(xiàn)在看看懶惰版的例子吧：

a.*?b匹配最短的檀咙，以a開始，以b結(jié)束的字符串璃诀。如果把它應(yīng)用于aabab的話弧可，它會(huì)匹配aab（第一到第三個(gè)字符）和ab（第四到第五個(gè)字符）。

平衡組/遞歸匹配

有時(shí)我們需要匹配像( 100 * ( 50 + 15 ) )這樣的可嵌套的層次性結(jié)構(gòu)，這時(shí)簡(jiǎn)單地使用$.+$則只會(huì)匹配到最左邊的左括號(hào)和最右邊的右括號(hào)之間的內(nèi)容(這里我們討論的是貪婪模式，懶惰模式也有下面的問題)稿饰。假如原來的字符串里的左括號(hào)和右括號(hào)出現(xiàn)的次數(shù)不相等测蘑，比如( 5 / ( 3 + 2 ) ) )，那我們的匹配結(jié)果里兩者的個(gè)數(shù)也不會(huì)相等集灌。有沒有辦法在這樣的字符串里匹配到最長(zhǎng)的，配對(duì)的括號(hào)之間的內(nèi)容呢？

為了避免(和\(把你的大腦徹底搞糊涂笛匙，我們還是用尖括號(hào)代替圓括號(hào)吧。現(xiàn)在我們的問題變成了如何把xx <aa <bbb> <bbb> aa> yy這樣的字符串里犀变，最長(zhǎng)的配對(duì)的尖括號(hào)內(nèi)的內(nèi)容捕獲出來妹孙？

這里需要用到以下的語法構(gòu)造：

(?'group')把捕獲的內(nèi)容命名為group,并壓入堆棧(Stack)
(?'-group') 從堆棧上彈出最后壓入堆棧的名為group的捕獲內(nèi)容，如果堆棧本來為空弛作，則本分組的匹配失敗
(?(group)yes|no) 如果堆棧上存在以名為group的捕獲內(nèi)容的話涕蜂，繼續(xù)匹配yes部分的表達(dá)式，否則繼續(xù)匹配no部分

(?!)零寬負(fù)向先行斷言映琳，由于沒有后綴表達(dá)式机隙，試圖匹配總是失敗

我們需要做的是每碰到了左括號(hào)，就在壓入一個(gè)"Open",每碰到一個(gè)右括號(hào)萨西，就彈出一個(gè)有鹿，到了最后就看看堆棧是否為空－－如果不為空那就證明左括號(hào)比右括號(hào)多，那匹配就應(yīng)該失敗谎脯。正則表達(dá)式引擎會(huì)進(jìn)行回溯(放棄最前面或最后面的一些字符)葱跋，盡量使整個(gè)表達(dá)式得到匹配。

*如果你不是一個(gè)程序員（或者你自稱程序員但是不知道堆棧是什么東西），你就這樣理解上面的三種語法吧：第一個(gè)就是在黑板上寫一個(gè)"group"娱俺，第二個(gè)就是從黑板上擦掉一個(gè)"group"稍味，第三個(gè)就是看黑板上寫的還有沒有"group"，如果有就繼續(xù)匹配yes部分荠卷，否則就匹配no部分模庐。 *

<                         #最外層的左括號(hào)
    [^<>]*                #最外層的左括號(hào)后面的不是括號(hào)的內(nèi)容
    (
        (
            (?'Open'<)    #碰到了左括號(hào)，在黑板上寫一個(gè)"Open"
            [^<>]*       #匹配左括號(hào)后面的不是括號(hào)的內(nèi)容
        )+
        (
            (?'-Open'>)   #碰到了右括號(hào)油宜，擦掉一個(gè)"Open"
            [^<>]*        #匹配右括號(hào)后面不是括號(hào)的內(nèi)容
        )+
    )*
    (?(Open)(?!))         #在遇到最外層的右括號(hào)前面掂碱，判斷黑板上還有沒有沒擦掉的"Open"；如果還有慎冤，則匹配失敗

>                         #最外層的右括號(hào)

平衡組的一個(gè)最常見的應(yīng)用就是匹配HTML,下面這個(gè)例子可以匹配嵌套的<div>標(biāo)簽：<div[^>]*>[^<>]*(((?'Open'<div[^>]*>)[^<>]*)+((?'-Open'</div>)[^<>]*)+)*(?(Open)(?!))</div>.

常用正則表達(dá)式

說明：正則表達(dá)式通常用于兩種任務(wù)：1.驗(yàn)證疼燥，2.搜索/替換。用于驗(yàn)證時(shí)蚁堤，通常需要在前后分別加上^和$醉者，以匹配整個(gè)待驗(yàn)證字符串；搜索/替換時(shí)是否加上此限定則根據(jù)搜索的要求而定违寿，此外湃交，也有可能要在前后加上\b而不是^和$。此表所列的常用正則表達(dá)式藤巢，除個(gè)別外均未在前后加上任何限定搞莺，請(qǐng)根據(jù)需要，自行處理掂咒。

網(wǎng)址（URL）：

[a-zA-z]+://[^\s]*

IP地址(IP Address):

((2[0-4]\d|25[0-5]|[01]?\d\d?)\.){3}(2[0-4]\d|25[0-5]|[01]?\d\d?)

電子郵件(Email):

\w+([-+.]\w+)*@\w+([-.]\w+)*\.\w+([-.]\w+)*

QQ號(hào)碼:

[1-9]\d{4,}

HTML標(biāo)記(包含內(nèi)容或自閉合):

<(.*)(.*)>.*<\/\1>|<(.*) \/>

密碼(由數(shù)字/大寫字母/小寫字母/標(biāo)點(diǎn)符號(hào)組成才沧，四種都必有，8位以上):

(?=^.{8,}$)(?=.*\d)(?=.*\W+)(?=.*[A-Z])(?=.*[a-z])(?!.*\n).*$

日期(年-月-日):

(\d{4}|\d{2})-((1[0-2])|(0?[1-9]))-(([12][0-9])|(3[01])|(0?[1-9]))

日期(月/日/年):

((1[0-2])|(0?[1-9]))/(([12][0-9])|(3[01])|(0?[1-9]))/(\d{4}|\d{2})

時(shí)間(小時(shí):分鐘, 24小時(shí)制):

((1|0?)[0-9]|2[0-3]):([0-5][0-9])

漢字(字符):

[\u4e00-\u9fa5]

中文及全角標(biāo)點(diǎn)符號(hào)(字符):

[\u3000-\u301e\ufe10-\ufe19\ufe30-\ufe44\ufe50-\ufe6b\uff01-\uffee]

中國(guó)大陸固定電話號(hào)碼:

(\d{4}-|\d{3}-)?(\d{8}|\d{7})

中國(guó)大陸手機(jī)號(hào)碼:

1\d{10}

中國(guó)大陸郵政編碼:

\d{15}(\d\d[0-9xX])?

中國(guó)大陸身份證號(hào)(15位或18位):

\d{15}(\d\d[0-9xX])?

非負(fù)整數(shù)(正整數(shù)或零):

\d+

正整數(shù):

[0-9]*[1-9][0-9]*

負(fù)整數(shù):

-[0-9]*[1-9][0-9]*

整數(shù):

-?\d+

小數(shù):

(-?\d+)(\.\d+)?

不包含abc的單詞:

\b((?!abc)\w)+\b

不少于一個(gè)的連續(xù)的\w,與我們?nèi)粘Ｋf的英語單詞不同绍刮。 ?
P地址中每個(gè)數(shù)字都不能大于255. 經(jīng)常有人問, 01.02.03.04 這樣前面帶有0的數(shù)字, 是不是正確的IP地址呢? 答案是: 是的, IP 地址里的數(shù)字可以包含有前導(dǎo) 0 (leading zeroes). ?

最后編輯于：2017.11.27 00:53:10

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末温圆，一起剝皮案震驚了整個(gè)濱河市，隨后出現(xiàn)的幾起案子孩革，更是在濱河造成了極大的恐慌岁歉，老刑警劉巖，帶你破解...
沈念sama閱讀 206,214評(píng)論 6贊 481
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件膝蜈，死亡現(xiàn)場(chǎng)離奇詭異锅移，居然都是意外死亡，警方通過查閱死者的電腦和手機(jī)饱搏，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 88,307評(píng)論 2贊 382
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門非剃，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人推沸，你說我怎么就攤上這事备绽∪耄” “怎么了？”我有些...
開封第一講書人閱讀 152,543評(píng)論 0贊 341
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵肺素，是天一觀的道長(zhǎng)恨锚。經(jīng)常有香客問我，道長(zhǎng)倍靡，這世上最難降的妖魔是什么眠冈？我笑而不...
開封第一講書人閱讀 55,221評(píng)論 1贊 279
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮菌瘫，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘布卡。我一直安慰自己雨让，他們只是感情好，可當(dāng)我...
茶點(diǎn)故事閱讀 64,224評(píng)論 5贊 371
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布忿等。她就那樣靜靜地躺著栖忠，像睡著了一般。火紅的嫁衣襯著肌膚如雪贸街。梳的紋絲不亂的頭發(fā)上庵寞，一...
開封第一講書人閱讀 49,007評(píng)論 1贊 284
城市分裂傳說
那天，我揣著相機(jī)與錄音薛匪，去河邊找鬼捐川。笑死，一個(gè)胖子當(dāng)著我的面吹牛逸尖，可吹牛的內(nèi)容都是我干的古沥。我是一名探鬼主播，決...
沈念sama閱讀 38,313評(píng)論 3贊 399
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼娇跟，長(zhǎng)吁一口氣：“原來是場(chǎng)噩夢(mèng)啊……” “哼岩齿！你這毒婦竟也來了？” 一聲冷哼從身側(cè)響起苞俘，我...
開封第一講書人閱讀 36,956評(píng)論 0贊 259
萬榮殺人案實(shí)錄
序言：老撾萬榮一對(duì)情侶失蹤盹沈，失蹤者是張志新（化名）和其女友劉穎，沒想到半個(gè)月后吃谣，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體乞封，經(jīng)...
沈念sama閱讀 43,441評(píng)論 1贊 300
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 35,925評(píng)論 2贊 323
?白月光啟示錄
正文我和宋清朗相戀三年基协，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了歌亲。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點(diǎn)故事閱讀 38,018評(píng)論 1贊 333
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡澜驮，死狀恐怖陷揪，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情，我是刑警寧澤悍缠，帶...
沈念sama閱讀 33,685評(píng)論 4贊 322
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布卦绣，位于F島的核電站，受9級(jí)特大地震影響飞蚓，放射性物質(zhì)發(fā)生泄漏滤港。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 39,234評(píng)論 3贊 307
男人毒藥：我在死后第九天來索命
文/蒙蒙一趴拧、第九天我趴在偏房一處隱蔽的房頂上張望溅漾。院中可真熱鬧，春花似錦著榴、人聲如沸添履。這莊子的主人今日做“春日...
開封第一講書人閱讀 30,240評(píng)論 0贊 19
一樁弒父案脑又，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽暮胧。三九已至，卻和暖如春问麸，著一層夾襖步出監(jiān)牢的瞬間往衷，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 31,464評(píng)論 1贊 261
情欲美人皮
我被黑心中介騙來泰國(guó)打工严卖，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留席舍，地道東北人。一個(gè)月前我還...
沈念sama閱讀 45,467評(píng)論 2贊 352
代替公主和親
正文我出身青樓妄田，卻偏偏與公主長(zhǎng)得像俺亮，于是被迫代替她去往敵國(guó)和親。傳聞我的和親對(duì)象是個(gè)殘疾皇子疟呐，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 42,762評(píng)論 2贊 345