正則表達(dá)式真的很6

本文旨在用最通俗的語言講述最枯燥的基本知識。

文章提綱:

1公给、元字符

2借帘、重復(fù)限定符

3蜘渣、分組

4、轉(zhuǎn)義

5肺然、條件或

6蔫缸、區(qū)間

7、零寬斷言

8际起、捕獲和非捕獲

9拾碌、反向引用

10、貪婪和非貪婪

11街望、反義

正則表達(dá)式在幾乎所有語言中都可以使用校翔,無論是前端的 JavaScript、還是后端的 Java灾前、c#防症。他們都提供相應(yīng)的接口 / 函數(shù)支持正則表達(dá)式。

但很神奇的是:無論你大學(xué)選擇哪一門計算機(jī)語言豫柬,都沒有關(guān)于正則表達(dá)式的課程給你修告希,在你學(xué)會正則之前,你只能看著那些正則大師們烧给,寫了一串外星文似的字符串燕偶,替代了你用一大篇幅的 if else 代碼來做一些數(shù)據(jù)校驗。

1. 元字符

萬物皆有緣础嫡,正則也是如此指么,元字符是構(gòu)造正則表達(dá)式的一種基本元素。

我們先來記幾個常用的元字符:

有了元字符之后榴鼎,我們就可以利用這些元字符來寫一些簡單的正則表達(dá)式了伯诬,

比如:

匹配有abc開頭的字符串:

\babc或者^abc

匹配8位數(shù)字的QQ號碼:

^\d\d\d\d\d\d\d\d$

匹配1開頭11位數(shù)字的手機(jī)號碼:

^\1\d\d\d\d\d\d\d\d\d\d$

2. 重復(fù)限定符

為了處理這些重復(fù)問題,正則表達(dá)式中一些重復(fù)限定符巫财,把重復(fù)部分用合適的限定符替代盗似,下面我們來看一些限定符:

有了這些限定符之后,我們就可以對之前的正則表達(dá)式進(jìn)行改造了平项,比如:

匹配8位數(shù)字的QQ號碼:

^\d{8}$

匹配1開頭11位數(shù)字的手機(jī)號碼:

^1\d{10}$

匹配銀行卡號是14~18位的數(shù)字:

^\d{14,18}$

匹配以a開頭的赫舒,0個或多個b結(jié)尾的字符串:

^ab*$

3. 分組

從上面的例子(4)中看到,限定符是作用在與他左邊最近的一個字符闽瓢,那么問題來了接癌,如果我想要 ab 同時被限定那怎么辦呢?

正則表達(dá)式中用小括號 () 來做分組扣讼,也就是括號中的內(nèi)容作為一個整體缺猛。

因此當(dāng)我們要匹配多個 ab 時,我們可以這樣。

如:匹配字符串中包含 0 到多個 ab 開頭:

^(ab)*$

4. 轉(zhuǎn)義

我們看到正則表達(dá)式用小括號來做分組荔燎,那么問題來了:

如果要匹配的字符串中本身就包含小括號耻姥,那是不是沖突?應(yīng)該怎么辦有咨?

針對這種情況咏闪,正則提供了轉(zhuǎn)義的方式,也就是要把這些元字符摔吏、限定符或者關(guān)鍵字轉(zhuǎn)義成普通的字符,做法很簡答纵装,就是在要轉(zhuǎn)義的字符前面加個斜杠征讲,也就是\即可。如:要匹配以 (ab) 開頭:

^(\(ab\))*$

5. 條件或

回到我們剛才的手機(jī)號匹配橡娄,我們都知道:國內(nèi)號碼都來自三大網(wǎng)诗箍,它們都有屬于自己的號段,比如聯(lián)通有 130/131/132/155/156/185/186/145/176 等號段挽唉,假如讓我們匹配一個聯(lián)通的號碼滤祖,那按照我們目前所學(xué)到的正則,應(yīng)該無從下手的瓶籽,因為這里包含了一些并列的條件匠童,也就是“或”,那么在正則中是如何表示“或”的呢塑顺?

正則用符號 | 來表示或汤求,也叫做分支條件,當(dāng)滿足正則里的分支條件的任何一種條件時严拒,都會當(dāng)成是匹配成功扬绪。

那么我們就可以用或條件來處理這個問題:

^(130|131|132|155|156|185|186|145|176)\d{8}$

6. 區(qū)間

看到上面的例子,是不是看到有什么規(guī)律裤唠?是不是還有一種想要簡化的沖動挤牛?

實際是有的。

正則提供一個元字符中括號 [] 來表示區(qū)間條件:

限定 0 到 9 可以寫成 [0-9]

限定 A-Z 寫成 [A-Z]

限定某些數(shù)字 [165]

那上面的正則我們還改成這樣:

?^((13[0-2])|(15[56])|(18[5-6])|145|176)\d{8}$

7. 零寬斷言

無論是零寬還是斷言种蘸,聽起來都古古怪怪的墓赴,那先解釋一下這兩個詞。

斷言:俗話的斷言就是“我斷定什么什么”劈彪,而正則中的斷言竣蹦,就是說正則可以指明在指定的內(nèi)容的前面或后面會出現(xiàn)滿足指定規(guī)則的內(nèi)容,意思正則也可以像人類那樣斷定什么什么沧奴,比如"ss1aa2bb3", 正則可以用斷言找出 aa2 前面有 bb3痘括,也可以找出 aa2 后面有 ss1.

零寬:就是沒有寬度,在正則中,斷言只是匹配位置纲菌,不占字符挠日,也就是說,匹配結(jié)果里是不會返回斷言本身翰舌。

意思是講明白了嚣潜,那他有什么用呢?

我們來舉個栗子:

假設(shè)我們要用爬蟲抓取 csdn 里的文章閱讀量椅贱。通過查看源代碼可以看到文章閱讀量這個內(nèi)容是這樣的結(jié)構(gòu):

<span class="read-count">閱讀數(shù):641</span>

其中只有‘641’這個是一個變量懂算,也就是不同文章有不同的值济炎,當(dāng)我們拿到這個字符串時党涕,需要獲得這里邊的‘641’有很多種辦法,但如果使用正則應(yīng)該怎么匹配呢嗤瞎?

下面先講一下幾種類型的斷言:

1山橄、正向先行斷言(正前瞻)

語法:(?=pattern)

作用:匹配 pattern 表達(dá)式的前面內(nèi)容垮媒,不返回本身。

這樣子說航棱,還是一臉懵逼睡雇,好吧,回歸剛才那個栗子饮醇,要取到閱讀量它抱,在正則表達(dá)式中就意味著要能匹配到‘</span>’前面的數(shù)字內(nèi)容按照上所說的正向先行斷言可以匹配表達(dá)式前面的內(nèi)容,那意思就是:(?=</span>) 就可以匹配到前面的內(nèi)容了朴艰。匹配什么內(nèi)容呢抗愁?如果要所有內(nèi)容那就是:

可是老哥我們要的只是前面的數(shù)字呀,那也簡單咯呵晚,匹配數(shù)字 \d, 那可以改成:

大功告成蜘腌!

2、正向后行斷言(正后顧)

語法:(?<=pattern)

作用:匹配 pattern 表達(dá)式的后面的內(nèi)容饵隙,不返回本身撮珠。

有先行就有后行,先行是匹配前面的內(nèi)容金矛,那后行就是匹配后面的內(nèi)容啦芯急。

上面的栗子,我們也可以用后行斷言來處理:

3驶俊、負(fù)向先行斷言(負(fù)前瞻)

語法:(?!pattern)

作用:匹配非 pattern 表達(dá)式的前面內(nèi)容娶耍,不返回本身。

有正向也有負(fù)向饼酿,負(fù)向在這里其實就是非的意思榕酒。

舉個栗子:比如有一句 “我愛祖國胚膊,我是祖國的花朵”

現(xiàn)在要找到不是'的花朵'前面的祖國

用正則就可以這樣寫:

祖國(?!的花朵)

4、負(fù)向后行斷言(負(fù)后顧)

語法:(?<!pattern)

作用:匹配非 pattern 表達(dá)式的后面內(nèi)容想鹰,不返回本身紊婉。

8. 捕獲和非捕獲

單純說到捕獲,他的意思是匹配表達(dá)式辑舷,但捕獲通常和分組聯(lián)系在一起喻犁,也就是“捕獲組”。

捕獲組:匹配子表達(dá)式的內(nèi)容何缓,把匹配結(jié)果保存到內(nèi)存中中數(shù)字編號或顯示命名的組里肢础,以深度優(yōu)先進(jìn)行編號,之后可以通過序號或名稱來使用這些匹配結(jié)果碌廓。

而根據(jù)命名方式的不同乔妈,又可以分為兩種組:

1、數(shù)字編號捕獲組:

解釋:從表達(dá)式左側(cè)開始氓皱,每出現(xiàn)一個左括號和它對應(yīng)的右括號之間的內(nèi)容為一個分組,在分組中勃刨,第 0 組為整個表達(dá)式波材,第一組開始為分組。

比如固定電話的:020-85653333

他的正則表達(dá)式為:(0\d{2})-(\d{8})

按照左括號的順序身隐,這個表達(dá)式有如下分組:

我們用Java來驗證一下:

輸出結(jié)果:

可見廷区,分組個數(shù)是2,但是因為第0個為整個表達(dá)式本身贾铝,因此也一起輸出了隙轻。

2、命名編號捕獲組

語法:(?<name>exp)

解釋:分組的命名由表達(dá)式中的 name 指定

比如區(qū)號也可以這樣寫:(?\0\d{2})-(?\d{8})垢揩,按照左括號的順序玖绿,這個表達(dá)式有如下分組:

用代碼來驗證一下:

輸出結(jié)果:

3、非捕獲組

語法:(?:exp)

解釋:和捕獲組剛好相反叁巨,它用來標(biāo)識那些不需要捕獲的分組斑匪,說的通俗一點,就是你可以根據(jù)需要去保存你的分組锋勺。

比如上面的正則表達(dá)式蚀瘸,程序不需要用到第一個分組,那就可以這樣寫:

(?:\0\d{2})-(\d{8})

驗證一下:

輸出結(jié)果:

9. 反向引用

上面講到捕獲庶橱,我們知道:捕獲會返回一個捕獲組贮勃,這個分組是保存在內(nèi)存中,不僅可以在正則表達(dá)式外部通過程序進(jìn)行引用苏章,也可以在正則表達(dá)式內(nèi)部進(jìn)行引用寂嘉,這種引用方式就是反向引用奏瞬。

根據(jù)捕獲組的命名規(guī)則,反向引用可分為:

根據(jù)捕獲組的命名規(guī)則垫释,反向引用可分為:

數(shù)字編號組反向引用:\k 或\number

命名編號組反向引用:\k 或者\(yùn)'name'

好了 講完了丝格,懂嗎?不懂?闷O则颉!

可能連前面講的捕獲有什么用都還不懂吧订咸?

其實只是看完捕獲不懂不會用是很正常的曼尊!

因為捕獲組通常是和反向引用一起使用的

上面說到捕獲組是匹配子表達(dá)式的內(nèi)容按序號或者命名保存起來以便使用。

注意兩個字眼:“內(nèi)容” 和 “使用”脏嚷。

這里所說的“內(nèi)容”骆撇,是匹配結(jié)果,而不是子表達(dá)式本身父叙,強(qiáng)調(diào)這個有什么用神郊?嗯,先記住趾唱。

那這里所說的“使用”是怎樣使用呢涌乳?

因為它的作用主要是用來查找一些重復(fù)的內(nèi)容或者做替換指定字符。

還是舉栗子吧:

比如要查找一串字母"aabbbbgbddesddfiid"里成對的字母甜癞。

如果按照我們之前學(xué)到的正則夕晓,什么區(qū)間啊限定啊斷言啊可能是辦不到的,現(xiàn)在我們先用程序思維理一下思路:

1)匹配到一個字母

2)匹配第下一個字母悠咱,檢查是否和上一個字母是否一樣

3)如果一樣蒸辆,則匹配成功,否則失敗

這里的思路 2 中匹配下一個字母時析既,需要用到上一個字母躬贡,那怎么記住上一個字母呢?眼坏?逗宜?

這下子捕獲就有用處啦,我們可以利用捕獲把上一個匹配成功的內(nèi)容用來作為本次匹配的條件空骚。

好了纺讲,有思路就要實踐

首先匹配一個字母:\w,我們需要做成分組才能捕獲囤屹,因此寫成這樣:(\w)

那這個表達(dá)式就有一個捕獲組:(\w)

然后我們要用這個捕獲組作為條件熬甚,那就可以:(\w)\1這樣就大功告成了

可能有人不明白了,\1 是什么意思呢肋坚?

還記得捕獲組有兩種命名方式嗎乡括,一種是是根據(jù)捕獲分組順序命名肃廓,一種是自定義命名來作為捕獲組的命名在默認(rèn)情況下都是以數(shù)字來命名,而且數(shù)字命名的順序是從 1 開始的诲泌。

因此要引用第一個捕獲組盲赊,根據(jù)反向引用的數(shù)字命名規(guī)則 就需要 \k<1>或者\(yùn)1,當(dāng)然敷扫,通常都是是后者哀蘑。

我們來測試一下:

輸出結(jié)果:

嗯,這就是我們想要的了葵第。

在舉個替換的例子绘迁,假如想要把字符串中abc換成a。

輸出結(jié)果:

abbabcgbddesddfiid

10. 貪婪和非貪婪

1卒密、貪婪

我們都知道缀台,貪婪就是不滿足,盡可能多的要哮奇。在正則中膛腐,貪婪也是差不多的意思:

貪婪匹配:當(dāng)正則表達(dá)式中包含能接受重復(fù)的限定符時,通常的行為是(在使整個表達(dá)式能得到匹配的前提下)匹配盡可能多的字符鼎俘,這匹配方式叫做貪婪匹配哲身。

特性:一次性讀入整個字符串進(jìn)行匹配,每當(dāng)不匹配就舍棄最右邊一個字符而芥,繼續(xù)匹配,依次匹配和舍棄(這種匹配 - 舍棄的方式也叫做回溯)膀值,直到匹配成功或者把整個字符串舍棄完為止棍丐,因此它是一種最大化的數(shù)據(jù)返回,能多不會少沧踏。

前面我們講過重復(fù)限定符歌逢,其實這些限定符就是貪婪量詞,比如表達(dá)式:

\d{3,6}

用來匹配3到6位數(shù)字翘狱,在這種情況下秘案,它是一種貪婪模式的匹配,也就是假如字符串里有6個個數(shù)字可以匹配潦匈,那它就是全部匹配到阱高。

如:

輸出結(jié)果:

由結(jié)果可見:本來字符串中的“61762828”這一段,其實只需要出現(xiàn)3個(617)就已經(jīng)匹配成功了的茬缩,但是他并不滿足赤惊,而是匹配到了最大能匹配的字符,也就是6個凰锡。

一個量詞就如此貪婪了未舟,那有人會問圈暗,如果多個貪婪量詞湊在一起,那他們是如何支配自己的匹配權(quán)的呢裕膀?

是這樣的员串,多個貪婪在一起時,如果字符串能滿足他們各自最大程度的匹配時昼扛,就互不干擾寸齐,但如果不能滿足時,會根據(jù)深度優(yōu)先原則野揪,也就是從左到右的每一個貪婪量詞访忿,優(yōu)先最大數(shù)量的滿足,剩余再分配下一個量詞匹配斯稳。

輸出結(jié)果:

“617628” 是前面的\d{1,2}匹配出了 61海铆,后面的匹配出了 7628

"2991" 是前面的\d{1,2}匹配出了2 ,后面的匹配出了991(滿足匹配優(yōu)先挣惰,再最大程度的貪婪)

"87321"是前面的\d{1,2}匹配出了 87卧斟,后面的匹配出了 321

?2、懶惰(非貪婪)

懶惰匹配:當(dāng)正則表達(dá)式中包含能接受重復(fù)的限定符時憎茂,通常的行為是(在使整個表達(dá)式能得到匹配的前提下)匹配盡可能少的字符珍语,這匹配方式叫做懶惰匹配。

特性:從左到右竖幔,從字符串的最左邊開始匹配板乙,每次試圖不讀入字符匹配,匹配成功拳氢,則完成匹配募逞,否則讀入一個字符再匹配,依此循環(huán)(讀入字符馋评、匹配)直到匹配成功或者把字符串的字符匹配完為止放接。

懶惰量詞是在貪婪量詞后面加個“?”

輸出結(jié)果:

解答:

“61762” 是左邊的懶惰匹配出 6留特,右邊的貪婪匹配出 1762

"2991" 是左邊的懶惰匹配出 2纠脾,右邊的貪婪匹配出 991

"87321" 左邊的懶惰匹配出 8,右邊的貪婪匹配出 7321

11. 反義

前面說到元字符的都是要匹配什么什么蜕青,當(dāng)然如果你想反著來苟蹈,不想匹配某些字符,正則也提供了一些常用的反義元字符:

正則知識就講到這里右核,正則是一門博大精深的語言汉操,其實學(xué)會它的一些語法和知識點還算不太難,但想要做到真正學(xué)以致用能寫出非常 6 的正則蒙兰,還有很遠(yuǎn)的距離磷瘤,只有真正對它感興趣的芒篷,并且經(jīng)常研究和使用它,才會漸漸的理解它的博大精深之處采缚。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末针炉,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子扳抽,更是在濱河造成了極大的恐慌篡帕,老刑警劉巖,帶你破解...
    沈念sama閱讀 212,383評論 6 493
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件贸呢,死亡現(xiàn)場離奇詭異镰烧,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)楞陷,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,522評論 3 385
  • 文/潘曉璐 我一進(jìn)店門怔鳖,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人固蛾,你說我怎么就攤上這事结执。” “怎么了艾凯?”我有些...
    開封第一講書人閱讀 157,852評論 0 348
  • 文/不壞的土叔 我叫張陵献幔,是天一觀的道長。 經(jīng)常有香客問我趾诗,道長蜡感,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 56,621評論 1 284
  • 正文 為了忘掉前任恃泪,我火速辦了婚禮郑兴,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘悟泵。我一直安慰自己杈笔,他們只是感情好闪水,可當(dāng)我...
    茶點故事閱讀 65,741評論 6 386
  • 文/花漫 我一把揭開白布糕非。 她就那樣靜靜地躺著,像睡著了一般球榆。 火紅的嫁衣襯著肌膚如雪朽肥。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,929評論 1 290
  • 那天持钉,我揣著相機(jī)與錄音衡招,去河邊找鬼。 笑死每强,一個胖子當(dāng)著我的面吹牛始腾,可吹牛的內(nèi)容都是我干的州刽。 我是一名探鬼主播,決...
    沈念sama閱讀 39,076評論 3 410
  • 文/蒼蘭香墨 我猛地睜開眼浪箭,長吁一口氣:“原來是場噩夢啊……” “哼穗椅!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起奶栖,我...
    開封第一講書人閱讀 37,803評論 0 268
  • 序言:老撾萬榮一對情侶失蹤匹表,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后宣鄙,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體袍镀,經(jīng)...
    沈念sama閱讀 44,265評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,582評論 2 327
  • 正文 我和宋清朗相戀三年冻晤,在試婚紗的時候發(fā)現(xiàn)自己被綠了苇羡。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 38,716評論 1 341
  • 序言:一個原本活蹦亂跳的男人離奇死亡明也,死狀恐怖宣虾,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情温数,我是刑警寧澤绣硝,帶...
    沈念sama閱讀 34,395評論 4 333
  • 正文 年R本政府宣布,位于F島的核電站撑刺,受9級特大地震影響鹉胖,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜够傍,卻給世界環(huán)境...
    茶點故事閱讀 40,039評論 3 316
  • 文/蒙蒙 一甫菠、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧冕屯,春花似錦寂诱、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,798評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至浴韭,卻和暖如春丘喻,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背念颈。 一陣腳步聲響...
    開封第一講書人閱讀 32,027評論 1 266
  • 我被黑心中介騙來泰國打工泉粉, 沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 46,488評論 2 361
  • 正文 我出身青樓嗡靡,卻偏偏與公主長得像跺撼,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子讨彼,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 43,612評論 2 350

推薦閱讀更多精彩內(nèi)容