學(xué)習(xí)正則表達(dá)式

寫在最前面的話

最近在瀏覽Github Star榜時(shí)發(fā)現(xiàn)了關(guān)于學(xué)習(xí)正則表達(dá)式的介紹门躯,感覺非常不錯(cuò)淆党,可以邊看邊學(xué)邊練習(xí)蔬胯,所以Fork過來學(xué)習(xí)分享。作為字符匹配的神器源祈,學(xué)會(huì)使用正則表達(dá)式無疑可以幫助我們方便進(jìn)行各種文本處理眼虱。

因?yàn)槲恼轮械睦硬捎玫氖莌tml格式,簡書的md編輯器解析不了全度,我就全部刪除掉了。如果你想要查看原文的話,點(diǎn)擊https://github.com/ShixiangWang/learn-regex/blob/master/README-cn.md域醇。

什么是正則表達(dá)式?

正則表達(dá)式是一組由字母和符號(hào)組成的特殊文本, 它可以用來從文本中找出滿足你想要的格式的句子.

一個(gè)正則表達(dá)式是在一個(gè)主體字符串中從左到右匹配字符串時(shí)的一種樣式.
"Regular expression"這個(gè)詞比較拗口, 我們常使用縮寫的術(shù)語"regex"或"regexp".
正則表達(dá)式可以從一個(gè)基礎(chǔ)字符串中根據(jù)一定的匹配模式替換文本中的字符串、驗(yàn)證表單蓉媳、提取字符串等等.

想象你正在寫一個(gè)應(yīng)用, 然后你想設(shè)定一個(gè)用戶命名的規(guī)則, 讓用戶名包含字符,數(shù)字,下劃線和連字符,以及限制字符的個(gè)數(shù),好讓名字看起來沒那么丑.
我們使用以下正則表達(dá)式來驗(yàn)證一個(gè)用戶名:

以上的正則表達(dá)式可以接受 john_doe, jo-hn_doe, john12_as.
但不匹配Jo, 因?yàn)樗舜髮懙淖帜付姨塘?

目錄

1. 基本匹配

正則表達(dá)式其實(shí)就是在執(zhí)行搜索時(shí)的格式, 它由一些字母和數(shù)字組合而成.
例如: 一個(gè)正則表達(dá)式 the, 它表示一個(gè)規(guī)則: 由字母t開始,接著是h,再接著是e.

"the" => The fat cat sat on the mat.

在線練習(xí)

正則表達(dá)式123匹配字符串123. 它逐個(gè)字符的與輸入的正則表達(dá)式做比較.

正則表達(dá)式是大小寫敏感的, 所以The不會(huì)匹配the.

在線練習(xí)

2. 元字符

正則表達(dá)式主要依賴于元字符.
元字符不代表他們本身的字面意思, 他們都有特殊的含義. 一些元字符寫在方括號(hào)中的時(shí)候有一些特殊的意思. 以下是一些元字符的介紹:

元字符 描述
. 句號(hào)匹配任意單個(gè)字符除了換行符.
[ ] 字符種類. 匹配方括號(hào)內(nèi)的任意字符.
[^ ] 否定的字符種類. 匹配除了方括號(hào)里的任意字符
* 匹配>=0個(gè)重復(fù)的在*號(hào)之前的字符.
+ 匹配>=1個(gè)重復(fù)的+號(hào)前的字符.
? 標(biāo)記?之前的字符為可選.
{n,m} 匹配num個(gè)中括號(hào)之前的字符 (n <= num <= m).
(xyz) 字符集, 匹配與 xyz 完全相等的字符串.
| 或運(yùn)算符,匹配符號(hào)前或后的字符.
\ 轉(zhuǎn)義字符,用于匹配一些保留的字符 <code>[ ] ( ) { } . * + ? ^ $ \ |</code>
^ 從開始行開始匹配.
$ 從末端開始匹配.

2.1 點(diǎn)運(yùn)算符 .

.是元字符中最簡單的例子.
.匹配任意單個(gè)字符, 但不匹配換行符.

在線練習(xí)

2.2 字符集

字符集也叫做字符類.
方括號(hào)用來指定一個(gè)字符集.
在方括號(hào)中使用連字符來指定字符集的范圍.
在方括號(hào)中的字符集不關(guān)心順序.
例如, 表達(dá)式[Tt]he 匹配 theThe.

在線練習(xí)

方括號(hào)的句號(hào)就表示句號(hào).
表達(dá)式 ar[.] 匹配 ar.字符串

在線練習(xí)

2.2.1 否定字符集

一般來說 ^ 表示一個(gè)字符串的開頭, 但它用在一個(gè)方括號(hào)的開頭的時(shí)候, 它表示這個(gè)字符集是否定的.
例如, 表達(dá)式[^c]ar 匹配一個(gè)后面跟著ar的除了c的任意字符.

在線練習(xí)

2.3 重復(fù)次數(shù)

后面跟著元字符 +, * or ? 的, 用來指定匹配子模式的次數(shù).
這些元字符在不同的情況下有著不同的意思.

2.3.1 * 號(hào)

*號(hào)匹配 在*之前的字符出現(xiàn)大于等于0次.
例如, 表達(dá)式 a* 匹配以0或更多個(gè)a開頭的字符, 因?yàn)橛?個(gè)這個(gè)條件, 其實(shí)也就匹配了所有的字符. 表達(dá)式[a-z]* 匹配一個(gè)行中所有以小寫字母開頭的字符串.

在線練習(xí)

*字符和.字符搭配可以匹配所有的字符.*.
*和表示匹配空格的符號(hào)\s連起來用, 如表達(dá)式\s*cat\s*匹配0或更多個(gè)空格開頭和0或更多個(gè)空格結(jié)尾的cat字符串.

在線練習(xí)

2.3.2 + 號(hào)

+號(hào)匹配+號(hào)之前的字符出現(xiàn) >=1 次個(gè)字符.
例如表達(dá)式c.+t 匹配以首字母c開頭以t結(jié)尾,中間跟著任意個(gè)字符的字符串.

在線練習(xí)

2.3.3 ? 號(hào)

在正則表達(dá)式中元字符 ? 標(biāo)記在符號(hào)前面的字符為可選, 即出現(xiàn) 0 或 1 次.
例如, 表達(dá)式 [T]?he 匹配字符串 heThe.

在線練習(xí)

在線練習(xí)

2.4 {} 號(hào)

在正則表達(dá)式中 {} 是一個(gè)量詞, 常用來一個(gè)或一組字符可以重復(fù)出現(xiàn)的次數(shù).
例如, 表達(dá)式 [0-9]{2,3} 匹配 2~3 位 0~9 的數(shù)字.

在線練習(xí)

我們可以省略第二個(gè)參數(shù).
例如, [0-9]{2,} 匹配至少兩位 0~9 的數(shù)字.

如果逗號(hào)也省略掉則表示重復(fù)固定的次數(shù).
例如, [0-9]{3} 匹配3位數(shù)字

在線練習(xí)

在線練習(xí)

2.5 (...) 特征標(biāo)群

特征標(biāo)群是一組寫在 (...) 中的子模式. 例如之前說的 {} 是用來表示前面一個(gè)字符出現(xiàn)指定次數(shù). 但如果在 {} 前加入特征標(biāo)群則表示整個(gè)標(biāo)群內(nèi)的字符重復(fù) N 次. 例如, 表達(dá)式 (ab)* 匹配連續(xù)出現(xiàn) 0 或更多個(gè) ab.

我們還可以在 () 中用或字符 | 表示或. 例如, (c|g|p)ar 匹配 cargarpar.

在線練習(xí)

2.6 | 或運(yùn)算符

或運(yùn)算符就表示或, 用作判斷條件.

例如 (T|t)he|car 匹配 (T|t)hecar.

在線練習(xí)

2.7 轉(zhuǎn)碼特殊字符

反斜線 \ 在表達(dá)式中用于轉(zhuǎn)碼緊跟其后的字符. 用于指定 { } [ ] / \ + * . $ ^ | ? 這些特殊字符. 如果想要匹配這些特殊字符則要在其前面加上反斜線 \.

例如 . 是用來匹配除換行符外的所有字符的. 如果想要匹配句子中的 . 則要寫成 \. 以下這個(gè)例子 \.?是選擇性匹配.

在線練習(xí)

2.8 錨點(diǎn)

在正則表達(dá)式中, 想要匹配指定開頭或結(jié)尾的字符串就要使用到錨點(diǎn). ^ 指定開頭, $ 指定結(jié)尾.

2.8.1 ^ 號(hào)

^ 用來檢查匹配的字符串是否在所匹配字符串的開頭.

例如, 在 abc 中使用表達(dá)式 ^a 會(huì)得到結(jié)果 a. 但如果使用 ^b 將匹配不到任何結(jié)果. 因?yàn)樵谧址?abc 中并不是以 b 開頭.

例如, ^(T|t)he 匹配以 Thethe 開頭的字符串.

在線練習(xí)

在線練習(xí)

2.8.2 $ 號(hào)

同理于 ^ 號(hào), $ 號(hào)用來匹配字符是否是最后一個(gè).

例如, (at\.)$ 匹配以 at. 結(jié)尾的字符串.

在線練習(xí)

在線練習(xí)

3. 簡寫字符集

正則表達(dá)式提供一些常用的字符集簡寫. 如下:

簡寫 描述
. 除換行符外的所有字符
\w 匹配所有字母數(shù)字, 等同于 [a-zA-Z0-9_]
\W 匹配所有非字母數(shù)字, 即符號(hào), 等同于: [^\w]
\d 匹配數(shù)字: [0-9]
\D 匹配非數(shù)字: [^\d]
\s 匹配所有空格字符, 等同于: [\t\n\f\r\p{Z}]
\S 匹配所有非空格字符: [^\s]
\f 匹配一個(gè)換頁符
\n 匹配一個(gè)換行符
\r 匹配一個(gè)回車符
\t 匹配一個(gè)制表符
\v 匹配一個(gè)垂直制表符
\p 匹配 CR/LF (等同于 \r\n)譬挚,用來匹配 DOS 行終止符

4. 前后關(guān)聯(lián)約束(前后預(yù)查)

前置約束和后置約束都屬于非捕獲簇(用于匹配不在匹配列表中的格式).
前置約束用于判斷所匹配的格式是否在另一個(gè)確定的格式之后.

例如, 我們想要獲得所有跟在 $ 符號(hào)后的數(shù)字, 我們可以使用正向向后約束 (?<=\$)[0-9\.]*.
這個(gè)表達(dá)式匹配 $ 開頭, 之后跟著 0,1,2,3,4,5,6,7,8,9,. 這些字符可以出現(xiàn)大于等于 0 次.

前后關(guān)聯(lián)約束如下:

符號(hào) 描述
?= 前置約束-存在
?! 前置約束-排除
?<= 后置約束-存在
?<! 后置約束-排除

4.1 ?=... 前置約束(存在)

?=... 前置約束(存在), 表示第一部分表達(dá)式必須跟在 ?=...定義的表達(dá)式之后.

返回結(jié)果只瞞住第一部分表達(dá)式.
定義一個(gè)前置約束(存在)要使用 (). 在括號(hào)內(nèi)部使用一個(gè)問號(hào)和等號(hào): (?=...).

前置約束的內(nèi)容寫在括號(hào)中的等號(hào)后面.
例如, 表達(dá)式 [T|t]he(?=\sfat) 匹配 Thethe, 在括號(hào)中我們又定義了前置約束(存在) (?=\sfat) ,即 Thethe 后面緊跟著 (空格)fat.

在線練習(xí)

4.2 ?!... 前置約束-排除

前置約束-排除 ?! 用于篩選所有匹配結(jié)果, 篩選條件為 其后不跟隨著定義的格式
前置約束-排除 定義和 前置約束(存在) 一樣, 區(qū)別就是 = 替換成 ! 也就是 (?!...).

表達(dá)式 [T|t]he(?!\sfat) 匹配 Thethe, 且其后不跟著 (空格)fat.

在線練習(xí)

4.3 ?<= ... 后置約束-存在

后置約束-存在 記作(?<=...) 用于篩選所有匹配結(jié)果, 篩選條件為 其前跟隨著定義的格式.
例如, 表達(dá)式 (?<=[T|t]he\s)(fat|mat) 匹配 fatmat, 且其前跟著 Thethe.

在線練習(xí)

4.4 ?<!... 后置約束-排除

后置約束-排除 記作 (?<!...) 用于篩選所有匹配結(jié)果, 篩選條件為 其前不跟著定義的格式.
例如, 表達(dá)式 (?<!(T|t)he\s)(cat) 匹配 cat, 且其前不跟著 Thethe.

在線練習(xí)

5. 標(biāo)志

標(biāo)志也叫修飾語, 因?yàn)樗梢杂脕硇薷谋磉_(dá)式的搜索結(jié)果.
這些標(biāo)志可以任意的組合使用, 它也是整個(gè)正則表達(dá)式的一部分.

標(biāo)志 描述
i 忽略大小寫.
g 全局搜索.
m 多行的: 錨點(diǎn)元字符 ^ $ 工作范圍在每行的起始.

5.1 忽略大小寫 (Case Insensitive)

修飾語 i 用于忽略大小寫.
例如, 表達(dá)式 /The/gi 表示在全局搜索 The, 在后面的 i 將其條件修改為忽略大小寫, 則變成搜索 theThe, g 表示全局搜索.

在線練習(xí)

在線練習(xí)

5.2 全局搜索 (Global search)

修飾符 g 常用語執(zhí)行一個(gè)全局搜索匹配, 即(不僅僅返回第一個(gè)匹配的, 而是返回全部).
例如, 表達(dá)式 /.(at)/g 表示搜索 任意字符(除了換行) + at, 并返回全部結(jié)果.

在線練習(xí)

在線練習(xí)

5.3 多行修飾符 (Multiline)

多行修飾符 m 常用語執(zhí)行一個(gè)多行匹配.

像之前介紹的 (^,$) 用于檢查格式是否是在待檢測字符串的開頭或結(jié)尾. 但我們?nèi)绻胍诿啃械拈_頭和結(jié)尾生效, 我們需要用到多行修飾符 m.

例如, 表達(dá)式 /at(.)?$/gm 表示在待檢測字符串每行的末尾搜索 at后跟一個(gè)或多個(gè) . 的字符串, 并返回全部結(jié)果.

在線練習(xí)

在線練習(xí)

貢獻(xiàn)

許可證

MIT ? Zeeshan Ahmed

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市酪呻,隨后出現(xiàn)的幾起案子减宣,更是在濱河造成了極大的恐慌,老刑警劉巖玩荠,帶你破解...
    沈念sama閱讀 206,839評(píng)論 6 482
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件漆腌,死亡現(xiàn)場離奇詭異,居然都是意外死亡阶冈,警方通過查閱死者的電腦和手機(jī)闷尿,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,543評(píng)論 2 382
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來女坑,“玉大人填具,你說我怎么就攤上這事〈移” “怎么了劳景?”我有些...
    開封第一講書人閱讀 153,116評(píng)論 0 344
  • 文/不壞的土叔 我叫張陵,是天一觀的道長碉就。 經(jīng)常有香客問我盟广,道長,這世上最難降的妖魔是什么铝噩? 我笑而不...
    開封第一講書人閱讀 55,371評(píng)論 1 279
  • 正文 為了忘掉前任衡蚂,我火速辦了婚禮窿克,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘毛甲。我一直安慰自己年叮,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,384評(píng)論 5 374
  • 文/花漫 我一把揭開白布玻募。 她就那樣靜靜地躺著只损,像睡著了一般。 火紅的嫁衣襯著肌膚如雪七咧。 梳的紋絲不亂的頭發(fā)上跃惫,一...
    開封第一講書人閱讀 49,111評(píng)論 1 285
  • 那天,我揣著相機(jī)與錄音艾栋,去河邊找鬼爆存。 笑死,一個(gè)胖子當(dāng)著我的面吹牛蝗砾,可吹牛的內(nèi)容都是我干的先较。 我是一名探鬼主播,決...
    沈念sama閱讀 38,416評(píng)論 3 400
  • 文/蒼蘭香墨 我猛地睜開眼悼粮,長吁一口氣:“原來是場噩夢啊……” “哼闲勺!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起扣猫,我...
    開封第一講書人閱讀 37,053評(píng)論 0 259
  • 序言:老撾萬榮一對(duì)情侶失蹤菜循,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后申尤,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體癌幕,經(jīng)...
    沈念sama閱讀 43,558評(píng)論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,007評(píng)論 2 325
  • 正文 我和宋清朗相戀三年瀑凝,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了序芦。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 38,117評(píng)論 1 334
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡粤咪,死狀恐怖谚中,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情寥枝,我是刑警寧澤宪塔,帶...
    沈念sama閱讀 33,756評(píng)論 4 324
  • 正文 年R本政府宣布,位于F島的核電站囊拜,受9級(jí)特大地震影響某筐,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜冠跷,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,324評(píng)論 3 307
  • 文/蒙蒙 一南誊、第九天 我趴在偏房一處隱蔽的房頂上張望身诺。 院中可真熱鬧,春花似錦抄囚、人聲如沸霉赡。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,315評(píng)論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽穴亏。三九已至,卻和暖如春重挑,著一層夾襖步出監(jiān)牢的瞬間嗓化,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,539評(píng)論 1 262
  • 我被黑心中介騙來泰國打工谬哀, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留刺覆,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 45,578評(píng)論 2 355
  • 正文 我出身青樓玻粪,卻偏偏與公主長得像隅津,于是被迫代替她去往敵國和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子劲室,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,877評(píng)論 2 345

推薦閱讀更多精彩內(nèi)容