2019-08-13

本文來自:https://github.com/ziishaned/learn-regex/blob/master/translations/README-cn.md

什么是正則表達式?

正則表達式是一組由字母和符號組成的特殊文本, 它可以用來從文本中找出滿足你想要的格式的句子.

一個正則表達式是在一個主體字符串中從左到右匹配字符串時的一種樣式.
"Regular expression"這個詞比較拗口, 我們常使用縮寫的術(shù)語"regex"或"regexp".
正則表達式可以從一個基礎(chǔ)字符串中根據(jù)一定的匹配模式替換文本中的字符串堪遂、驗證表單也祠、提取字符串等等.

想象你正在寫一個應用, 然后你想設(shè)定一個用戶命名的規(guī)則, 讓用戶名包含字符,數(shù)字,下劃線和連字符,以及限制字符的個數(shù),好讓名字看起來沒那么丑.
我們使用以下正則表達式來驗證一個用戶名:

表達式

以上的正則表達式可以接受 john_doe, jo-hn_doe, john12_as.
但不匹配Jo, 因為它包含了大寫的字母而且太短了.

目錄

1. 基本匹配

正則表達式其實就是在執(zhí)行搜索時的格式, 它由一些字母和數(shù)字組合而成.
例如: 一個正則表達式 the, 它表示一個規(guī)則: 由字母t開始,接著是h,再接著是e.

<pre>
"the" => The fat cat sat on <a href="#learn-regex"><strong>the</strong></a> mat.
</pre>

在線練習

正則表達式123匹配字符串123. 它逐個字符的與輸入的正則表達式做比較.

正則表達式是大小寫敏感的, 所以The不會匹配the.

<pre>
"The" => <a href="#learn-regex"><strong>The</strong></a> fat cat sat on the mat.
</pre>

在線練習

2. 元字符

正則表達式主要依賴于元字符.
元字符不代表他們本身的字面意思, 他們都有特殊的含義. 一些元字符寫在方括號中的時候有一些特殊的意思. 以下是一些元字符的介紹:

元字符 描述
. 句號匹配任意單個字符除了換行符.
[ ] 字符種類. 匹配方括號內(nèi)的任意字符.
[^ ] 否定的字符種類. 匹配除了方括號里的任意字符
* 匹配>=0個重復的在*號之前的字符.
+ 匹配>=1個重復的+號前的字符.
? 標記?之前的字符為可選.
{n,m} 匹配num個大括號之前的字符 (n <= num <= m).
(xyz) 字符集, 匹配與 xyz 完全相等的字符串.
| 或運算符,匹配符號前或后的字符.
\ 轉(zhuǎn)義字符,用于匹配一些保留的字符 <code>[ ] ( ) { } . * + ? ^ $ \ |</code>
^ 從開始行開始匹配.
$ 從末端開始匹配.

2.1 點運算符 .

.是元字符中最簡單的例子.
.匹配任意單個字符, 但不匹配換行符.
例如, 表達式.ar匹配一個任意字符后面跟著是ar的字符串.

<pre>
".ar" => The <a href="#learn-regex"><strong>car</strong></a> <a href="#learn-regex"><strong>par</strong></a>ked in the <a href="#learn-regex"><strong>gar</strong></a>age.
</pre>

在線練習

2.2 字符集

字符集也叫做字符類.
方括號用來指定一個字符集.
在方括號中使用連字符來指定字符集的范圍.
在方括號中的字符集不關(guān)心順序.
例如, 表達式[Tt]he 匹配 theThe.

<pre>
"[Tt]he" => <a href="#learn-regex"><strong>The</strong></a> car parked in <a href="#learn-regex"><strong>the</strong></a> garage.
</pre>

在線練習

方括號的句號就表示句號.
表達式 ar[.] 匹配 ar.字符串

<pre>
"ar[.]" => A garage is a good place to park a c<a href="#learn-regex"><strong>ar.</strong></a>
</pre>

在線練習

2.2.1 否定字符集

一般來說 ^ 表示一個字符串的開頭, 但它用在一個方括號的開頭的時候, 它表示這個字符集是否定的.
例如, 表達式[^c]ar 匹配一個后面跟著ar的除了c的任意字符.

<pre>
"[^c]ar" => The car <a href="#learn-regex"><strong>par</strong></a>ked in the <a href="#learn-regex"><strong>gar</strong></a>age.
</pre>

在線練習

2.3 重復次數(shù)

后面跟著元字符 +, * or ? 的, 用來指定匹配子模式的次數(shù).
這些元字符在不同的情況下有著不同的意思.

2.3.1 *

*號匹配 在*之前的字符出現(xiàn)大于等于0次.
例如, 表達式 a* 匹配以0或更多個a開頭的字符, 因為有0個這個條件, 其實也就匹配了所有的字符. 表達式[a-z]* 匹配一個行中所有以小寫字母開頭的字符串.

<pre>
"[a-z]*" => T<a href="#learn-regex"><strong>he</strong></a> <a href="#learn-regex"><strong>car</strong></a> <a href="#learn-regex"><strong>parked</strong></a> <a href="#learn-regex"><strong>in</strong></a> <a href="#learn-regex"><strong>the</strong></a> <a href="#learn-regex"><strong>garage</strong></a> #21.
</pre>

在線練習

*字符和.字符搭配可以匹配所有的字符.*.
*和表示匹配空格的符號\s連起來用, 如表達式\s*cat\s*匹配0或更多個空格開頭和0或更多個空格結(jié)尾的cat字符串.

<pre>
"\scat\s" => The fat<a href="#learn-regex"><strong> cat </strong></a>sat on the con<a href="#learn-regex"><strong>cat</strong></a>enation.
</pre>

在線練習

2.3.2 +

+號匹配+號之前的字符出現(xiàn) >=1 次.
例如表達式c.+t 匹配以首字母c開頭以t結(jié)尾,中間跟著任意個字符的字符串.

<pre>
"c.+t" => The fat <a href="#learn-regex"><strong>cat sat on the mat</strong></a>.
</pre>

在線練習

2.3.3 ?

在正則表達式中元字符 ? 標記在符號前面的字符為可選, 即出現(xiàn) 0 或 1 次.
例如, 表達式 [T]?he 匹配字符串 heThe.

<pre>
"[T]he" => <a href="#learn-regex"><strong>The</strong></a> car is parked in the garage.
</pre>

在線練習

<pre>
"[T]?he" => <a href="#learn-regex"><strong>The</strong></a> car is parked in t<a href="#learn-regex"><strong>he</strong></a> garage.
</pre>

在線練習

2.4 {}

在正則表達式中 {} 是一個量詞, 常用來一個或一組字符可以重復出現(xiàn)的次數(shù).
例如, 表達式 [0-9]{2,3} 匹配最少 2 位最多 3 位 0~9 的數(shù)字.

<pre>
"[0-9]{2,3}" => The number was 9.<a href="#learn-regex"><strong>999</strong></a>7 but we rounded it off to <a href="#learn-regex"><strong>10</strong></a>.0.
</pre>

在線練習

我們可以省略第二個參數(shù).
例如, [0-9]{2,} 匹配至少兩位 0~9 的數(shù)字.

<pre>
"[0-9]{2,}" => The number was 9.<a href="#learn-regex"><strong>9997</strong></a> but we rounded it off to <a href="#learn-regex"><strong>10</strong></a>.0.
</pre>

在線練習

如果逗號也省略掉則表示重復固定的次數(shù).
例如, [0-9]{3} 匹配3位數(shù)字

<pre>
"[0-9]{3}" => The number was 9.<a href="#learn-regex"><strong>999</strong></a>7 but we rounded it off to 10.0.
</pre>

在線練習

2.5 (...) 特征標群

特征標群是一組寫在 (...) 中的子模式. 例如之前說的 {} 是用來表示前面一個字符出現(xiàn)指定次數(shù). 但如果在 {} 前加入特征標群則表示整個標群內(nèi)的字符重復 N 次. 例如, 表達式 (ab)* 匹配連續(xù)出現(xiàn) 0 或更多個 ab.

我們還可以在 () 中用或字符 | 表示或. 例如, (c|g|p)ar 匹配 cargarpar.

<pre>
"(c|g|p)ar" => The <a href="#learn-regex"><strong>car</strong></a> is <a href="#learn-regex"><strong>par</strong></a>ked in the <a href="#learn-regex"><strong>gar</strong></a>age.
</pre>

在線練習

2.6 | 或運算符

或運算符就表示或, 用作判斷條件.

例如 (T|t)he|car 匹配 (T|t)hecar.

<pre>
"(T|t)he|car" => <a href="#learn-regex"><strong>The</strong></a> <a href="#learn-regex"><strong>car</strong></a> is parked in <a href="#learn-regex"><strong>the</strong></a> garage.
</pre>

在線練習

2.7 轉(zhuǎn)碼特殊字符

反斜線 \ 在表達式中用于轉(zhuǎn)碼緊跟其后的字符. 用于指定 { } [ ] / \ + * . $ ^ | ? 這些特殊字符. 如果想要匹配這些特殊字符則要在其前面加上反斜線 \.

例如 . 是用來匹配除換行符外的所有字符的. 如果想要匹配句子中的 . 則要寫成 \. 以下這個例子 \.?是選擇性匹配.

<pre>
"(f|c|m)at.?" => The <a href="#learn-regex"><strong>fat</strong></a> <a href="#learn-regex"><strong>cat</strong></a> sat on the <a href="#learn-regex"><strong>mat.</strong></a>
</pre>

在線練習

2.8 錨點

在正則表達式中, 想要匹配指定開頭或結(jié)尾的字符串就要使用到錨點. ^ 指定開頭, $ 指定結(jié)尾.

2.8.1 ^

^ 用來檢查匹配的字符串是否在所匹配字符串的開頭.

例如, 在 abc 中使用表達式 ^a 會得到結(jié)果 a. 但如果使用 ^b 將匹配不到任何結(jié)果. 因為在字符串 abc 中并不是以 b 開頭.

例如, ^(T|t)he 匹配以 Thethe 開頭的字符串.

<pre>
"(T|t)he" => <a href="#learn-regex"><strong>The</strong></a> car is parked in <a href="#learn-regex"><strong>the</strong></a> garage.
</pre>

在線練習

<pre>
"^(T|t)he" => <a href="#learn-regex"><strong>The</strong></a> car is parked in the garage.
</pre>

在線練習

2.8.2 $

同理于 ^ 號, $ 號用來匹配字符是否是最后一個.

例如, (at\.)$ 匹配以 at. 結(jié)尾的字符串.

<pre>
"(at.)" => The fat c<a href="#learn-regex"><strong>at.</strong></a> s<a href="#learn-regex"><strong>at.</strong></a> on the m<a href="#learn-regex"><strong>at.</strong></a>
</pre>

在線練習

<pre>
"(at.)$" => The fat cat. sat. on the m<a href="#learn-regex"><strong>at.</strong></a>
</pre>

在線練習

3. 簡寫字符集

正則表達式提供一些常用的字符集簡寫. 如下:

簡寫 描述
. 除換行符外的所有字符
\w 匹配所有字母數(shù)字, 等同于 [a-zA-Z0-9_]
\W 匹配所有非字母數(shù)字, 即符號, 等同于: [^\w]
\d 匹配數(shù)字: [0-9]
\D 匹配非數(shù)字: [^\d]
\s 匹配所有空格字符, 等同于: [\t\n\f\r\p{Z}]
\S 匹配所有非空格字符: [^\s]
\f 匹配一個換頁符
\n 匹配一個換行符
\r 匹配一個回車符
\t 匹配一個制表符
\v 匹配一個垂直制表符
\p 匹配 CR/LF (等同于 \r\n)怯屉,用來匹配 DOS 行終止符

4. 零寬度斷言(前后預查)

先行斷言和后發(fā)斷言都屬于非捕獲簇(不捕獲文本 羡儿,也不針對組合計進行計數(shù)).
先行斷言用于判斷所匹配的格式是否在另一個確定的格式之前, 匹配結(jié)果不包含該確定格式(僅作為約束).

例如, 我們想要獲得所有跟在 $ 符號后的數(shù)字, 我們可以使用正后發(fā)斷言 (?<=\$)[0-9\.]*.
這個表達式匹配 $ 開頭, 之后跟著 0,1,2,3,4,5,6,7,8,9,. 這些字符可以出現(xiàn)大于等于 0 次.

零寬度斷言如下:

符號 描述
?= 正先行斷言-存在
?! 負先行斷言-排除
?<= 正后發(fā)斷言-存在
?<! 負后發(fā)斷言-排除

4.1 ?=... 正先行斷言

?=... 正先行斷言, 表示第一部分表達式之后必須跟著 ?=...定義的表達式.

返回結(jié)果只包含滿足匹配條件的第一部分表達式.
定義一個正先行斷言要使用 (). 在括號內(nèi)部使用一個問號和等號: (?=...).

正先行斷言的內(nèi)容寫在括號中的等號后面.
例如, 表達式 (T|t)he(?=\sfat) 匹配 Thethe, 在括號中我們又定義了正先行斷言 (?=\sfat) ,即 Thethe 后面緊跟著 (空格)fat.

<pre>
"(T|t)he(?=\sfat)" => <a href="#learn-regex"><strong>The</strong></a> fat cat sat on the mat.
</pre>

在線練習

4.2 ?!... 負先行斷言

負先行斷言 ?! 用于篩選所有匹配結(jié)果, 篩選條件為 其后不跟隨著斷言中定義的格式.
正先行斷言 定義和 負先行斷言 一樣, 區(qū)別就是 = 替換成 ! 也就是 (?!...).

表達式 (T|t)he(?!\sfat) 匹配 Thethe, 且其后不跟著 (空格)fat.

<pre>
"(T|t)he(?!\sfat)" => The fat cat sat on <a href="#learn-regex"><strong>the</strong></a> mat.
</pre>

在線練習

4.3 ?<= ... 正后發(fā)斷言

正后發(fā)斷言 記作(?<=...) 用于篩選所有匹配結(jié)果, 篩選條件為 其前跟隨著斷言中定義的格式.
例如, 表達式 (?<=(T|t)he\s)(fat|mat) 匹配 fatmat, 且其前跟著 Thethe.

<pre>
"(?<=(T|t)he\s)(fat|mat)" => The <a href="#learn-regex"><strong>fat</strong></a> cat sat on the <a href="#learn-regex"><strong>mat</strong></a>.
</pre>

在線練習

4.4 ?<!... 負后發(fā)斷言

負后發(fā)斷言 記作 (?<!...) 用于篩選所有匹配結(jié)果, 篩選條件為 其前不跟隨著斷言中定義的格式.
例如, 表達式 (?<!(T|t)he\s)(cat) 匹配 cat, 且其前不跟著 Thethe.

<pre>
"(?<!(T|t)he\s)(cat)" => The cat sat on <a href="#learn-regex"><strong>cat</strong></a>.
</pre>

在線練習

5. 標志

標志也叫模式修正符, 因為它可以用來修改表達式的搜索結(jié)果.
這些標志可以任意的組合使用, 它也是整個正則表達式的一部分.

標志 描述
i 忽略大小寫.
g 全局搜索.
m 多行的: 錨點元字符 ^ $ 工作范圍在每行的起始.

5.1 忽略大小寫 (Case Insensitive)

修飾語 i 用于忽略大小寫.
例如, 表達式 /The/gi 表示在全局搜索 The, 在后面的 i 將其條件修改為忽略大小寫, 則變成搜索 theThe, g 表示全局搜索.

<pre>
"The" => <a href="#learn-regex"><strong>The</strong></a> fat cat sat on the mat.
</pre>

在線練習

<pre>
"/The/gi" => <a href="#learn-regex"><strong>The</strong></a> fat cat sat on <a href="#learn-regex"><strong>the</strong></a> mat.
</pre>

在線練習

5.2 全局搜索 (Global search)

修飾符 g 常用于執(zhí)行一個全局搜索匹配, 即(不僅僅返回第一個匹配的, 而是返回全部).
例如, 表達式 /.(at)/g 表示搜索 任意字符(除了換行) + at, 并返回全部結(jié)果.

<pre>
"/.(at)/" => The <a href="#learn-regex"><strong>fat</strong></a> cat sat on the mat.
</pre>

在線練習

<pre>
"/.(at)/g" => The <a href="#learn-regex"><strong>fat</strong></a> <a href="#learn-regex"><strong>cat</strong></a> <a href="#learn-regex"><strong>sat</strong></a> on the <a href="#learn-regex"><strong>mat</strong></a>.
</pre>

在線練習

5.3 多行修飾符 (Multiline)

多行修飾符 m 常用于執(zhí)行一個多行匹配.

像之前介紹的 (^,$) 用于檢查格式是否是在待檢測字符串的開頭或結(jié)尾. 但我們?nèi)绻胍诿啃械拈_頭和結(jié)尾生效, 我們需要用到多行修飾符 m.

例如, 表達式 /at(.)?$/gm 表示小寫字符 a 后跟小寫字符 t , 末尾可選除換行符外任意字符. 根據(jù) m 修飾符, 現(xiàn)在表達式匹配每行的結(jié)尾.

<pre>
"/.at(.)?$/" => The fat
cat sat
on the <a href="#learn-regex"><strong>mat.</strong></a>
</pre>

在線練習

<pre>
"/.at(.)?$/gm" => The <a href="#learn-regex"><strong>fat</strong></a>
cat <a href="#learn-regex"><strong>sat</strong></a>
on the <a href="#learn-regex"><strong>mat.</strong></a>
</pre>

在線練習

6. 貪婪匹配與惰性匹配 (Greedy vs lazy matching)

正則表達式默認采用貪婪匹配模式檐春,在該模式下意味著會匹配盡可能長的子串蹦狂。我們可以使用 ? 將貪婪匹配模式轉(zhuǎn)化為惰性匹配模式誓篱。

<pre>
"/(.*at)/" => <a href="#learn-regex"><strong>The fat cat sat on the mat</strong></a>. </pre>

在線練習

<pre>
"/(.*?at)/" => <a href="#learn-regex"><strong>The fat</strong></a> cat sat on the mat. </pre>

在線練習

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市凯楔,隨后出現(xiàn)的幾起案子窜骄,更是在濱河造成了極大的恐慌,老刑警劉巖摆屯,帶你破解...
    沈念sama閱讀 221,273評論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件邻遏,死亡現(xiàn)場離奇詭異,居然都是意外死亡虐骑,警方通過查閱死者的電腦和手機准验,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,349評論 3 398
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來廷没,“玉大人糊饱,你說我怎么就攤上這事〉呃瑁” “怎么了另锋?”我有些...
    開封第一講書人閱讀 167,709評論 0 360
  • 文/不壞的土叔 我叫張陵,是天一觀的道長狭归。 經(jīng)常有香客問我夭坪,道長,這世上最難降的妖魔是什么过椎? 我笑而不...
    開封第一講書人閱讀 59,520評論 1 296
  • 正文 為了忘掉前任室梅,我火速辦了婚禮,結(jié)果婚禮上疚宇,老公的妹妹穿的比我還像新娘竞惋。我一直安慰自己,他們只是感情好灰嫉,可當我...
    茶點故事閱讀 68,515評論 6 397
  • 文/花漫 我一把揭開白布拆宛。 她就那樣靜靜地躺著,像睡著了一般讼撒。 火紅的嫁衣襯著肌膚如雪浑厚。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 52,158評論 1 308
  • 那天根盒,我揣著相機與錄音钳幅,去河邊找鬼。 笑死炎滞,一個胖子當著我的面吹牛敢艰,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播册赛,決...
    沈念sama閱讀 40,755評論 3 421
  • 文/蒼蘭香墨 我猛地睜開眼钠导,長吁一口氣:“原來是場噩夢啊……” “哼震嫉!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起牡属,我...
    開封第一講書人閱讀 39,660評論 0 276
  • 序言:老撾萬榮一對情侶失蹤票堵,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后逮栅,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體悴势,經(jīng)...
    沈念sama閱讀 46,203評論 1 319
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 38,287評論 3 340
  • 正文 我和宋清朗相戀三年措伐,在試婚紗的時候發(fā)現(xiàn)自己被綠了特纤。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 40,427評論 1 352
  • 序言:一個原本活蹦亂跳的男人離奇死亡侥加,死狀恐怖捧存,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情官硝,我是刑警寧澤矗蕊,帶...
    沈念sama閱讀 36,122評論 5 349
  • 正文 年R本政府宣布,位于F島的核電站氢架,受9級特大地震影響傻咖,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜岖研,卻給世界環(huán)境...
    茶點故事閱讀 41,801評論 3 333
  • 文/蒙蒙 一卿操、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧孙援,春花似錦害淤、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,272評論 0 23
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至础淤,卻和暖如春崭放,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背鸽凶。 一陣腳步聲響...
    開封第一講書人閱讀 33,393評論 1 272
  • 我被黑心中介騙來泰國打工币砂, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人玻侥。 一個月前我還...
    沈念sama閱讀 48,808評論 3 376
  • 正文 我出身青樓决摧,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子掌桩,可洞房花燭夜當晚...
    茶點故事閱讀 45,440評論 2 359

推薦閱讀更多精彩內(nèi)容

  • [TOC] 什么是正則表達式? 正則表達式是一組由字母和符號組成的特殊文本, 它可以用來從文本中找出滿足你想要的格...
    Selen_Lin閱讀 567評論 0 0
  • 翻譯: English Espa?ol Fran?ais 中文版 日本語 ??? Turkish Greek Po...
    木子哥閱讀 921評論 0 0
  • 什么是正則表達式? 正則表達式是一組由字母和符號組成的特殊文本, 它可以用來從文本中找出滿足你想要的格式的句子. ...
    l_genius閱讀 575評論 0 0
  • 正則表達式是一組由字母和符號組成的特殊文本, 它可以用來從文本中找出滿足你想要的格式的句子. 一個正則表達式是在一...
    小焲閱讀 318評論 0 0
  • 學正則表達式边锁,受用一輩子。 regex全稱為Regular Expressions拘鞋,中文叫正則表達式砚蓬,讀起來比較拗...
    L2先森閱讀 680評論 1 3