正則表達式貪婪與非貪婪模式
作為開始,我們看看下面的正則:
var str = 'a "witch" and her "broom" is one';
str.match( /".*"/g);
我們本來預想上面會匹配得到 witch
和 broom
兩個字符串洼裤,運行上面的例子砾跃,卻發(fā)現(xiàn)結果只匹配到 "witch" and her "broom"
一個字符串猿棉。
之所以出現(xiàn)這個結局,是因為正則的貪婪模式在起作用残邀。查找算法首先我們假設自己是正則引擎皆辽,來模擬搜索實現(xiàn)的過程。 正則引擎先從字符串的第0位開始搜索芥挣。 1. 第一個查找字符是 "
驱闷,正則引擎在第三個位置匹配到了它:
之后,引擎嘗試匹配正則的剩余部分空免,第二個字符是
.
,它代表任意字符空另。隱藏匹配到了 w
:.
代表任意字符重復一次到多次,因此正則引擎匹配到所有字符
當文本結束后蹋砚,點的匹配停止了扼菠,但仍然有剩余的的正則需要匹配,即:"
因此坝咐,正則引擎開始倒過來回溯循榆,換句話說,就是一個字符一個字符縮減匹配墨坚。
"
沒有匹配上字符 e
。
因此正則繼續(xù)縮減 .
所重復的字符盗尸,再繼續(xù)嘗試柑船。
引號
"
沒用匹配上 n
,又失敗了~~泼各, 繼續(xù)…正則引擎繼續(xù)回溯椎组,一次一次縮減 .
重復的字符個數(shù),直到剩余的正則都匹配上:現(xiàn)在 "
終于匹配上了历恐。 如果正則是global的寸癌,正則引擎會從上次匹配結果之后繼續(xù)查找更多結果。
再看一個例子:
var str = 'a "witch" and her "broom" is one';
str.match( /".*" a/g); //輸出結果為:[""witch" a"]
在這個例子中弱贼,因為 *
的存在蒸苇,使得正則表達式具有貪婪屬性,操作模式同上吮旅,先匹配第一個 "
找到了witch前的 "
溪烤,第二步匹配 .
,因為可以代表除了行結束符和換行符號的所有符號庇勃,因此直接跳到文本結尾 e
檬嘀,接下來匹配 "
,找到 m
后面的 "
,接著匹配 "
后的空格,在匹配空格后的 a
责嚷,此時發(fā)現(xiàn)沒有鸳兽,則失敗,重新尋找 "
罕拂;最終匹配到 "witch" a
揍异。
總結:在貪婪(默認)模式下,正則引擎盡可能多的重復匹配字符
非貪婪模式
非貪婪模式和貪婪模式相反爆班,可通過在代表數(shù)量的標示符后放置 ?
來開啟非貪婪模式衷掷,如 ?
、+?
甚至是 ??
柿菩。
var str = 'a "witch" and her "broom" is one';
str.match(/".*?"/g ) // "witch", "broom"
我們來看看非貪婪模式 .?
是怎么運轉的戚嗅。
- 第一步和上面類似,引號
"
被匹配上
第二步一樣枢舶,.
被匹配上
下面是二者的重要區(qū)別懦胞。 正則引擎嘗試用最小可能的重復次數(shù)來進行匹配,因此在 .
匹配了 w
后祟辟,它立即嘗試 "
的匹配
可惜沒有匹配上医瘫,因為
t
!= "
。.
重復更多的字符旧困,再進行嘗試醇份。又沒匹配上稼锅,繼續(xù)~~
下面終于匹配上了
因為正則是global的,所以正則引擎繼續(xù)后面的匹配僚纷,從引號后面的 a
字符開始矩距。后面有匹配到第二個字符串
總結:在非貪婪模式下,正則引擎盡可能少的重復匹配字符
(本文引用若愚老師博客怖竭,僅用于學習使用锥债,特此聲明!)