前言
正則函數(shù)總是用的迷迷糊糊,有時直接用現(xiàn)成的罗捎,但是不符合我的作風,抽時間做了一次正則的梳理
推薦文章:http://javascript.ruanyifeng.com/stdlib/regexp.html
一虱黄、定義:
正則表達式(regular expression)是一種表達文本模式(即字符串結構)的方法畴博,有點像字符串的模板,常常用來按照“給定模式”匹配文本频丘。比如办成,正則表達式給出一個 Email 地址的模式,然后用它來確定一個字符串是否為 Email 地址椎镣。JavaScript 的正則表達式體系是參照 Perl 5 建立的诈火。
1兽赁、新建正則表達式有兩種方法状答。一種是使用字面量,以斜杠表示開始和結束刀崖。
var regex = /xyz/;
另一種是使用RegExp構造函數(shù)惊科。
var regex = new RegExp('xyz');
2、RegExp構造函數(shù)還可以接受第二個參數(shù)亮钦,表示修飾符(詳細解釋見下文)馆截。
var regex = new RegExp('xyz', 'i');
// 等價于
var regex = /xyz/i;
上面代碼中,正則表達式/xyz/有一個修飾符i蜂莉。
二蜡娶、正則函數(shù)方法
1、test():正則實例對象的test方法返回一個布爾值映穗,表示當前模式是否能匹配參數(shù)字符串窖张。
/cat/.test('cats and dogs') // true
2、exec():正則實例對象的exec方法蚁滋,用來返回匹配結果宿接。如果發(fā)現(xiàn)匹配赘淮,就返回一個數(shù)組,成員是匹配成功的子字符串睦霎,否則返回null梢卸。
var s = '_x_x';
var r1 = /x/;
var r2 = /y/;
r1.exec(s) // ["x"]
r2.exec(s) // null
上面代碼中,正則對象r1匹配成功副女,返回一個數(shù)組蛤高,成員是匹配結果;正則對象r2匹配失敗碑幅,返回null襟齿。
3、match():字符串實例對象的match方法對字符串進行正則匹配枕赵,返回匹配結果猜欺。
var s = '_x_x';
var r1 = /x/;
var r2 = /y/;
s.match(r1) // ["x"]
s.match(r2) // null
從上面代碼可以看到,字符串的match方法與正則對象的exec方法非常類似:匹配成功返回一個數(shù)組拷窜,匹配失敗返回null开皿。
4、search():字符串對象的search方法篮昧,返回第一個滿足條件的匹配結果在整個字符串中的位置赋荆。如果沒有任何匹配,則返回-1懊昨。
'_x_x'.search(/x/)
// 1
上面代碼中窄潭,第一個匹配結果出現(xiàn)在字符串的1號位置。
5酵颁、replace():字符串對象的replace方法可以替換匹配的值嫉你。它接受兩個參數(shù),第一個是正則表達式躏惋,表示搜索模式幽污,第二個是替換的內(nèi)容。
str.replace(search, replacement)
正則表達式如果不加g修飾符簿姨,就替換第一個匹配成功的值距误,否則替換所有匹配成功的值。
'aaa'.replace('a', 'b') // "baa"
'aaa'.replace(/a/, 'b') // "baa"
'aaa'.replace(/a/g, 'b') // "bbb"
上面代碼中扁位,最后一個正則表達式使用了g修飾符准潭,導致所有的b都被替換掉了。
6域仇、split():字符串對象的split方法按照正則規(guī)則分割字符串刑然,返回一個由分割后的各個部分組成的數(shù)組。
str.split(separator, [limit])
該方法接受兩個參數(shù)殉簸,第一個參數(shù)是正則表達式闰集,表示分隔規(guī)則沽讹,第二個參數(shù)是返回數(shù)組的最大成員數(shù)
三、修飾符
RegExp.prototype.ignoreCase:返回一個布爾值武鲁,表示是否設置了i修飾符爽雄。
RegExp.prototype.global:返回一個布爾值,表示是否設置了g修飾符沐鼠。
RegExp.prototype.multiline:返回一個布爾值挚瘟,表示是否設置了m修飾符
g : 全局匹配(會查找所有匹配,不會在查找到第一個匹配時就停止)
i : 執(zhí)行對大小寫不敏感的匹配
m : 執(zhí)行多行匹配
es6新添(es6正則)
y :修飾符的作用與g修飾符類似饲梭,也是全局匹配乘盖,后一次匹配都從上一次匹配成功的下一個位置開始。不同之處在于憔涉,g修飾符只要剩余位置中存在匹配就可订框,而y修飾符確保匹配必須從剩余的第一個位置開始
四、字面量字符和元字符
大部分字符在正則表達式中兜叨,就是字面的含義穿扳,比如/a/匹配a,/b/匹配b国旷。如果在正則表達式之中矛物,某個字符只表示它字面的含義(就像前面的a和b),那么它們就叫做“字面量字符”(literal characters)跪但。
/dog/.test('old dog') // true
上面代碼中正則表達式的dog履羞,就是字面量字符,所以/dog/匹配old dog屡久,因為它就表示d忆首、o、g三個字母連在一起涂身。
除了字面量字符以外雄卷,還有一部分字符有特殊含義,不代表字面的意思蛤售。它們叫做“元字符”(metacharacters),主要有以下幾個妒潭。
1悴能、點字符(.)
點字符(.)匹配除回車(\r)、換行(\n) 雳灾、行分隔符(\u2028)和段分隔符(\u2029)以外的所有字符漠酿。
/c.t/
上面代碼中,c.t匹配c和t之間包含任意一個字符的情況谎亩,只要這三個字符在同一行炒嘲,比如cat宇姚、c2t、c-t等等夫凸,但是不匹配coot浑劳。
2、位置字符
位置字符用來提示字符所處的位置夭拌,主要有兩個字符魔熏。
^ 表示字符串的開始位置
$ 表示字符串的結束位置
// test必須出現(xiàn)在開始位置
/^test/.test('test123') // true
// test必須出現(xiàn)在結束位置
/test$/.test('new test') // true
// 從開始位置到結束位置只有test
/^test$/.test('test') // true
/^test$/.test('test test') // false
3、選擇符(|)
豎線符號(|)在正則表達式中表示“或關系”(OR)鸽扁,即cat|dog表示匹配cat或dog蒜绽。
/11|22/.test('911') // true
上面代碼中,正則表達式指定必須匹配11或22桶现。
多個選擇符可以聯(lián)合使用躲雅。
// 匹配fred、barney骡和、betty之中的一個
/fred|barney|betty/
選擇符會包括它前后的多個字符吏夯,比如/ab|cd/指的是匹配ab或者cd,而不是指匹配b或者c即横。如果想修改這個行為噪生,可以使用圓括號。
/a( |\t)b/.test('a\tb') // true
上面代碼指的是东囚,a和b之間有一個空格或者一個制表符跺嗽。
五、轉(zhuǎn)義符
正則表達式中那些有特殊含義的元字符页藻,如果要匹配它們本身桨嫁,就需要在它們前面要加上反斜杠。比如要匹配+份帐,就要寫成+璃吧。
/1+1/.test('1+1')
// false
/1\+1/.test('1+1')
// true
上面代碼中,第一個正則表達式之所以不匹配废境,因為加號是元字符畜挨,不代表自身。第二個正則表達式使用反斜杠對加號轉(zhuǎn)義噩凹,就能匹配成功巴元。
正則表達式中,需要反斜杠轉(zhuǎn)義的驮宴,一共有12個字符:^逮刨、.、[堵泽、$修己、(恢总、)、|睬愤、*片仿、+、?戴涝、{和\\
滋戳。需要特別注意的是,如果使用RegExp方法生成正則對象啥刻,轉(zhuǎn)義需要使用兩個斜杠奸鸯,因為字符串內(nèi)部會先轉(zhuǎn)義一次。
(new RegExp('1\+1')).test('1+1')
// false
(new RegExp('1\\+1')).test('1+1')
// true
上面代碼中可帽,RegExp作為構造函數(shù)娄涩,參數(shù)是一個字符串。但是映跟,在字符串內(nèi)部蓄拣,反斜杠也是轉(zhuǎn)義字符,所以它會先被反斜杠轉(zhuǎn)義一次努隙,然后再被正則表達式轉(zhuǎn)義一次球恤,因此需要兩個反斜杠轉(zhuǎn)義。
六荸镊、特殊字符
正則表達式對一些不能打印的特殊字符咽斧,提供了表達方法。
\cX 表示Ctrl-[X]躬存,其中的X是A-Z之中任一個英文字母张惹,用來匹配控制字符。
[\b] 匹配退格鍵(U+0008)岭洲,不要與\b混淆宛逗。
\n 匹配換行鍵。
\r 匹配回車鍵盾剩。
\t 匹配制表符 tab(U+0009)雷激。
\v 匹配垂直制表符(U+000B)。
\f 匹配換頁符(U+000C)彪腔。
\0 匹配null字符(U+0000)侥锦。
\xhh 匹配一個以兩位十六進制數(shù)(\x00-\xFF)表示的字符。
\uhhhh 匹配一個以四位十六進制數(shù)(\u0000-\uFFFF)表示的 Unicode 字符德挣。
七、字符類
字符類(class)表示有一系列字符可供選擇快毛,只要匹配其中一個就可以了格嗅。所有可供選擇的字符都放在方括號內(nèi)番挺,比如[xyz] 表示x、y屯掖、z之中任選一個匹配玄柏。
/[abc]/.test('hello world') // false
/[abc]/.test('apple') // true
上面代碼中,字符串hello world不包含a贴铜、b粪摘、c這三個字母中的任一個,所以返回false绍坝;字符串a(chǎn)pple包含字母a徘意,所以返回true。
有兩個字符在字符類中有特殊含義轩褐。
1椎咧、脫字符(^)
如果方括號內(nèi)的第一個字符是[],則表示除了字符類之中的字符把介,其他字符都可以匹配勤讽。比如,[xyz]表示除了x拗踢、y脚牍、z之外都可以匹配。
/[^abc]/.test('hello world') // true
/[^abc]/.test('bbc') // false
上面代碼中巢墅,字符串hello world不包含字母a诸狭、b、c中的任一個砂缩,所以返回true作谚;字符串bbc不包含a、b庵芭、c以外的字母妹懒,所以返回false。
如果方括號內(nèi)沒有其他字符双吆,即只有[^]眨唬,就表示匹配一切字符,其中包括換行符好乐。相比之下匾竿,點號作為元字符(.)是不包括換行符的。
var s = 'Please yes\nmake my day!';
s.match(/yes.*day/) // null
s.match(/yes[^]*day/) // [ 'yes\nmake my day']
上面代碼中蔚万,字符串s含有一個換行符岭妖,點號不包括換行符,所以第一個正則表達式匹配失敗昵慌;第二個正則表達式[^]包含一切字符假夺,所以匹配成功。
注意斋攀,脫字符只有在字符類的第一個位置才有特殊含義已卷,否則就是字面含義。
2淳蔼、連字符(-)
某些情況下侧蘸,對于連續(xù)序列的字符,連字符(-)用來提供簡寫形式鹉梨,表示字符的連續(xù)范圍讳癌。比如,[abc]可以寫成[a-c]俯画,[0123456789]可以寫成[0-9]析桥,同理[A-Z]表示26個大寫字母。
/a-z/.test('b') // false
/[a-z]/.test('b') // true
上面代碼中艰垂,當連字號(dash)不出現(xiàn)在方括號之中泡仗,就不具備簡寫的作用,只代表字面的含義猜憎,所以不匹配字符b娩怎。只有當連字號用在方括號之中,才表示連續(xù)的字符序列胰柑。
以下都是合法的字符類簡寫形式截亦。
[0-9.,]
[0-9a-fA-F]
[a-zA-Z0-9-]
[1-31]
上面代碼中最后一個字符類[1-31],不代表1到31柬讨,只代表1到3崩瓤。
連字符還可以用來指定 Unicode 字符的范圍。
var str = "\u0130\u0131\u0132";
/[\u0128-\uFFFF]/.test(str)
// true
上面代碼中踩官,\u0128-\uFFFF表示匹配碼點在0128到FFFF之間的所有字符却桶。
另外,不要過分使用連字符蔗牡,設定一個很大的范圍颖系,否則很可能選中意料之外的字符。最典型的例子就是[A-z]辩越,表面上它是選中從大寫的A到小寫的z之間52個字母嘁扼,但是由于在 ASCII 編碼之中,大寫字母與小寫字母之間還有其他字符黔攒,結果就會出現(xiàn)意料之外的結果趁啸。
/[A-z]/.test('\\') // true
上面代碼中强缘,由于反斜杠(’\‘)的ASCII碼在大寫字母與小寫字母之間,結果會被選中莲绰。
八欺旧、預定義模式
預定義模式指的是某些常見模式的簡寫方式姑丑。
\d 匹配0-9之間的任一數(shù)字蛤签,相當于[0-9]。
\D 匹配所有0-9以外的字符栅哀,相當于[^0-9]震肮。
\w 匹配任意的字母、數(shù)字和下劃線留拾,相當于[A-Za-z0-9_]戳晌。
\W 除所有字母、數(shù)字和下劃線以外的字符痴柔,相當于[^A-Za-z0-9_]沦偎。
\s 匹配空格(包括換行符、制表符咳蔚、空格符等)豪嚎,相等于[\t\r\n\v\f]。
\S 匹配非空格的字符谈火,相當于[^\t\r\n\v\f]侈询。
\b 匹配詞的邊界。
\B 匹配非詞邊界糯耍,即在詞的內(nèi)部扔字。
九、重復類
模式的精確匹配次數(shù)温技,使用大括號({})表示革为。{n}表示恰好重復n次,{n,}表示至少重復n次舵鳞,{n,m}表示重復不少于n次震檩,不多于m次。
/lo{2}k/.test('look') // true
/lo{2,5}k/.test('looook') // true
上面代碼中系任,第一個模式指定o連續(xù)出現(xiàn)2次恳蹲,第二個模式指定o連續(xù)出現(xiàn)2次到5次之間。
十俩滥、量詞符
量詞符用來設定某個模式出現(xiàn)的次數(shù)嘉蕾。
? 問號表示某個模式出現(xiàn)0次或1次,等同于{0, 1}霜旧。
- 星號表示某個模式出現(xiàn)0次或多次错忱,等同于{0,}儡率。
- 加號表示某個模式出現(xiàn)1次或多次,等同于{1,}以清。
// t 出現(xiàn)0次或1次
/t?est/.test('test') // true
/t?est/.test('est') // true
// t 出現(xiàn)1次或多次
/t+est/.test('test') // true
/t+est/.test('ttest') // true
/t+est/.test('est') // false
// t 出現(xiàn)0次或多次
/t*est/.test('test') // true
/t*est/.test('ttest') // true
/t*est/.test('tttest') // true
/t*est/.test('est') // true
十一儿普、貪婪模式
上一小節(jié)的三個量詞符,默認情況下都是最大可能匹配掷倔,即匹配直到下一個字符不滿足匹配規(guī)則為止眉孩。這被稱為貪婪模式。
var s = 'aaa';
s.match(/a+/) // ["aaa"]
上面代碼中勒葱,模式是/a+/浪汪,表示匹配1個a或多個a,那么到底會匹配幾個a呢凛虽?因為默認是貪婪模式死遭,會一直匹配到字符a不出現(xiàn)為止,所以匹配結果是3個a凯旋。
如果想將貪婪模式改為非貪婪模式呀潭,可以在量詞符后面加一個問號。
var s = 'aaa';
s.match(/a+?/) // ["a"]
上面代碼中至非,模式結尾添加了一個問號/a+?/钠署,這時就改為非貪婪模式,一旦條件滿足睡蟋,就不再往下匹配踏幻。
除了非貪婪模式的加號,還有非貪婪模式的星號(*)戳杀。
*?:表示某個模式出現(xiàn)0次或多次该面,匹配時采用非貪婪模式。
+?:表示某個模式出現(xiàn)1次或多次信卡,匹配時采用非貪婪模式
十二隔缀、組匹配
1、概述
正則表達式的括號表示分組匹配傍菇,括號中的模式可以用來匹配分組的內(nèi)容猾瘸。
/fred+/.test('fredd') // true
/(fred)+/.test('fredfred') // true
上面代碼中,第一個模式?jīng)]有括號丢习,結果+只表示重復字母d牵触,第二個模式有括號,結果+就表示匹配fred這個詞咐低。
下面是另外一個分組捕獲的例子揽思。
var m = 'abcabc'.match(/(.)b(.)/);
m
// ['abc', 'a', 'c']
上面代碼中,正則表達式/(.)b(.)/一共使用兩個括號见擦,第一個括號捕獲a钉汗,第二個括號捕獲c羹令。
注意,使用組匹配時损痰,不宜同時使用g修飾符福侈,否則match方法不會捕獲分組的內(nèi)容。
var m = 'abcabc'.match(/(.)b(.)/g);
m // ['abc', 'abc']
上面代碼使用帶g修飾符的正則表達式卢未,結果match方法只捕獲了匹配整個表達式的部分肪凛。這時必須使用正則表達式的exec方法,配合循環(huán)尝丐,才能讀到每一輪匹配的組捕獲显拜。
var str = 'abcabc';
var reg = /(.)b(.)/g;
while (true) {
var result = reg.exec(str);
if (!result) break;
console.log(result);
}
// ["abc", "a", "c"]
// ["abc", "a", "c"]
正則表達式內(nèi)部,還可以用\n引用括號匹配的內(nèi)容爹袁,n是從1開始的自然數(shù),表示對應順序的括號矮固。
/(.)b(.)\1b\2/.test("abcabc")
// true
上面的代碼中失息,\1表示第一個括號匹配的內(nèi)容(即a),\2表示第二個括號匹配的內(nèi)容(即c)档址。
下面是另外一個例子盹兢。
/y(..)(.)\2\1/.test('yabccab') // true
括號還可以嵌套。
/y((..)\2)\1/.test('yabababab') // true
上面代碼中守伸,\1指向外層括號绎秒,\2指向內(nèi)層括號。
2尼摹、非捕獲組
(?:x)稱為非捕獲組(Non-capturing group)见芹,表示不返回該組匹配的內(nèi)容,即匹配的結果中不計入這個括號蠢涝。
非捕獲組的作用請考慮這樣一個場景玄呛,假定需要匹配foo或者foofoo,正則表達式就應該寫成/(foo){1, 2}/和二,但是這樣會占用一個組匹配徘铝。這時,就可以使用非捕獲組惯吕,將正則表達式改為/(?:foo){1, 2}/惕它,它的作用與前一個正則是一樣的,但是不會單獨輸出括號內(nèi)部的內(nèi)容废登。
請看下面的例子淹魄。
var m = 'abc'.match(/(?:.)b(.)/);
m // ["abc", "c"]
上面代碼中的模式,一共使用了兩個括號钳宪。其中第一個括號是非捕獲組揭北,所以最后返回的結果中沒有第一個括號扳炬,只有第二個括號匹配的內(nèi)容。
下面是用來分解網(wǎng)址的正則表達式搔体。
// 正常匹配
var url = /(http|ftp):\/\/([^/\r\n]+)(\/[^\r\n]*)?/;
url.exec('http://google.com/');
// ["http://google.com/", "http", "google.com", "/"]
// 非捕獲組匹配
var url = /(?:http|ftp):\/\/([^/\r\n]+)(\/[^\r\n]*)?/;
url.exec('http://google.com/');
// ["http://google.com/", "google.com", "/"]
上面的代碼中恨樟,前一個正則表達式是正常匹配,第一個括號返回網(wǎng)絡協(xié)議疚俱;后一個正則表達式是非捕獲匹配劝术,返回結果中不包括網(wǎng)絡協(xié)議。
3呆奕、先行斷言
x(?=y)稱為先行斷言(Positive look-ahead)养晋,x只有在y前面才匹配,y不會被計入返回結果梁钾。比如绳泉,要匹配后面跟著百分號的數(shù)字,可以寫成/\d+(?=%)/姆泻。
“先行斷言”中零酪,括號里的部分是不會返回的。
var m = 'abc'.match(/b(?=c)/);
m // ["b"]
上面的代碼使用了先行斷言拇勃,b在c前面所以被匹配四苇,但是括號對應的c不會被返回。
4方咆、先行否定斷言
x(?!y)稱為先行否定斷言(Negative look-ahead)月腋,x只有不在y前面才匹配,y不會被計入返回結果瓣赂。比如榆骚,要匹配后面跟的不是百分號的數(shù)字,就要寫成/\d+(?!%)/钩述。
/\d+(?!\.)/.exec('3.14')
// ["14"]
上面代碼中寨躁,正則表達式指定,只有不在小數(shù)點前面的數(shù)字才會被匹配牙勘,因此返回的結果就是14职恳。
“先行否定斷言”中,括號里的部分是不會返回的方面。
var m = 'abd'.match(/b(?!c)/);
m // ['b']
上面的代碼使用了先行否定斷言放钦,b不在c前面所以被匹配,而且括號對應的d不會被返回恭金。