js正則函數(shù)梳理

前言

正則函數(shù)總是用的迷迷糊糊，有時直接用現(xiàn)成的罗捎，但是不符合我的作風，抽時間做了一次正則的梳理
推薦文章：http://javascript.ruanyifeng.com/stdlib/regexp.html

一虱黄、定義：

正則表達式（regular expression）是一種表達文本模式（即字符串結構）的方法畴博，有點像字符串的模板，常常用來按照“給定模式”匹配文本频丘。比如办成，正則表達式給出一個 Email 地址的模式，然后用它來確定一個字符串是否為 Email 地址椎镣。JavaScript 的正則表達式體系是參照 Perl 5 建立的诈火。

1兽赁、新建正則表達式有兩種方法状答。一種是使用字面量，以斜杠表示開始和結束刀崖。

var regex = /xyz/;

另一種是使用RegExp構造函數(shù)惊科。

var regex = new RegExp('xyz');

2、RegExp構造函數(shù)還可以接受第二個參數(shù)亮钦，表示修飾符（詳細解釋見下文）馆截。

var regex = new RegExp('xyz', 'i');
// 等價于
var regex = /xyz/i;
上面代碼中，正則表達式/xyz/有一個修飾符i蜂莉。

二蜡娶、正則函數(shù)方法

1、test()：正則實例對象的test方法返回一個布爾值映穗，表示當前模式是否能匹配參數(shù)字符串窖张。

/cat/.test('cats and dogs') // true

2、exec()：正則實例對象的exec方法蚁滋，用來返回匹配結果宿接。如果發(fā)現(xiàn)匹配赘淮，就返回一個數(shù)組，成員是匹配成功的子字符串睦霎，否則返回null梢卸。

var s = '_x_x';
var r1 = /x/;
var r2 = /y/;

r1.exec(s) // ["x"]
r2.exec(s) // null

上面代碼中，正則對象r1匹配成功副女，返回一個數(shù)組蛤高，成員是匹配結果；正則對象r2匹配失敗碑幅，返回null襟齿。

3、match()：字符串實例對象的match方法對字符串進行正則匹配枕赵，返回匹配結果猜欺。

var s = '_x_x';
var r1 = /x/;
var r2 = /y/;

s.match(r1) // ["x"]
s.match(r2) // null

從上面代碼可以看到，字符串的match方法與正則對象的exec方法非常類似：匹配成功返回一個數(shù)組拷窜，匹配失敗返回null开皿。

4、search()：字符串對象的search方法篮昧，返回第一個滿足條件的匹配結果在整個字符串中的位置赋荆。如果沒有任何匹配，則返回-1懊昨。

'_x_x'.search(/x/)
// 1

上面代碼中窄潭，第一個匹配結果出現(xiàn)在字符串的1號位置。

5酵颁、replace()：字符串對象的replace方法可以替換匹配的值嫉你。它接受兩個參數(shù)，第一個是正則表達式躏惋，表示搜索模式幽污，第二個是替換的內(nèi)容。

str.replace(search, replacement)

正則表達式如果不加g修飾符簿姨，就替換第一個匹配成功的值距误，否則替換所有匹配成功的值。

'aaa'.replace('a', 'b') // "baa"
'aaa'.replace(/a/, 'b') // "baa"
'aaa'.replace(/a/g, 'b') // "bbb"

上面代碼中扁位，最后一個正則表達式使用了g修飾符准潭，導致所有的b都被替換掉了。

6域仇、split()：字符串對象的split方法按照正則規(guī)則分割字符串刑然，返回一個由分割后的各個部分組成的數(shù)組。

str.split(separator, [limit])

該方法接受兩個參數(shù)殉簸，第一個參數(shù)是正則表達式闰集，表示分隔規(guī)則沽讹，第二個參數(shù)是返回數(shù)組的最大成員數(shù)

三、修飾符

RegExp.prototype.ignoreCase：返回一個布爾值武鲁，表示是否設置了i修飾符爽雄。
RegExp.prototype.global：返回一個布爾值，表示是否設置了g修飾符沐鼠。
RegExp.prototype.multiline：返回一個布爾值挚瘟，表示是否設置了m修飾符

g ：全局匹配（會查找所有匹配，不會在查找到第一個匹配時就停止）
i ：執(zhí)行對大小寫不敏感的匹配
m ：執(zhí)行多行匹配

es6新添（es6正則）

y ：修飾符的作用與g修飾符類似饲梭，也是全局匹配乘盖，后一次匹配都從上一次匹配成功的下一個位置開始。不同之處在于憔涉，g修飾符只要剩余位置中存在匹配就可订框，而y修飾符確保匹配必須從剩余的第一個位置開始

四、字面量字符和元字符

大部分字符在正則表達式中兜叨，就是字面的含義穿扳，比如/a/匹配a，/b/匹配b国旷。如果在正則表達式之中矛物，某個字符只表示它字面的含義（就像前面的a和b），那么它們就叫做“字面量字符”（literal characters）跪但。

/dog/.test('old dog') // true

上面代碼中正則表達式的dog履羞，就是字面量字符，所以/dog/匹配old dog屡久，因為它就表示d忆首、o、g三個字母連在一起涂身。

除了字面量字符以外雄卷，還有一部分字符有特殊含義，不代表字面的意思蛤售。它們叫做“元字符”（metacharacters），主要有以下幾個妒潭。

1悴能、點字符（.)

點字符（.）匹配除回車（\r）、換行(\n) 雳灾、行分隔符（\u2028）和段分隔符（\u2029）以外的所有字符漠酿。

/c.t/

上面代碼中，c.t匹配c和t之間包含任意一個字符的情況谎亩，只要這三個字符在同一行炒嘲，比如cat宇姚、c2t、c-t等等夫凸，但是不匹配coot浑劳。

2、位置字符

位置字符用來提示字符所處的位置夭拌，主要有兩個字符魔熏。

^ 表示字符串的開始位置
$ 表示字符串的結束位置

// test必須出現(xiàn)在開始位置
/^test/.test('test123') // true

// test必須出現(xiàn)在結束位置
/test$/.test('new test') // true

// 從開始位置到結束位置只有test
/^test$/.test('test') // true
/^test$/.test('test test') // false

3、選擇符（|）

豎線符號（|）在正則表達式中表示“或關系”（OR）鸽扁，即cat|dog表示匹配cat或dog蒜绽。

/11|22/.test('911') // true

上面代碼中，正則表達式指定必須匹配11或22桶现。

多個選擇符可以聯(lián)合使用躲雅。

// 匹配fred、barney骡和、betty之中的一個
/fred|barney|betty/

選擇符會包括它前后的多個字符吏夯，比如/ab|cd/指的是匹配ab或者cd，而不是指匹配b或者c即横。如果想修改這個行為噪生，可以使用圓括號。

/a( |\t)b/.test('a\tb') // true

上面代碼指的是东囚，a和b之間有一個空格或者一個制表符跺嗽。

五、轉(zhuǎn)義符

正則表達式中那些有特殊含義的元字符页藻，如果要匹配它們本身桨嫁，就需要在它們前面要加上反斜杠。比如要匹配+份帐，就要寫成+璃吧。

/1+1/.test('1+1')
// false

/1\+1/.test('1+1')
// true

上面代碼中，第一個正則表達式之所以不匹配废境，因為加號是元字符畜挨，不代表自身。第二個正則表達式使用反斜杠對加號轉(zhuǎn)義噩凹，就能匹配成功巴元。

正則表達式中，需要反斜杠轉(zhuǎn)義的驮宴，一共有12個字符：^逮刨、.、[堵泽、$修己、(恢总、)、|睬愤、*片仿、+、?戴涝、{和\\滋戳。需要特別注意的是，如果使用RegExp方法生成正則對象啥刻，轉(zhuǎn)義需要使用兩個斜杠奸鸯，因為字符串內(nèi)部會先轉(zhuǎn)義一次。

(new RegExp('1\+1')).test('1+1')
// false

(new RegExp('1\\+1')).test('1+1')
// true

上面代碼中可帽，RegExp作為構造函數(shù)娄涩，參數(shù)是一個字符串。但是映跟，在字符串內(nèi)部蓄拣，反斜杠也是轉(zhuǎn)義字符，所以它會先被反斜杠轉(zhuǎn)義一次努隙，然后再被正則表達式轉(zhuǎn)義一次球恤，因此需要兩個反斜杠轉(zhuǎn)義。

六荸镊、特殊字符

正則表達式對一些不能打印的特殊字符咽斧，提供了表達方法。

\cX 表示Ctrl-[X]躬存，其中的X是A-Z之中任一個英文字母张惹，用來匹配控制字符。
[\b] 匹配退格鍵(U+0008)岭洲，不要與\b混淆宛逗。
\n 匹配換行鍵。
\r 匹配回車鍵盾剩。
\t 匹配制表符 tab（U+0009）雷激。
\v 匹配垂直制表符（U+000B）。
\f 匹配換頁符（U+000C）彪腔。
\0 匹配null字符（U+0000）侥锦。
\xhh 匹配一個以兩位十六進制數(shù)（\x00-\xFF）表示的字符。
\uhhhh 匹配一個以四位十六進制數(shù)（\u0000-\uFFFF）表示的 Unicode 字符德挣。

七、字符類

字符類（class）表示有一系列字符可供選擇快毛，只要匹配其中一個就可以了格嗅。所有可供選擇的字符都放在方括號內(nèi)番挺，比如[xyz] 表示x、y屯掖、z之中任選一個匹配玄柏。

/[abc]/.test('hello world') // false
/[abc]/.test('apple') // true

上面代碼中，字符串hello world不包含a贴铜、b粪摘、c這三個字母中的任一個，所以返回false绍坝；字符串a(chǎn)pple包含字母a徘意，所以返回true。

有兩個字符在字符類中有特殊含義轩褐。

1椎咧、脫字符（^）

如果方括號內(nèi)的第一個字符是[^{]，則表示除了字符類之中的字符把介，其他字符都可以匹配勤讽。比如，[}xyz]表示除了x拗踢、y脚牍、z之外都可以匹配。

/[^abc]/.test('hello world') // true
/[^abc]/.test('bbc') // false

上面代碼中巢墅，字符串hello world不包含字母a诸狭、b、c中的任一個砂缩，所以返回true作谚；字符串bbc不包含a、b庵芭、c以外的字母妹懒，所以返回false。

如果方括號內(nèi)沒有其他字符双吆，即只有[^]眨唬，就表示匹配一切字符，其中包括換行符好乐。相比之下匾竿，點號作為元字符（.）是不包括換行符的。

var s = 'Please yes\nmake my day!';
s.match(/yes.*day/) // null
s.match(/yes[^]*day/) // [ 'yes\nmake my day']

上面代碼中蔚万，字符串s含有一個換行符岭妖，點號不包括換行符，所以第一個正則表達式匹配失敗昵慌；第二個正則表達式[^]包含一切字符假夺，所以匹配成功。

注意斋攀，脫字符只有在字符類的第一個位置才有特殊含義已卷，否則就是字面含義。

2淳蔼、連字符（-）

某些情況下侧蘸，對于連續(xù)序列的字符，連字符（-）用來提供簡寫形式鹉梨，表示字符的連續(xù)范圍讳癌。比如，[abc]可以寫成[a-c]俯画，[0123456789]可以寫成[0-9]析桥，同理[A-Z]表示26個大寫字母。

/a-z/.test('b') // false
/[a-z]/.test('b') // true

上面代碼中艰垂，當連字號（dash）不出現(xiàn)在方括號之中泡仗，就不具備簡寫的作用，只代表字面的含義猜憎，所以不匹配字符b娩怎。只有當連字號用在方括號之中，才表示連續(xù)的字符序列胰柑。

以下都是合法的字符類簡寫形式截亦。

[0-9.,]
[0-9a-fA-F]
[a-zA-Z0-9-]
[1-31]

上面代碼中最后一個字符類[1-31]，不代表1到31柬讨，只代表1到3崩瓤。

連字符還可以用來指定 Unicode 字符的范圍。

var str = "\u0130\u0131\u0132";
/[\u0128-\uFFFF]/.test(str)
// true

上面代碼中踩官，\u0128-\uFFFF表示匹配碼點在0128到FFFF之間的所有字符却桶。

另外，不要過分使用連字符蔗牡，設定一個很大的范圍颖系，否則很可能選中意料之外的字符。最典型的例子就是[A-z]辩越，表面上它是選中從大寫的A到小寫的z之間52個字母嘁扼，但是由于在 ASCII 編碼之中，大寫字母與小寫字母之間還有其他字符黔攒，結果就會出現(xiàn)意料之外的結果趁啸。

/[A-z]/.test('\\') // true

上面代碼中强缘，由于反斜杠（’\‘）的ASCII碼在大寫字母與小寫字母之間，結果會被選中莲绰。

八欺旧、預定義模式

預定義模式指的是某些常見模式的簡寫方式姑丑。

\d 匹配0-9之間的任一數(shù)字蛤签，相當于[0-9]。
\D 匹配所有0-9以外的字符栅哀，相當于[^0-9]震肮。
\w 匹配任意的字母、數(shù)字和下劃線留拾，相當于[A-Za-z0-9_]戳晌。
\W 除所有字母、數(shù)字和下劃線以外的字符痴柔，相當于[^A-Za-z0-9_]沦偎。
\s 匹配空格（包括換行符、制表符咳蔚、空格符等）豪嚎，相等于[\t\r\n\v\f]。
\S 匹配非空格的字符谈火，相當于[^\t\r\n\v\f]侈询。
\b 匹配詞的邊界。
\B 匹配非詞邊界糯耍，即在詞的內(nèi)部扔字。

九、重復類

模式的精確匹配次數(shù)温技，使用大括號（{}）表示革为。{n}表示恰好重復n次，{n,}表示至少重復n次舵鳞，{n,m}表示重復不少于n次震檩，不多于m次。

/lo{2}k/.test('look') // true
/lo{2,5}k/.test('looook') // true

上面代碼中系任，第一個模式指定o連續(xù)出現(xiàn)2次恳蹲，第二個模式指定o連續(xù)出現(xiàn)2次到5次之間。

十俩滥、量詞符

量詞符用來設定某個模式出現(xiàn)的次數(shù)嘉蕾。

? 問號表示某個模式出現(xiàn)0次或1次，等同于{0, 1}霜旧。

星號表示某個模式出現(xiàn)0次或多次错忱，等同于{0,}儡率。

加號表示某個模式出現(xiàn)1次或多次，等同于{1,}以清。

// t 出現(xiàn)0次或1次
/t?est/.test('test') // true
/t?est/.test('est') // true

// t 出現(xiàn)1次或多次
/t+est/.test('test') // true
/t+est/.test('ttest') // true
/t+est/.test('est') // false

// t 出現(xiàn)0次或多次
/t*est/.test('test') // true
/t*est/.test('ttest') // true
/t*est/.test('tttest') // true
/t*est/.test('est') // true

十一儿普、貪婪模式

上一小節(jié)的三個量詞符，默認情況下都是最大可能匹配掷倔，即匹配直到下一個字符不滿足匹配規(guī)則為止眉孩。這被稱為貪婪模式。

var s = 'aaa';
s.match(/a+/) // ["aaa"]

上面代碼中勒葱，模式是/a+/浪汪，表示匹配1個a或多個a，那么到底會匹配幾個a呢凛虽？因為默認是貪婪模式死遭，會一直匹配到字符a不出現(xiàn)為止，所以匹配結果是3個a凯旋。

如果想將貪婪模式改為非貪婪模式呀潭，可以在量詞符后面加一個問號。

var s = 'aaa';
s.match(/a+?/) // ["a"]

上面代碼中至非，模式結尾添加了一個問號/a+?/钠署，這時就改為非貪婪模式，一旦條件滿足睡蟋，就不再往下匹配踏幻。

除了非貪婪模式的加號，還有非貪婪模式的星號（*）戳杀。

*?：表示某個模式出現(xiàn)0次或多次该面，匹配時采用非貪婪模式。
+?：表示某個模式出現(xiàn)1次或多次信卡，匹配時采用非貪婪模式

十二隔缀、組匹配

1、概述

正則表達式的括號表示分組匹配傍菇，括號中的模式可以用來匹配分組的內(nèi)容猾瘸。

/fred+/.test('fredd') // true
/(fred)+/.test('fredfred') // true

上面代碼中，第一個模式?jīng)]有括號丢习，結果+只表示重復字母d牵触，第二個模式有括號，結果+就表示匹配fred這個詞咐低。

下面是另外一個分組捕獲的例子揽思。

var m = 'abcabc'.match(/(.)b(.)/);
m
// ['abc', 'a', 'c']

上面代碼中，正則表達式/(.)b(.)/一共使用兩個括號见擦，第一個括號捕獲a钉汗，第二個括號捕獲c羹令。

注意，使用組匹配時损痰，不宜同時使用g修飾符福侈，否則match方法不會捕獲分組的內(nèi)容。

var m = 'abcabc'.match(/(.)b(.)/g);
m // ['abc', 'abc']

上面代碼使用帶g修飾符的正則表達式卢未，結果match方法只捕獲了匹配整個表達式的部分肪凛。這時必須使用正則表達式的exec方法，配合循環(huán)尝丐，才能讀到每一輪匹配的組捕獲显拜。

var str = 'abcabc';
var reg = /(.)b(.)/g;
while (true) {
  var result = reg.exec(str);
  if (!result) break;
  console.log(result);
}
// ["abc", "a", "c"]
// ["abc", "a", "c"]

正則表達式內(nèi)部，還可以用\n引用括號匹配的內(nèi)容爹袁，n是從1開始的自然數(shù)，表示對應順序的括號矮固。

/(.)b(.)\1b\2/.test("abcabc")
// true

上面的代碼中失息，\1表示第一個括號匹配的內(nèi)容（即a），\2表示第二個括號匹配的內(nèi)容（即c）档址。

下面是另外一個例子盹兢。

/y(..)(.)\2\1/.test('yabccab') // true

括號還可以嵌套。

/y((..)\2)\1/.test('yabababab') // true

上面代碼中守伸，\1指向外層括號绎秒，\2指向內(nèi)層括號。

2尼摹、非捕獲組

(?:x)稱為非捕獲組（Non-capturing group）见芹，表示不返回該組匹配的內(nèi)容，即匹配的結果中不計入這個括號蠢涝。

非捕獲組的作用請考慮這樣一個場景玄呛，假定需要匹配foo或者foofoo，正則表達式就應該寫成/(foo){1, 2}/和二，但是這樣會占用一個組匹配徘铝。這時，就可以使用非捕獲組惯吕，將正則表達式改為/(?:foo){1, 2}/惕它，它的作用與前一個正則是一樣的，但是不會單獨輸出括號內(nèi)部的內(nèi)容废登。

請看下面的例子淹魄。

var m = 'abc'.match(/(?:.)b(.)/);
m // ["abc", "c"]

上面代碼中的模式，一共使用了兩個括號钳宪。其中第一個括號是非捕獲組揭北，所以最后返回的結果中沒有第一個括號扳炬，只有第二個括號匹配的內(nèi)容。

下面是用來分解網(wǎng)址的正則表達式搔体。

// 正常匹配
var url = /(http|ftp):\/\/([^/\r\n]+)(\/[^\r\n]*)?/;

url.exec('http://google.com/');
// ["http://google.com/", "http", "google.com", "/"]

// 非捕獲組匹配
var url = /(?:http|ftp):\/\/([^/\r\n]+)(\/[^\r\n]*)?/;

url.exec('http://google.com/');
// ["http://google.com/", "google.com", "/"]

上面的代碼中恨樟，前一個正則表達式是正常匹配，第一個括號返回網(wǎng)絡協(xié)議疚俱；后一個正則表達式是非捕獲匹配劝术，返回結果中不包括網(wǎng)絡協(xié)議。

3呆奕、先行斷言

x(?=y)稱為先行斷言（Positive look-ahead）养晋，x只有在y前面才匹配，y不會被計入返回結果梁钾。比如绳泉，要匹配后面跟著百分號的數(shù)字，可以寫成/\d+(?=%)/姆泻。

“先行斷言”中零酪，括號里的部分是不會返回的。

var m = 'abc'.match(/b(?=c)/);
m // ["b"]

上面的代碼使用了先行斷言拇勃，b在c前面所以被匹配四苇，但是括號對應的c不會被返回。

4方咆、先行否定斷言

x(?!y)稱為先行否定斷言（Negative look-ahead）月腋，x只有不在y前面才匹配，y不會被計入返回結果瓣赂。比如榆骚，要匹配后面跟的不是百分號的數(shù)字，就要寫成/\d+(?!%)/钩述。

/\d+(?!\.)/.exec('3.14')
// ["14"]

上面代碼中寨躁，正則表達式指定，只有不在小數(shù)點前面的數(shù)字才會被匹配牙勘，因此返回的結果就是14职恳。

“先行否定斷言”中，括號里的部分是不會返回的方面。

var m = 'abd'.match(/b(?!c)/);
m // ['b']

上面的代碼使用了先行否定斷言放钦，b不在c前面所以被匹配，而且括號對應的d不會被返回恭金。