正則基礎(chǔ)知識點
1蛀缝、元字符
我們先來記幾個常用的元字符:
元字符說明
.匹配除換行符以外的任意字符
w匹配字母或數(shù)字或下劃線或漢字
s匹配任意的空白符
d匹配數(shù)字匹配單詞的開始或結(jié)束
^匹配字符串的開始
$匹配字符串的結(jié)束
有了元字符之后脏嚷,我們就可以利用這些元字符來寫一些簡單的正則表達式了蚌父,
比如:
匹配有abc開頭的字符串:abc或者^abc
匹配8位數(shù)字的QQ號碼:^dddddddd$
匹配1開頭11位數(shù)字的手機號碼:^1dddddddddd$
2楣责、重復限定符
語法說明
*重復零次或更多次
+重復一次或更多次
?重復零次或一次
{n}重復n次
{n,}重復n次或更多次
{n,m}重復n到m次
有了這些限定符之后俭识,我們就可以對之前的正則表達式進行改造了霹粥,比如:
匹配8位數(shù)字的QQ號碼:^d{8}$
匹配1開頭11位數(shù)字的手機號碼:^1d{10}$
匹配銀行卡號是14~18位的數(shù)字:^d{14,18}$
匹配以a開頭的灾搏,0個或多個b結(jié)尾的字符串^ab*$
3、分組
正則表達式中用小括號()來做分組殴蓬,也就是括號中的內(nèi)容作為一個整體匿级。
因此當我們要匹配多個ab時,我們可以這樣染厅。
如匹配字符串中包含0到多個ab開頭:^(ab)*
4痘绎、轉(zhuǎn)義
如果要匹配的字符串中本身就包含小括號,那是不是沖突肖粮?應該怎么辦孤页?
針對這種情況,正則提供了轉(zhuǎn)義的方式涩馆,也就是要把這些元字符行施、限定符或者關(guān)鍵字轉(zhuǎn)義成普通的字符,做法很簡答魂那,就是在要轉(zhuǎn)義的字符前面加個斜杠蛾号,也就是即可。
如要匹配以(ab)開頭:^((ab))*
5涯雅、條件或
回到我們剛才的手機號匹配鲜结,我們都知道:國內(nèi)號碼都來自三大網(wǎng),它們都有屬于自己的號段活逆,比如聯(lián)通有130/131/132/155/156/185/186/145/176等號段精刷,假如讓我們匹配一個聯(lián)通的號碼,那按照我們目前所學到的正則蔗候,應該無從下手的怒允,因為這里包含了一些并列的條件,也就是“或”琴庵,那么在正則中是如何表示“或”的呢误算?
正則用符號 | 來表示或,也叫做分支條件迷殿,當滿足正則里的分支條件的任何一種條件時儿礼,都會當成是匹配成功。
那么我們就可以用“或”條件來處理這個問題:^(130|131|132|155|156|185|186|145|176)d{8}$
6庆寺、區(qū)間
看到上面的例子蚊夫,是不是看到有什么規(guī)律?是不是還有一種想要簡化的沖動懦尝?
實際是有的
正則提供一個元字符中括號 [] 來表示區(qū)間條件知纷。
限定0到9 可以寫成[0-9]
限定A-Z 寫成[A-Z]
限定某些數(shù)字 [165]
那上面的正則我們還改成這樣:
^((13[0-2])|(15[56])|(18[5-6])|145|176)d{8}$
正則進階知識點
1壤圃、零寬斷言
無論是零寬還是斷言,聽起來都古古怪怪的琅轧,
那先解釋一下這兩個詞伍绳。
斷言:俗話的斷言就是“我斷定什么什么”,而正則中的斷言乍桂,就是說正則可以指明在指定的內(nèi)容的前面或后面會出現(xiàn)滿足指定規(guī)則的內(nèi)容冲杀,
意思正則也可以像人類那樣斷定什么什么,比如"ss1aa2bb3",正則可以用斷言找出aa2前面有bb3睹酌,也可以找出aa2后面有ss1.
零寬:就是沒有寬度权谁,在正則中,斷言只是匹配位置憋沿,不占字符旺芽,也就是說,匹配結(jié)果里是不會返回斷言本身辐啄。
意思是講明白了采章,那他有什么用呢?
我們來舉個栗子:假設(shè)我們要用爬蟲抓取csdn里的文章閱讀量则披。通過查看源代碼可以看到文章閱讀量這個內(nèi)容是這樣的結(jié)構(gòu)
"<span class="read-count">閱讀數(shù):641</span>"
其中也就‘641’這個是變量共缕,也就是說不同文章不同的值,當我們拿到這個字符串時士复,需要獲得這里邊的‘641’有很多種辦法,但如果正則應該怎么匹配呢翩活?
下面先來講幾種類型的斷言:
正向先行斷言(正前瞻)
語法:(?=pattern)
作用:匹配pattern表達式的前面內(nèi)容阱洪,不返回本身。
這樣子說菠镇,還是一臉懵逼冗荸,好吧,回歸剛才那個栗子利耍,要取到閱讀量蚌本,在正則表達式中就意味著要能匹配到‘’前面的數(shù)字內(nèi)容。
按照上所說的正向先行斷言可以匹配表達式前面的內(nèi)容隘梨,那意思就是:(?=) 就可以匹配到前面的內(nèi)容了程癌。
匹配什么內(nèi)容呢?如果要所有內(nèi)容那就是:
String reg=".+(?=</span>)";
String test = "<span class="read-count">閱讀數(shù):641</span>";
Pattern pattern = Pattern.compile(reg);
Matcher mc= pattern.matcher(test);
while(mc.find()){
System.out.println("匹配結(jié)果:")
System.out.println(mc.group());
}
//匹配結(jié)果:
//<span class="read-count">閱讀數(shù):641
可是老哥我們要的只是前面的數(shù)字呀轴猎,那也簡單咯嵌莉,匹配數(shù)字 d,那可以改成:
String reg="\d+(?=</span>)";
String test = "<span class="read-count">閱讀數(shù):641</span>";
Pattern pattern = Pattern.compile(reg);
Matcher mc= pattern.matcher(test);
while(mc.find()){
System.out.println(mc.group());
}
//匹配結(jié)果:
//641
大功告成!
正向后行斷言(正后顧)
語法:(?<=pattern)
作用:匹配pattern表達式的后面的內(nèi)容捻脖,不返回本身锐峭。
有先行就有后行中鼠,先行是匹配前面的內(nèi)容,那后行就是匹配后面的內(nèi)容啦沿癞。
上面的栗子援雇,我們也可以用后行斷言來處理。
//(?<=<span class="read-count">閱讀數(shù):)d+
String reg="(?<=<span class="read-count">閱讀數(shù):)\d+";
String test = "<span class="read-count">閱讀數(shù):641</span>";
Pattern pattern = Pattern.compile(reg);
Matcher mc= pattern.matcher(test);
while(mc.find()){
System.out.println(mc.group());
}
//匹配結(jié)果:
//641
就這么簡單椎扬。
負向先行斷言(負前瞻)
語法:(?!pattern)
作用:匹配非pattern表達式的前面內(nèi)容惫搏,不返回本身。
有正向也有負向盗舰,負向在這里其實就是非的意思晶府。
舉個栗子:比如有一句 “我愛祖國,我是祖國的花朵”
現(xiàn)在要找到不是'的花朵'前面的祖國
用正則就可以這樣寫:祖國(?!的花朵)钻趋。
負向后行斷言(負后顧)
語法:(?<!pattern)
作用:匹配非pattern表達式的后面內(nèi)容川陆,不返回本身。
2蛮位、捕獲和非捕獲
單純說到捕獲较沪,他的意思是匹配表達式,但捕獲通常和分組聯(lián)系在一起失仁,也就是“捕獲組”尸曼。
捕獲組:匹配子表達式的內(nèi)容,把匹配結(jié)果保存到內(nèi)存中中數(shù)字編號或顯示命名的組里萄焦,以深度優(yōu)先進行編號控轿,之后可以通過序號或名稱來使用這些匹配結(jié)果。
而根據(jù)命名方式的不同拂封,又可以分為兩種組茬射。
數(shù)字編號捕獲組
語法:(exp)
解釋:從表達式左側(cè)開始,每出現(xiàn)一個左括號和它對應的右括號之間的內(nèi)容為一個分組冒签,在分組中在抛,第0組為整個表達式,第一組開始為分組萧恕。
比如固定電話的:020-85653333
他的正則表達式為:(0d{2})-(d{8})
按照左括號的順序刚梭,這個表達式有如下分組:
序號編號分組內(nèi)容00(0d{2})-(d{8})020-8565333311(0d{2})02022(d{8})85653333
我們用Java來驗證一下:
String test = "020-85653333";
String reg="(0\d{2})-(\d{8})";
Pattern pattern = Pattern.compile(reg);
Matcher mc= pattern.matcher(test);
if(mc.find()){
System.out.println("分組的個數(shù)有:"+mc.groupCount());
for(int i=0;i<=mc.groupCount();i++){
System.out.println("第"+i+"個分組為:"+mc.group(i));
}
}
輸出結(jié)果:
分組的個數(shù)有:2
第0個分組為:020-85653333
第1個分組為:020
第2個分組為:85653333
可見,分組個數(shù)是2票唆,但是因為第0個為整個表達式本身朴读,因此也一起輸出了。
命名編號捕獲組
語法:(?exp)
解釋:分組的命名由表達式中的name指定
比如區(qū)號也可以這樣寫:(?d{2})-(?d{8})
按照左括號的順序惰说,這個表達式有如下分組:序號名稱分組內(nèi)容00(0d{2})-(d{8})020-856533331quhao(0d{2})0202haoma(d{8})85653333
用代碼來驗證一下:
String test = "020-85653333";
String reg="(?<quhao>0\d{2})-(?<haoma>\d{8})";
Pattern pattern = Pattern.compile(reg);
Matcher mc= pattern.matcher(test);
if(mc.find()){
System.out.println("分組的個數(shù)有:"+mc.groupCount());
System.out.println(mc.group("quhao"));
System.out.println(mc.group("haoma"));
}
輸出結(jié)果:
分組的個數(shù)有:2
分組名稱為:quhao,匹配內(nèi)容為:020
分組名稱為:haoma,匹配內(nèi)容為:85653333
非捕獲組
語法:(?:exp)
解釋:和捕獲組剛好相反磨德,它用來標識那些不需要捕獲的分組,說的通俗一點,就是你可以根據(jù)需要去保存你的分組典挑。
比如上面的正則表達式酥宴,程序不需要用到第一個分組,那就可以這樣寫:(?:d{2})-(d{8})
序號編號分組內(nèi)容00(0d{2})-(d{8})020-8565333311(d{8})85653333
驗證一下:
String test = "020-85653333";
String reg="(?:0\d{2})-(\d{8})";
Pattern pattern = Pattern.compile(reg);
Matcher mc= pattern.matcher(test);
if(mc.find()){
System.out.println("分組的個數(shù)有:"+mc.groupCount());
for(inti=0;i<=mc.groupCount();i++){
System.out.println("第"+i+"個分組為:"+mc.group(i));
}
}
輸出結(jié)果:
分組的個數(shù)有:1
第0個分組為:020-85653333
第1個分組為:85653333
3您觉、反向引用
上面講到捕獲拙寡,我們知道:捕獲會返回一個捕獲組,這個分組是保存在內(nèi)存中琳水,不僅可以在正則表達式外部通過程序進行引用肆糕,也可以在正則表達式內(nèi)部進行引用,這種引用方式就是反向引用在孝。
根據(jù)捕獲組的命名規(guī)則诚啃,反向引用可分為:
數(shù)字編號組反向引用:k或 umber
命名編號組反向引用:k或者'name'
好了 講完了,懂嗎私沮?不懂J际辍!仔燕!
可能連前面講的捕獲有什么用都還不懂吧造垛?
其實只是看完捕獲不懂不會用是很正常的!
因為捕獲組通常是和反向引用一起使用的晰搀。
上面說到捕獲組是匹配子表達式的內(nèi)容按序號或者命名保存起來以便使用五辽。
注意兩個字眼:“內(nèi)容” 和 “使用”。
這里所說的“內(nèi)容”外恕,是匹配結(jié)果掺炭,而不是子表達式本身狈孔,強調(diào)這個有什么用沪铭?嗯旱易,先記住。
那這里所說的“使用”是怎樣使用呢建丧?
因為它的作用主要是用來查找一些重復的內(nèi)容或者做替換指定字符。
還是舉栗子吧波势。
比如要查找一串字母"aabbbbgbddesddfiid"里成對的字母
如果按照我們之前學到的正則翎朱,什么區(qū)間啊限定啊斷言啊可能是辦不到的,
現(xiàn)在我們先用程序思維理一下思路:
1)匹配到一個字母
2)匹配第下一個字母尺铣,檢查是否和上一個字母是否一樣
3)如果一樣拴曲,則匹配成功,否則失敗
這里的思路2中匹配下一個字母時凛忿,需要用到上一個字母澈灼,那怎么記住上一個字母呢??叁熔?
這下子捕獲就有用處啦委乌,我們可以利用捕獲把上一個匹配成功的內(nèi)容用來作為本次匹配的條件
好了,有思路就要實踐
首先匹配一個字母:w
我們需要做成分組才能捕獲荣回,因此寫成這樣:(w)
那這個表達式就有一個捕獲組:(w)
然后我們要用這個捕獲組作為條件遭贸,那就可以:(w)
這樣就大功告成了
可能有人不明白了,是什么意思呢心软?
還記得捕獲組有兩種命名方式嗎壕吹,一種是是根據(jù)捕獲分組順序命名,一種是自定義命名來作為捕獲組的命名
在默認情況下都是以數(shù)字來命名删铃,而且數(shù)字命名的順序是從1開始的
因此要引用第一個捕獲組耳贬,根據(jù)反向引用的數(shù)字命名規(guī)則 就需要 k<1>或者
當然,通常都是是后者猎唁。
我們來測試一下:
String test = "aabbbbgbddesddfiid";
Pattern pattern = Pattern.compile("(\w)\1");
Matcher mc= pattern.matcher(test);
while(mc.find()){
System.out.println(mc.group());
}
輸出結(jié)果:
aa
bb
bb
dd
dd
ii
嗯咒劲,這就是我們想要的了。
在舉個替換的例子胖秒,假如想要把字符串中abc換成a缎患。
String test = "abcbbabcbcgbddesddfiid";
String reg="(a)(b)c";
System.out.println(test.replaceAll(reg, "$1"));
輸出結(jié)果:
abbabcgbddesddfiid
4、貪婪和非貪婪
貪婪
我們都知道阎肝,貪婪就是不滿足挤渔,盡可能多的要。
在正則中风题,貪婪也是差不多的意思:
貪婪匹配:當正則表達式中包含能接受重復的限定符時判导,通常的行為是(在使整個表達式能得到匹配的前提下)匹配盡可能多的字符,這匹配方式叫做貪婪匹配沛硅。
特性:一次性讀入整個字符串進行匹配眼刃,每當不匹配就舍棄最右邊一個字符,繼續(xù)匹配摇肌,依次匹配和舍棄(這種匹配-舍棄的方式也叫做回溯)擂红,直到匹配成功或者把整個字符串舍棄完為止,因此它是一種最大化的數(shù)據(jù)返回围小,能多不會少昵骤。
前面我們講過重復限定符,其實這些限定符就是貪婪量詞肯适,比如表達式:d{3,6}变秦。
用來匹配3到6位數(shù)字,在這種情況下框舔,它是一種貪婪模式的匹配蹦玫,也就是假如字符串里有6個個數(shù)字可以匹配赎婚,那它就是全部匹配到。
如下面的代碼樱溉。
String reg="\d{3,6}";
String test="61762828 176 2991 871";
System.out.println("文本:"+test);
System.out.println("貪婪模式:"+reg);
Pattern p1 =Pattern.compile(reg);
Matcher m1 = p1.matcher(test);
while(m1.find()){
System.out.println("匹配結(jié)果:"+m1.group(0));
}
輸出結(jié)果:
文本:61762828 176 2991 44 871
貪婪模式:d{3,6}
匹配結(jié)果:617628
匹配結(jié)果:176
匹配結(jié)果:2991
匹配結(jié)果:871
由結(jié)果可見:本來字符串中的“61762828”這一段挣输,其實只需要出現(xiàn)3個(617)就已經(jīng)匹配成功了的,但是他并不滿足饺窿,而是匹配到了最大能匹配的字符歧焦,也就是6個。
一個量詞就如此貪婪了肚医,
那有人會問绢馍,如果多個貪婪量詞湊在一起,那他們是如何支配自己的匹配權(quán)的呢肠套?
是這樣的舰涌,多個貪婪在一起時,如果字符串能滿足他們各自最大程度的匹配時你稚,就互不干擾瓷耙,但如果不能滿足時,會根據(jù)深度優(yōu)先原則刁赖,也就是從左到右的每一個貪婪量詞搁痛,優(yōu)先最大數(shù)量的滿足,剩余再分配下一個量詞匹配宇弛。
String reg="(\d{1,2})(\d{3,4})";
String test="61762828 176 2991 87321";
System.out.println("文本:"+test);
System.out.println("貪婪模式:"+reg);
Pattern p1 =Pattern.compile(reg);
Matcher m1 = p1.matcher(test);
while(m1.find()){
System.out.println("匹配結(jié)果:"+m1.group(0));
}
輸出結(jié)果:
文本:61762828 176 2991 87321
貪婪模式:(d{1,2})(d{3,4})
匹配結(jié)果:617628
匹配結(jié)果:2991
匹配結(jié)果:87321
“617628” 是前面的d{1,2}匹配出了61鸡典,后面的匹配出了7628
"2991" 是前面的d{1,2}匹配出了29 ,后面的匹配出了91
"87321"是前面的d{1,2}匹配出了87枪芒,后面的匹配出了321
懶惰(非貪婪)
懶惰匹配:當正則表達式中包含能接受重復的限定符時彻况,通常的行為是(在使整個表達式能得到匹配的前提下)匹配盡可能少的字符,這匹配方式叫做懶惰匹配舅踪。
特性:從左到右纽甘,從字符串的最左邊開始匹配,每次試圖不讀入字符匹配抽碌,匹配成功悍赢,則完成匹配,否則讀入一個字符再匹配货徙,依此循環(huán)(讀入字符泽裳、匹配)直到匹配成功或者把字符串的字符匹配完為止。
懶惰量詞是在貪婪量詞后面加個“破婆?”
代碼說明*?重復任意次,但盡可能少重復+?重復1次或更多次胸囱,但盡可能少重復??重復0次或1次祷舀,但盡可能少重復{n,m}?重復n到m次,但盡可能少重復{n,}?重復n次以上,但盡可能少重復裳扯。
String reg="(\d{1,2}?)(\d{3,4})";
String test="61762828 176 2991 87321";
System.out.println("文本:"+test);
System.out.println("貪婪模式:"+reg);
Pattern p1 =Pattern.compile(reg);
Matcher m1 = p1.matcher(test);
while(m1.find()){
System.out.println("匹配結(jié)果:"+m1.group(0));
}
輸出結(jié)果:
文本:61762828 176 2991 87321
貪婪模式:(d{1,2}?)(d{3,4})
匹配結(jié)果:61762
匹配結(jié)果:2991
匹配結(jié)果:87321
61762” 是左邊的懶惰匹配出6抛丽,右邊的貪婪匹配出1762
"2991" 是左邊的懶惰匹配出2,右邊的貪婪匹配出991
"87321" 左邊的懶惰匹配出8饰豺,右邊的貪婪匹配出7321
5亿鲜、反義
前面說到元字符的都是要匹配什么什么,當然如果你想反著來冤吨,不想匹配某些字符蒿柳,正則也提供了一些常用的反義元字符。
元字符解釋W匹配任意不是字母漩蟆,數(shù)字垒探,下劃線,漢字的字符S匹配任意不是空白符的字符D匹配任意非數(shù)字的字符B匹配不是單詞開頭或結(jié)束的位置[x]匹配除了x以外的任意字符[aeiou]匹配除了aeiou這幾個字母以外的任意字符