Predefined字符類(lèi)
Java正則表達(dá)式API也接受預(yù)定義的字符類(lèi)澡腾。上面的一些字符類(lèi)可以用更短的形式表示,盡管這會(huì)降低代碼的直觀性疙挺。這個(gè)正則表達(dá)式的Java版本的一個(gè)特殊方面是轉(zhuǎn)義字符。
正如我們將看到的,大多數(shù)字符都以反斜杠開(kāi)頭患膛,這在Java中有特殊的意義。對(duì)于要由模式類(lèi)編譯的這些耻蛇,必須轉(zhuǎn)義前導(dǎo)反斜杠踪蹬,即 .\d 變?yōu)?\d 。
匹配的數(shù)字臣咖,相當(dāng)于 [0-9] :
@Test
public void givenDigits_whenMatches_thenCorrect() {
int matches = runTest("\d", "123");
assertEquals(matches, 3);
}
匹配非數(shù)字延曙,相當(dāng)于 [^0-9] :
@Test
public void givenNonDigits_whenMatches_thenCorrect() {
int mathces = runTest("\D", "a6c");
assertEquals(matches, 2);
}
匹配空白:
@Test
public void givenWhiteSpace_whenMatches_thenCorrect() {
int matches = runTest("\s", "a c");
assertEquals(matches, 1);
}
匹配非空白:
@Test
public void givenNonWhiteSpace_whenMatches_thenCorrect() {
int matches = runTest("\S", "a c");
assertEquals(matches, 2);
}
匹配一個(gè)單詞字符,相當(dāng)于 [a-zA-Z_0-9] :
@Test
public void givenWordCharacter_whenMatches_thenCorrect() {
int matches = runTest("\w", "hi!");
assertEquals(matches, 2);
}
匹配非單詞字符:
@Test
public void givenNonWordCharacter_whenMatches_thenCorrect() {
int matches = runTest("\W", "hi!");
assertEquals(matches, 1);
}
Quantifiers
Java正則表達(dá)式API還允許我們使用Quantifiers亡哄。通過(guò)指定匹配的出現(xiàn)次數(shù)枝缔,我們可以進(jìn)一步調(diào)整匹配的行為。
要匹配零次或一次文本蚊惯,我們使用 愿卸? 量詞:
@Test
public void givenZeroOrOneQuantifier_whenMatches_thenCorrect() {
int matches = runTest("\a?", "hi");
assertEquals(matches, 3);
}
或者,我們可以使用大括號(hào)語(yǔ)法截型,Java regex API也支持這種語(yǔ)法:
@Test
public void givenZeroOrOneQuantifier_whenMatches_thenCorrect2() {
int matches = runTest("\a{0,1}", "hi");
assertEquals(matches, 3);
}
本例介紹了零長(zhǎng)度匹配的概念趴荸。碰巧的是,如果一個(gè)量詞的匹配閾值為零宦焦,它總是匹配文本中的所有內(nèi)容发钝,包括每個(gè)輸入末尾的一個(gè)空字符串。這意味著即使輸入為空波闹,它也將返回一個(gè)零長(zhǎng)度匹配酝豪。
這就解釋了為什么在上面的示例中,盡管字符串長(zhǎng)度為2精堕,但我們?nèi)缘玫?個(gè)匹配項(xiàng)孵淘。第三個(gè)匹配項(xiàng)是長(zhǎng)度為零的空字符串。
為了匹配零次或無(wú)限次的文本歹篓,我們使用 * 量詞瘫证,它與揉阎?:
@Test
public void givenZeroOrManyQuantifier_whenMatches_thenCorrect() {
int matches = runTest("\a*", "hi");
assertEquals(matches, 3);
}
支持的替代方案:
@Test
public void givenZeroOrManyQuantifier_whenMatches_thenCorrect2() {
int matches = runTest("\a{0,}", "hi");
assertEquals(matches, 3);
}
差異量詞為+,匹配閾值為1背捌。如果所需的字符串根本不出現(xiàn)毙籽,則將不存在匹配項(xiàng),甚至不存在長(zhǎng)度為零的字符串:
@Test
public void givenOneOrManyQuantifier_whenMatches_thenCorrect() {
int matches = runTest("\a+", "hi");
assertFalse(matches);
}
支持的替代方案:
@Test
public void givenOneOrManyQuantifier_whenMatches_thenCorrect2() {
int matches = runTest("\a{1,}", "hi");
assertFalse(matches);
}
正如在Perl和其他語(yǔ)言中一樣毡庆,大括號(hào)語(yǔ)法可用于多次匹配給定文本:
@Test
public void givenBraceQuantifier_whenMatches_thenCorrect() {
int matches = runTest("a{3}", "aaaaaa");
assertEquals(matches, 2);
}
在上面的例子中坑赡,我們得到了兩個(gè)匹配項(xiàng),因?yàn)橹挥挟?dāng)a在一行中出現(xiàn)三次時(shí)扭仁,才會(huì)出現(xiàn)匹配項(xiàng)垮衷。但是,在下一次測(cè)試中乖坠,我們不會(huì)得到匹配搀突,因?yàn)槲谋驹谝恍兄兄怀霈F(xiàn)兩次:
@Test
public void givenBraceQuantifier_whenFailsToMatch_thenCorrect() {
int matches = runTest("a{3}", "aa");
assertFalse(matches > 0);
}
當(dāng)我們?cè)诖罄ㄌ?hào)中使用范圍時(shí),匹配將是貪婪的熊泵,從范圍的高端匹配:
@Test
public void givenBraceQuantifierWithRange_whenMatches_thenCorrect() {
int matches = runTest("a{2,3}", "aaaa");
assertEquals(matches, 1);
}
我們已經(jīng)指定了至少兩次但不超過(guò)三次仰迁,所以我們得到一個(gè)匹配,匹配者看到一個(gè) aaa 和一個(gè)無(wú)法匹配的 a 顽分。
然而徐许,API允許我們指定一種懶惰或不情愿的方法,以便匹配器可以從范圍的低端開(kāi)始卒蘸,在這種情況下雌隅,匹配兩個(gè)匹配項(xiàng)aa和aa:
@Test
public void givenBraceQuantifierWithRange_whenMatchesLazily_thenCorrect() {
int matches = runTest("a{2,3}?", "aaaa");
assertEquals(matches, 2);
}
Capturing Groups
API還允許我們通過(guò)Capturing Groups將多個(gè)角色視為一個(gè)單元。
它會(huì)將數(shù)字附加到Capturing Groups缸沃,并允許使用這些數(shù)字進(jìn)行反向引用恰起。
在本節(jié)中,我們將看到一些關(guān)于如何在Java正則表達(dá)式API中使用Capturing Groups的示例趾牧。
讓我們使用一個(gè)僅當(dāng)輸入文本包含兩個(gè)相鄰數(shù)字時(shí)才匹配的Capturing Groups:
@Test
public void givenCapturingGroup_whenMatches_thenCorrect() {
int maches = runTest("(\d\d)", "12");
assertEquals(matches, 1);
}
上面匹配的數(shù)字是1检盼,使用 back 引用告訴匹配者我們想要匹配文本匹配部分的另一個(gè)匹配項(xiàng)。這樣做翘单,而不是:
@Test
public void givenCapturingGroup_whenMatches_thenCorrect2() {
int matches = runTest("(\d\d)", "1212");
assertEquals(matches, 2);
}
如果輸入有兩個(gè)單獨(dú)的匹配項(xiàng)吨枉,我們可以有一個(gè)匹配項(xiàng),但使用反向引用傳播相同的正則表達(dá)式匹配項(xiàng)以跨越輸入的整個(gè)長(zhǎng)度:
@Test
public void givenCapturingGroup_whenMatchesWithBackReference_
thenCorrect() {
int matches = runTest("(\d\d)\1", "1212");
assertEquals(matches, 1);
}
我們必須重復(fù)正則表達(dá)式哄芜,而無(wú)需反向引用貌亭,才能獲得相同的結(jié)果:
@Test
public void givenCapturingGroup_whenMatches_thenCorrect3() {
int matches = runTest("(\d\d)(\d\d)", "1212");
assertEquals(matches, 1);
}
類(lèi)似地,對(duì)于任何其他重復(fù)次數(shù)忠烛,反向引用可以使匹配者將輸入視為單個(gè)匹配:
@Test
public void givenCapturingGroup_whenMatchesWithBackReference_
thenCorrect2() {
int matches = runTest("(\d\d)\1\1\1", "12121212");
assertEquals(matches, 1);
}
但如果你甚至改變了最后一個(gè)數(shù)字属提,匹配就會(huì)失敗:
@Test
public void givenCapturingGroupAndWrongInput_
whenMatchFailsWithBackReference_thenCorrect() {
int matches = runTest("(\d\d)\1", "1213");
assertFalse(matches > 0);
}
重要的是不要忘記轉(zhuǎn)義反斜杠美尸,這在Java語(yǔ)法中至關(guān)重要冤议。