Java 正則表達(dá)式詳解

1. 正則表達(dá)式

1.1 什么是正則表達(dá)式

正則表達(dá)式
: 定義一個(gè)搜索模式的字符串。

正則表達(dá)式可以用于搜索、編輯和操作文本。

正則對(duì)文本的分析或修改過程為：首先正則表達(dá)式應(yīng)用的是文本字符串（text/string），它會(huì)以定義的模式從左到右匹配文本坏逢，每個(gè)源字符只匹配一次。

1.2 示例

正則表達(dá)式

匹配

this is text

精確匹配字符串 "this is text"

this\s+is\s+text

匹配單詞 "this" 后跟一個(gè)或多個(gè)空格字符，后跟詞 "is" 后跟一個(gè)或多個(gè)空格字符是整，后跟詞 "text"

^\d+(.\d+)?

^ 定義模式必須匹配字符串的開始肖揣，d+ 匹配一個(gè)或多個(gè)數(shù)字，? 表明小括號(hào)內(nèi)的語(yǔ)句是可選的浮入，. 匹配 "."龙优，小括號(hào)表示分組。例如匹配："5"舵盈、"1.5" 和 "2.21"

2. 正則表達(dá)式的編寫規(guī)則

2.1 常見匹配符號(hào)

正則表達(dá)式

描述

匹配所有單個(gè)字符，除了換行符（Linux 中換行是 \n球化，Windows 中換行是 \r\n）

^regex

正則必須匹配字符串開頭

regex$

正則必須匹配字符串結(jié)尾

[abc]

復(fù)選集定義秽晚，匹配字母 a 或 b 或 c

[abc][vz]

復(fù)選集定義，匹配字母 a 或 b 或 c筒愚，后面跟著 v 或 z

[^abc]

當(dāng)插入符 ^ 在中括號(hào)中以第一個(gè)字符開始顯示赴蝇，則表示否定模式。此模式匹配所有字符巢掺，除了 a 或 b 或 c

[a-d1-7]

范圍匹配句伶，匹配字母 a 到 d 和數(shù)字從 1 到 7 之間，但不匹配 d1

匹配 X 后直接跟著 Z

X|Z

匹配 X 或 Z

2.2 元字符

元字符是一個(gè)預(yù)定義的字符陆淀。

正則表達(dá)式

描述

匹配一個(gè)數(shù)字考余，是 [0-9] 的簡(jiǎn)寫

匹配一個(gè)非數(shù)字，是 [^0-9] 的簡(jiǎn)寫

匹配一個(gè)空格轧苫，是 [ \t\n\x0b\r\f] 的簡(jiǎn)寫

匹配一個(gè)非空格

匹配一個(gè)單詞字符（大小寫字母楚堤、數(shù)字、下劃線）含懊，是 [a-zA-Z_0-9] 的簡(jiǎn)寫

匹配一個(gè)非單詞字符（除了大小寫字母身冬、數(shù)字、下劃線之外的字符）岔乔，等同于 [^\w]

2.3 限定符

限定符定義了一個(gè)元素可以發(fā)生的頻率酥筝。

正則表達(dá)式

描述

舉例

匹配 >=0 個(gè)，是 {0,} 的簡(jiǎn)寫

X* 表示匹配零個(gè)或多個(gè)字母 X雏门，.* 表示匹配任何字符串

匹配 >=1 個(gè)嘿歌，是 {1,} 的簡(jiǎn)寫

X+ 表示匹配一個(gè)或多個(gè)字母 X

匹配 1 個(gè)或 0 個(gè)，是 {0,1} 的簡(jiǎn)寫

X? 表示匹配 0 個(gè)或 1 個(gè)字母 X

{X}

只匹配 X 個(gè)字符

\d{3} 表示匹配 3 個(gè)數(shù)字茁影，.{10} 表示匹配任何長(zhǎng)度是 10 的字符串

{X,Y}

匹配 >=X 且 <=Y 個(gè)

\d{1,4} 表示匹配至少 1 個(gè)最多 4 個(gè)數(shù)字

如果 ? 是限定符 * 或 + 或 ? 或 {} 后面的第一個(gè)字符搅幅，那么表示非貪婪模式（盡可能少的匹配字符），而不是默認(rèn)的貪婪模式

2.4 分組和反向引用

小括號(hào) () 可以達(dá)到對(duì)正則表達(dá)式進(jìn)行分組的效果呼胚。

模式分組后會(huì)在正則表達(dá)式中創(chuàng)建反向引用茄唐。反向引用會(huì)保存匹配模式分組的字符串片斷，這使得我們可以獲取并使用這個(gè)字符串片斷。

在以正則表達(dá)式替換字符串的語(yǔ)法中沪编，是通過 $來(lái)引用分組的反向引用呼盆，$ 0 是匹配完整模式的字符串（注意在 JavaScript 中是用 $& 表示）；$ 1 是第一個(gè)分組的反向引用蚁廓；$2 是第二個(gè)分組的反向引用访圃，以此類推。

示例：
···
package com.wuxianjiezh.demo.regex;

public class RegexTest {

public static void main(String[] args) {
    // 去除單詞與 , 和 . 之間的空格
    String Str = "Hello , World .";
    String pattern = "(\\w)(\\s+)([.,])";
    // $0 匹配 `(\w)(\s+)([.,])` 結(jié)果為 `o空格,` 和 `d空格.`
    // $1 匹配 `(\w)` 結(jié)果為 `o` 和 `d`
    // $2 匹配 `(\s+)` 結(jié)果為 `空格` 和 `空格`
    // $3 匹配 `([.,])` 結(jié)果為 `,` 和 `.`
    System.out.println(Str.replaceAll(pattern, "$1$3")); // Hello, World.
}

}
···
上面的例子中相嵌，我們使用了 [.] 來(lái)匹配普通字符 . 而不需要使用 [\.]腿时。因?yàn)檎齽t對(duì)于 [] 中的 .，會(huì)自動(dòng)處理為 [.]饭宾，即普通字符 . 進(jìn)行匹配批糟。

2.4.1 僅分組但無(wú)反向引用

當(dāng)我們?cè)谛±ㄌ?hào) () 內(nèi)的模式開頭加入 ?:，那么表示這個(gè)模式僅分組看铆，但不創(chuàng)建反向引用徽鼎。

示例：

package com.wuxianjiezh.regex;

import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class RegexTest {

    public static void main(String[] args) {
        String str = "img.jpg";
        // 分組且創(chuàng)建反向引用
        Pattern pattern = Pattern.compile("(jpg|png)");
        Matcher matcher = pattern.matcher(str);
        while (matcher.find()) {
            System.out.println(matcher.group());
            System.out.println(matcher.group(1));
        }
    }
}

運(yùn)行結(jié)果：

jpg
jpg

若源碼改為：

package com.wuxianjiezh.regex;

import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class RegexTest {

    public static void main(String[] args) {
        String str = "img.jpg";
        // 分組但不創(chuàng)建反向引用
        Pattern pattern = Pattern.compile("(?:jpg|png)");
        Matcher matcher = pattern.matcher(str);
        while (matcher.find()) {
            System.out.println(matcher.group());
            System.out.println(matcher.group(1));
        }
    }
}

運(yùn)行結(jié)果：

jpg
Exception in thread "main" java.lang.IndexOutOfBoundsException: No group 1
    at java.util.regex.Matcher.group(Matcher.java:538)
    at com.wuxianjiezh.regex.RegexTest.main(RegexTest.java:15)

2.4.2 分組的反向引用副本

Java 中可以在小括號(hào)中使用 ?<name> 將小括號(hào)中匹配的內(nèi)容保存為一個(gè)名字為 name 的副本。

示例：

package com.wuxianjiezh.regex;

import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class RegexTest {

    public static void main(String[] args) {
        String str = "@wxj 你好啊";
        Pattern pattern = Pattern.compile("@(?<first>\\w+\\s)"); // 保存一個(gè)副本
        Matcher matcher = pattern.matcher(str);
        while (matcher.find()) {
            System.out.println(matcher.group());
            System.out.println(matcher.group(1));
            System.out.println(matcher.group("first"));
        }
    }
}

運(yùn)行結(jié)果：

@wxj 
wxj 
wxj

2.5 否定先行斷言（Negative lookahead）

我們可以創(chuàng)建否定先行斷言模式的匹配弹惦，即某個(gè)字符串后面不包含另一個(gè)字符串的匹配模式否淤。

否定先行斷言模式通過 (?!pattern) 定義。比如棠隐，我們匹配后面不是跟著 "b" 的 "a"：

a(?!b)

2.6 指定正則表達(dá)式的模式

可以在正則的開頭指定模式修飾符石抡。

(?i) 使正則忽略大小寫。
(?s) 表示單行模式（"single line mode"）使正則的 . 匹配所有字符助泽，包括換行符汁雷。
(?m) 表示多行模式（"multi-line mode"），使正則的 ^ 和 $ 匹配字符串中每行的開始和結(jié)束报咳。

2.7 Java 中的反斜杠

反斜杠 \ 在 Java 中表示轉(zhuǎn)義字符侠讯，這意味著 \ 在 Java 擁有預(yù)定義的含義。

這里例舉兩個(gè)特別重要的用法：

在匹配 . 或 { 或 [ 或 ( 或 ? 或 $ 或 ^ 或 * 這些特殊字符時(shí)暑刃，需要在前面加上 \厢漩，比如匹配 . 時(shí)，Java 中要寫為 \.岩臣，但對(duì)于正則表達(dá)式來(lái)說(shuō)就是 .溜嗜。
在匹配 \ 時(shí)，Java 中要寫為 \\架谎，但對(duì)于正則表達(dá)式來(lái)說(shuō)就是 \炸宵。
注意：Java 中的正則表達(dá)式字符串有兩層含義，首先 Java 字符串轉(zhuǎn)義出符合正則表達(dá)式語(yǔ)法的字符串谷扣，然后再由轉(zhuǎn)義后的正則表達(dá)式進(jìn)行模式匹配土全。

2.8 易錯(cuò)點(diǎn)示例

[jpg|png] 代表匹配 j 或 p 或 g 或 p 或 n 或 g 中的任意一個(gè)字符捎琐。
(jpg|png) 代表匹配 jpg 或 png。

3. 在字符串中使用正則表達(dá)式

3.1 內(nèi)置的字符串正則處理方法

在 Java 中有四個(gè)內(nèi)置的運(yùn)行正則表達(dá)式的方法裹匙，分別是 matches()瑞凑、split())、replaceFirst()概页、replaceAll()籽御。注意 replace() 方法不支持正則表達(dá)式。

方法

描述

s.matches("regex")

當(dāng)僅且當(dāng)正則匹配整個(gè)字符串時(shí)返回 true

s.split("regex")

按匹配的正則表達(dá)式切片字符串

s.replaceFirst("regex", "replacement")

替換首次匹配的字符串片段

s.replaceAll("regex", "replacement")

替換所有匹配的字符

3.2 示例

示例代碼：

package com.wuxianjiezh.regex;

public class RegexTest {

    public static void main(String[] args) {
        System.out.println("wxj".matches("wxj"));
        System.out.println("----------");

        String[] array = "w x j".split("\\s");
        for (String item : array) {
            System.out.println(item);
        }
        System.out.println("----------");

        System.out.println("w x j".replaceFirst("\\s", "-"));
        System.out.println("----------");

        System.out.println("w x j".replaceAll("\\s", "-"));
    }
}

運(yùn)行結(jié)果：

true
----------
w
x
j
----------
w-x j
----------
w-x-j

4. 模式和匹配

Java 中使用正則表達(dá)式需要用到兩個(gè)類惰匙，分別為 java.util.regex.Pattern 和 java.util.regex.Matcher技掏。

第一步，通過正則表達(dá)式創(chuàng)建模式對(duì)象 Pattern项鬼。

第二步哑梳，通過模式對(duì)象 Pattern，根據(jù)指定字符串創(chuàng)建匹配對(duì)象 Matcher秃臣。

第三步涧衙，通過匹配對(duì)象 Matcher哪工，根據(jù)正則表達(dá)式操作字符串奥此。

來(lái)個(gè)例子，加深理解：

package com.wuxianjiezh.regex;

import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class RegexTest {

    public static void main(String[] args) {
        String text = "Hello Regex!";

        Pattern pattern = Pattern.compile("\\w+");
        // Java 中忽略大小寫雁比，有兩種寫法：
        // Pattern pattern = Pattern.compile("\\w+", Pattern.CASE_INSENSITIVE);
        // Pattern pattern = Pattern.compile("(?i)\\w+"); // 推薦寫法
        Matcher matcher = pattern.matcher(text);
        // 遍例所有匹配的序列
        while (matcher.find()) {
            System.out.print("Start index: " + matcher.start());
            System.out.print(" End index: " + matcher.end() + " ");
            System.out.println(matcher.group());
        }
        // 創(chuàng)建第兩個(gè)模式稚虎，將空格替換為 tab
        Pattern replace = Pattern.compile("\\s+");
        Matcher matcher2 = replace.matcher(text);
        System.out.println(matcher2.replaceAll("\t"));
    }
}

運(yùn)行結(jié)果：

Start index: 0 End index: 5 Hello
Start index: 6 End index: 11 Regex
Hello    Regex!

5. 若干個(gè)常用例子

5.1 中文的匹配

[\u4e00-\u9fa5]+ 代表匹配中文字。

package com.wuxianjiezh.regex;

import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class RegexTest {

    public static void main(String[] args) {
        String str = "閑人到人間";
        Pattern pattern = Pattern.compile("[\\u4e00-\\u9fa5]+");
        Matcher matcher = pattern.matcher(str);
        while (matcher.find()) {
            System.out.println(matcher.group());
        }
    }
}

運(yùn)行結(jié)果：

閑人到人間

5.2 數(shù)字范圍的匹配

比如偎捎，匹配 1990 到 2017蠢终。

注意：這里有個(gè)新手易范的錯(cuò)誤，就是正則 [1990-2017]茴她，實(shí)際這個(gè)正則只匹配 0 或 1 或 2 或 7 或 9 中的任一個(gè)字符寻拂。

正則表達(dá)式匹配數(shù)字范圍時(shí)，首先要確定最大值與最小值丈牢，最后寫中間值祭钉。

正確的匹配方式：

package com.wuxianjiezh.regex;

import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class RegexTest {

    public static void main(String[] args) {
        String str = "1990\n2010\n2017";
        // 這里應(yīng)用了 (?m) 的多行匹配模式，只為方便我們測(cè)試輸出
        // "^1990$|^199[1-9]$|^20[0-1][0-6]$|^2017$" 為判斷 1990-2017 正確的正則表達(dá)式
        Pattern pattern = Pattern.compile("(?m)^1990$|^199[1-9]$|^20[0-1][0-6]$|^2017$");
        Matcher matcher = pattern.matcher(str);
        while (matcher.find()) {
            System.out.println(matcher.group());
        }
    }
}

運(yùn)行結(jié)果：

1990
2010
2017

5.3 img 標(biāo)簽的匹配

比如己沛，獲取圖片文件內(nèi)容慌核，這里我們考慮了一些不規(guī)范的 img 標(biāo)簽寫法：

package com.wuxianjiezh.regex;

import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class RegexTest {

    public static void main(String[] args) {
        String str = "<img  src='aaa.jpg' /><img src=bbb.png/><img src=\"ccc.png\"/>" +
                "<img src='ddd.exe'/><img src='eee.jpn'/>";
        // 這里我們考慮了一些不規(guī)范的 img 標(biāo)簽寫法，比如：空格申尼、引號(hào)
        Pattern pattern = Pattern.compile("<img\\s+src=(?:['\"])?(?<src>\\w+.(jpg|png))(?:['\"])?\\s*/>");
        Matcher matcher = pattern.matcher(str);
        while (matcher.find()) {
            System.out.println(matcher.group("src"));
        }
    }
}

運(yùn)行結(jié)果：

aaa.jpg
bbb.png
ccc.png

5.4 貪婪與非貪婪模式的匹配

比如垮卓，獲取 div 標(biāo)簽中的文本內(nèi)容：

package com.wuxianjiezh.regex;

import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class RegexTest {

    public static void main(String[] args) {
        String str = "<div>文章標(biāo)題</div><div>發(fā)布時(shí)間</div>";
        // 貪婪模式
        Pattern pattern = Pattern.compile("<div>(?<title>.+)</div>");
        Matcher matcher = pattern.matcher(str);
        while (matcher.find()) {
            System.out.println(matcher.group("title"));
        }

        System.out.println("--------------");

        // 非貪婪模式
        pattern = Pattern.compile("<div>(?<title>.+?)</div>");
        matcher = pattern.matcher(str);
        while (matcher.find()) {
            System.out.println(matcher.group("title"));
        }
    }
}

運(yùn)行結(jié)果：

文章標(biāo)題</div><div>發(fā)布時(shí)間
--------------
文章標(biāo)題
發(fā)布時(shí)間

6. 推薦兩個(gè)在線正則工具

JavaScript、Python 等的在線表達(dá)式工具：https://regex101.com/
Java 在線表達(dá)式工具：http://www.regexplanet.com/advanced/java/index.html

7. 參考

Java Regex - Tutorial

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末师幕，一起剝皮案震驚了整個(gè)濱河市粟按，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌，老刑警劉巖钾怔，帶你破解...
沈念sama閱讀 212,718評(píng)論 6贊 492
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件碱呼，死亡現(xiàn)場(chǎng)離奇詭異，居然都是意外死亡宗侦，警方通過查閱死者的電腦和手機(jī)愚臀，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 90,683評(píng)論 3贊 385
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)矾利，“玉大人姑裂，你說(shuō)我怎么就攤上這事∧衅欤” “怎么了舶斧？”我有些...
開封第一講書人閱讀 158,207評(píng)論 0贊 348
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長(zhǎng)察皇。經(jīng)常有香客問我茴厉，道長(zhǎng)，這世上最難降的妖魔是什么什荣？我笑而不...
開封第一講書人閱讀 56,755評(píng)論 1贊 284
?港島之戀（遺憾婚禮）
正文為了忘掉前任矾缓，我火速辦了婚禮，結(jié)果婚禮上稻爬，老公的妹妹穿的比我還像新娘嗜闻。我一直安慰自己，他們只是感情好桅锄，可當(dāng)我...
茶點(diǎn)故事閱讀 65,862評(píng)論 6贊 386
惡毒庶女頂嫁案：這布局不是一般人想出來(lái)的
文/花漫我一把揭開白布琉雳。她就那樣靜靜地躺著，像睡著了一般友瘤。火紅的嫁衣襯著肌膚如雪翠肘。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 50,050評(píng)論 1贊 291
城市分裂傳說(shuō)
那天辫秧，我揣著相機(jī)與錄音束倍，去河邊找鬼。笑死茶没，一個(gè)胖子當(dāng)著我的面吹牛肌幽，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播抓半，決...
沈念sama閱讀 39,136評(píng)論 3贊 410
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼喂急，長(zhǎng)吁一口氣：“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼！你這毒婦竟也來(lái)了笛求？” 一聲冷哼從身側(cè)響起廊移，我...
開封第一講書人閱讀 37,882評(píng)論 0贊 268
萬(wàn)榮殺人案實(shí)錄
序言：老撾萬(wàn)榮一對(duì)情侶失蹤糕簿，失蹤者是張志新（化名）和其女友劉穎，沒想到半個(gè)月后狡孔，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體懂诗，經(jīng)...
沈念sama閱讀 44,330評(píng)論 1贊 303
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 36,651評(píng)論 2贊 327
?白月光啟示錄
正文我和宋清朗相戀三年苗膝，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了殃恒。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點(diǎn)故事閱讀 38,789評(píng)論 1贊 341
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡辱揭，死狀恐怖离唐，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情问窃，我是刑警寧澤亥鬓，帶...
沈念sama閱讀 34,477評(píng)論 4贊 333
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站域庇，受9級(jí)特大地震影響嵌戈，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜听皿，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 40,135評(píng)論 3贊 317
男人毒藥：我在死后第九天來(lái)索命
文/蒙蒙一熟呛、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧写穴，春花似錦惰拱、人聲如沸雌贱。這莊子的主人今日做“春日...
開封第一講書人閱讀 30,864評(píng)論 0贊 21
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)欣孤。三九已至馋没，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間降传，已是汗流浹背篷朵。一陣腳步聲響...
開封第一講書人閱讀 32,099評(píng)論 1贊 267
情欲美人皮
我被黑心中介騙來(lái)泰國(guó)打工，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留婆排，地道東北人声旺。一個(gè)月前我還...
沈念sama閱讀 46,598評(píng)論 2贊 362
代替公主和親
正文我出身青樓，卻偏偏與公主長(zhǎng)得像段只，于是被迫代替她去往敵國(guó)和親腮猖。傳聞我的和親對(duì)象是個(gè)殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 43,697評(píng)論 2贊 351

Java 正則表達(dá)式詳解

1. 正則表達(dá)式

1.1 什么是正則表達(dá)式

1.2 示例

2. 正則表達(dá)式的編寫規(guī)則

2.1 常見匹配符號(hào)

2.2 元字符

2.3 限定符

2.4 分組和反向引用

2.4.1 僅分組但無(wú)反向引用

2.4.2 分組的反向引用副本

2.5 否定先行斷言（Negative lookahead）

2.6 指定正則表達(dá)式的模式

2.7 Java 中的反斜杠

2.8 易錯(cuò)點(diǎn)示例

3. 在字符串中使用正則表達(dá)式

3.1 內(nèi)置的字符串正則處理方法

3.2 示例

4. 模式和匹配

5. 若干個(gè)常用例子

5.1 中文的匹配

5.2 數(shù)字范圍的匹配

5.3 img 標(biāo)簽的匹配

5.4 貪婪與非貪婪模式的匹配

6. 推薦兩個(gè)在線正則工具

7. 參考

推薦閱讀更多精彩內(nèi)容