http://tool.oschina.net/regex/ 學(xué)習(xí)網(wǎng)站
正則表達(dá)式就是用于操作字符串的規(guī)
正則對字符串的常見的操作:
匹配:matches
切割:split()
替換:replaceAll(String regex, String replacement)
public class Test03 {
public static void main(String[] args) {
testPhone("13247842137");
testTel("021-2456789");
testSplit("愛 情");//中間有兩個(gè)空隔
testSplit2("北京京歡迎迎迎迎你");
}
//測試手機(jī)號:第一位為1 第二位3/5/8 一共長度11位
public static void testPhone(String test){
System.out.println(test.matches("1[358]\\d{9}")?"合法手機(jī)號":"非法手機(jī)號");
}
/*測試固話:區(qū)號-主機(jī)號
*區(qū)號: 首位是0 長度3~4
*主機(jī)號: 首位不能為0 長度7~8*/
public static void testTel(String test){
System.out.println(test.matches("0\\d{2,3}-[1-9]\\d{6,7}")?"合法固話":"非法固話");
}
//去除字符中的空隔
public static void testSplit(String test){
System.out.println(Arrays.toString(test.split(" +")));//有一個(gè)或多個(gè)" "都可以切掉
//System.out.println(Arrays.toString(test.split(" ")));沒有量詞修飾惫撰,只能匹配一個(gè)" "
}
//去掉重復(fù)的文字
public static void testSplit2 (String test){
System.out.println(Arrays.toString(test.split("(.)\\1+")));
/*
先匹配出一個(gè)任意字符,然后接著引用第一個(gè)字符做匹配*/
}
//需求: 把手機(jī)號替換成***
public static void repalcePhone(){
String str = "如果有需要請聯(lián)系:13556084321如果有需要請聯(lián)系:13556084321如果有需要請聯(lián)系:13556084321如果有需要請聯(lián)系:13556084321"
+ "如果有需要請聯(lián)系:13556084321如果有需要請聯(lián)系:13556084321如果有需要請聯(lián)系:13556084321如果有需要請聯(lián)系:13556084321如果有需要請聯(lián)系:13556084321";
String reg = "1[34578]\\d{9}";
str = str.replaceAll(reg, "****");
System.out.println("帖子的內(nèi)容:"+ str);
}
//需求: 把重疊詞替換成單個(gè)字符淌友。
public static void repalce2(){
String str = "我我我我我要要要成成成成成成為為高富富富富富富帥帥帥帥帥帥帥帥帥帥帥帥帥帥帥帥帥帥帥帥";
str = str.replaceAll("(.)\\1+", "$1"); //注意引用正則的內(nèi)容如果不是在一個(gè)正則表達(dá)式內(nèi)部,那么需要使用 : "$組號" 進(jìn)行引用
System.out.println(str);
}
}
正則查找:
如果正則表達(dá)式需要查找內(nèi)容需要使用以下兩個(gè)對象:
- Pattern(正則對象)
- Matcher(匹配器對象)
指定為字符串的正則表達(dá)式必須首先被編譯為此類Pattern的實(shí)例须喂。然后,Pattern對象可以與任意字符序列匹配 怕膛,匹配字符串之后就可以得到一個(gè) Matcher 對象庶溶,所涉及與字符串匹配的狀態(tài)都駐留在匹配器中 .
典型的調(diào)用順序是
Pattern p = Pattern.compile("正則");
Matcher m = p.matcher("aaaaab");
boolean b = m.matches();
匹配器常用的方法:
find() 通知匹配器去查找符合該正則的字符串朴上。如果存在符合規(guī)則的字符串返回true垒棋,否則返回false.
group() 獲取符合規(guī)則的字符串。
*** 注意 ***: 使用匹配器的方法時(shí)候痪宰,要先調(diào)用find方法才能調(diào)用group方法叼架。 否則匹配器沒有去查找合適的內(nèi)容,報(bào)錯(cuò)衣撬。
public class Demo4 {
//找出三個(gè)字符構(gòu)成的單詞乖订。
public static void main(String[] args) {
String data = "hou tian you ke yi fang jia liao ,da jia shuang ma";
String reg = "\\b[a-z]{3}\\b"; //找出a-z的三個(gè)字符,并且是一個(gè)完整的單詞
//第一步:先要把字符串的正則編譯成Pattern對象
Pattern p = Pattern.compile(reg);
//第二步: 使用正則對象去匹配字符串,得到一個(gè)matcher 對象具练。
Matcher m = p.matcher(data);
while(m.find()){
System.out.println(m.group());
}
}
}
練習(xí):
需求:把下面的郵箱提取出來
" 有事沒事聯(lián)系:1122423@qq.cn 有事沒事聯(lián)系:wsxxjqr@gmail.com 有事沒事聯(lián)系:1122423@qq.com 有事沒事聯(lián)系:1122423@163.com 有事沒事聯(lián)系:1122423@qq.com 有事沒事聯(lián)系:1122423@qq.com";
import java.util.ArrayList;
import java.util.List;
import java.util.regex.Matcher;
import java.util.regex.Pattern;
public class Demo04 {
public static void main(String[] args) {
String value = " 有事沒事聯(lián)系:1122423@qq.cn 有事沒事聯(lián)系:wsxxjqr@gmail.com 有事沒事聯(lián)系:1122423@qq.com "
+ "有事沒事聯(lián)系:1122423@163.com 有事沒事聯(lián)系:1122423@qq.com 有事沒事聯(lián)系:1122423@qq.com";
List <String>list = getEmail(value);
for(String str :list){
System.out.println(str);
}
}
public static List<String> getEmail(String value){
Pattern p = Pattern.compile("\\w+@\\w{2,}(\\.(com|net|cn|gmail))+");
/*解讀:
* (com|net):表示com或者net
* \\.(com|net):表示.com或.net
* (\\.(com|net))+:.com或.net最少一次
*/
Matcher m = p.matcher(value);
List<String> list = new ArrayList<String>();
while(m.find()){
list.add(m.group());
}
return list;
}
}
附加:
*** 字符類 ***
[abc] a乍构、b 或 c(簡單類)
[^abc] 任何字符,除了 a扛点、b 或 c(否定) //^在外面表示頭部
[a-zA-Z] a 到 z 或 A 到 Z哥遮,兩頭的字母包括在內(nèi)(范圍)
注意:里面不管有多少內(nèi)容,沒有量詞的修飾也只能匹配一個(gè)字符而已
*** 預(yù)定義字符類 ***
. 任何字符(與行結(jié)束符可能匹配也可能不匹配)
\d 數(shù)字:[0-9]
\D 非數(shù)字: [^0-9]
\s 空白字符:[ \t\n\x0B\f\r]
\S 非空白字符:[^\s]
\w 單詞字符:[a-zA-Z_0-9]
\W 非單詞字符:[^\w]
*** Greedy 數(shù)量詞 ***
X? : X,一次或一次也沒有
X* : X陵究,零次或多次
X+ : X眠饮,一次或多次
X{n} : X,恰好 n 次
X{n,} : X铜邮,至少 n 次
X{n,m} : X仪召,至少 n 次,但是不超過 m 次
*** 分組知識: ***
((A)(B(C)))
有4組:通過"("個(gè)數(shù)來判斷
第一組:((A)(B(C)))
第二組:(A)
第三組:(B(C))
第四組:(C)
\n:引用第n組匹配到的內(nèi)容
*** 其他 ***
\b 單詞邊界匹配器: 單詞邊界匹配器不匹配 任何 的字符松蒜,只是代表了一個(gè)單詞的開始或者結(jié)束部分扔茅。