正則表達(dá)式
正則表達(dá)式是對字符串操作的一種邏輯公式,就是用實(shí)現(xiàn)定義好的一些特定字符莹菱、及這些特定字符的組合移国,組成一個(gè)“規(guī)則字符串”,這個(gè)“規(guī)則字符串”用來表達(dá)對字符串的一種過濾邏輯道伟。
不是Python所獨(dú)有迹缀,需要通過re模塊加載。
正則表達(dá)式測試網(wǎng)站:開源中國
常用匹配字符:
re.match
re.match嘗試從字符串的起始位置匹配一個(gè)模式蜜徽,如果不是起始位置匹配成功的話祝懂,match()就返回none.
re.match(patter,string,flags=0)
實(shí)例
- 常規(guī)匹配
import re
content = 'Hello 123 4537 World This is Regex Demo'
print(len(content))
result = re.match('^Hello\s\d\d\d\s\d{4}\s.*Demo$',content)
print(result)
print(result.group()) # 匹配的結(jié)果
print(result.span()) # 匹配字符的長度
- 泛匹配:
.*
import re
content = 'Hello 123 4537 World_This is Regex Demo'
result = re.match('^Hello.*Demo$',content)
print(result)
- 匹配目標(biāo):小括號,然后用goup(1),group(2)
import re
content = 'Hello 1234537 World_This is Regex Demo'
result = re.match('^Hello\s(\d+)\sWorld.*Demo$',content)
print(result.group(1))
- 貪婪匹配:匹配盡可能多的字符
import re
content = 'Hello 1234537 World_This is Regex Demo'
result = re.match('^He.*(\d+).*Demo$',content)
#這里小括號內(nèi)只會匹配到7
- 非貪婪匹配
import re
content = 'Hello 1234537 World_This is Regex Demo'
result = re.match('He.*?(\d+).*Demo$',content)
# 這里會匹配完整的數(shù)字
- 匹配模式
import re
content = ''''''Hello 1234537 World_This
is Regex Demo''''''
result1 = re.match('He.*?(\d+).*Demo$',content)
result2 = re.match('He.*?(\d+).*Demo$',content,re.S)
- 轉(zhuǎn)義字符 ""
import re
content="This is $5.00"
result1 = re.match("This is $5.00",content)
result2 = re.match("This is \$5\.00)
小結(jié):盡量使用泛匹配拘鞋,使用括號得到匹配目標(biāo)砚蓬,盡量使用非貪婪模式,有換行符就用re.S
,有特殊字符用轉(zhuǎn)義
re.search
re.search
掃描整個(gè)字符串并返回第一個(gè)成功的匹配
import re
content = "Extra strings Hello 1234657 World_This is a Regex Demo Extra strings"
result_re_match = re.match("He.*?(\d+).*Demo$",conent)
resutl_re_search = re.search("He.*?(\d+).*Demo$",content)
小結(jié):為方便匹配盆色,能用search,就不用match
re.findall
搜索字符串灰蛙,以列表形式返回全部匹配的子串。
小括號既可以作為整體隔躲,又可以作為分組摩梧。
re.sub
替換字符串中每一個(gè)匹配的子串后返回替換后的字符串。
import re
content = "Extra strings Hello 1234657 World_This is a Regex Demo Extra strings"
# 替換
content1 = re.sub('\d+','',content)
content2 = re.sub('\d+','Replacement',content)
# 增加內(nèi)容
content3 = re.sub('(\d+),r'\1 8910',content)
可以采用sub先進(jìn)行替換宣旱,然后再用findall仅父。
ps:使用strip()方法去除空格
re.compile
將正則表達(dá)式編譯成正則表達(dá)式對象,以便復(fù)用匹配模式浑吟。
import re
content = '''Hello 1234567 World_This
is a Regex Demo'''
pattern = re.compile("Hello.*Demo',re.S)
result = re.match(pattern,content)
print(result)