說明
摘抄為主,忘記是在什么地方看見的原文了巷折。原作者別打我压鉴,若你見了請聯(lián)系我,增加你的版權(quán)和鏈接描述
整體過程
- Python通過re模塊提供對正則表達(dá)式的支持锻拘。
- 使用re的一般步驟是先將正則表達(dá)式的字符串形式編譯為Pattern實(shí)例
- 然后使用Pattern實(shí)例處理文本并獲得匹配結(jié)果(一個(gè)Match實(shí)例)
- 最后使用Match實(shí)例獲得信息油吭,進(jìn)行其他的操作。
- 引入正則庫
- 確定正則表達(dá)式格式
- 編譯表達(dá)式生成正則對象
- 其它相關(guān)正則對象操作
# encoding: UTF-8
#引入正則庫
import re
# 將正則表達(dá)式編譯成Pattern對象
pattern = re.compile(r'hello')
# 使用Pattern匹配文本署拟,獲得匹配結(jié)果婉宰,無法匹配時(shí)將返回None
jieguo = pattern.match('hello world!')
if jieguo:
# 使用Match獲得分組信息
print jieguo.group()
### 輸出 ###
# hello
編譯表達(dá)式生成正則對象
re.compile(strPattern[, flag])
- 例子:
reobj1=re.compile(bbb,re.I|re.M|re.S)
- 解說:將字符串形式的正則表達(dá)式編譯為Pattern對象。 第二個(gè)參數(shù)flag是匹配模式推穷,取值可以使用按位或運(yùn)算符'|'表示同時(shí)生效心包,比如re.I | re.M。
- flag含義
- re.I(re.IGNORECASE): 忽略大小寫(括號(hào)內(nèi)是完整寫法馒铃,下同)
- M(MULTILINE): 多行模式蟹腾,改變'^'和'$'的行為(參見上圖)
- S(DOTALL): 點(diǎn)任意匹配模式,改變'.'的行為
- L(LOCALE): 使預(yù)定字符類 \w \W \b \B \s \S 取決于當(dāng)前區(qū)域設(shè)定
- U(UNICODE): 使預(yù)定字符類 \w \W \b \B \s \S \d \D 取決于unicode定義的字符屬性
- X(VERBOSE): 詳細(xì)模式区宇。這個(gè)模式下正則表達(dá)式可以是多行娃殖,忽略空白字符,并可以加入注釋议谷。以下兩個(gè)正則表達(dá)式是等價(jià)的:
Pattern對象
Pattern對象是一個(gè)編譯好的正則表達(dá)式炉爆,通過Pattern提供的一系列方法可以對文本進(jìn)行匹配查找。
Pattern不能直接實(shí)例化柿隙,必須使用re.compile()進(jìn)行構(gòu)造叶洞。Pattern屬性:
Pattern提供了幾個(gè)可讀屬性用于獲取表達(dá)式的相關(guān)信息:
- pattern: 編譯時(shí)用的表達(dá)式字符串。
- flags: 編譯時(shí)用的匹配模式禀崖。數(shù)字形式衩辟。
- groups: 表達(dá)式中分組的數(shù)量。
- groupindex: 以表達(dá)式中有別名的組的別名為鍵波附、以該組對應(yīng)的編號(hào)為值的字典艺晴,沒有別名的組不包含在內(nèi)。
import re p = re.compile(r'(\w+) (\w+)(?P<sign>.*)', re.DOTALL) print "p.pattern:", p.pattern print "p.flags:", p.flags print "p.groups:", p.groups print "p.groupindex:", p.groupindex ### output ### # p.pattern: (\w+) (\w+)(?P<sign>.*) # p.flags: 16 # p.groups: 3 # p.groupindex: {'sign': 3}
實(shí)例方法[ | re模塊方法]:
- match(string[, pos[, endpos]]) | re.match(pattern, string[, flags]):
這個(gè)方法將從string的pos下標(biāo)處起嘗試匹配pattern掸屡;如果pattern結(jié)束時(shí)仍可匹配封寞,則返回一個(gè)Match對象;如果匹配過程中pattern無法匹配仅财,或者匹配未結(jié)束就已到達(dá)endpos狈究,則返回None。
pos和endpos的默認(rèn)值分別為0和len(string)盏求;re.match()無法指定這兩個(gè)參數(shù)抖锥,參數(shù)flags用于編譯pattern時(shí)指定匹配模式亿眠。
注意:這個(gè)方法并不是完全匹配。當(dāng)pattern結(jié)束時(shí)若string還有剩余字符磅废,仍然視為成功纳像。想要完全匹配,可以在表達(dá)式末尾加上邊界匹配符'$'拯勉。
具體參見對于match對象的描述
- search(string[, pos[, endpos]]) | re.search(pattern, string[, flags]):
這個(gè)方法用于查找字符串中可以匹配成功的子串竟趾。從string的pos下標(biāo)處起嘗試匹配pattern,如果pattern結(jié)束時(shí)仍可匹配宫峦,則返回一個(gè)Match對象岔帽;若無法匹配,則將pos加1后重新嘗試匹配导绷;直到pos=endpos時(shí)仍無法匹配則返回None山卦。
pos和endpos的默認(rèn)值分別為0和len(string));re.search()無法指定這兩個(gè)參數(shù)诵次,參數(shù)flags用于編譯pattern時(shí)指定匹配模式。#coding=utf-8 import re # 將正則表達(dá)式編譯成Pattern對象 pattern = re.compile(r'(world)') # 使用search()查找匹配的子串枚碗,不存在能匹配的子串時(shí)將返回None # 這個(gè)例子中使用match()無法成功匹配 match = pattern.search('hello world!') if match: # 使用Match獲得分組信息 print match.group(0) #整個(gè)匹配的字符串 print match.group(1) #第一個(gè)匹配的分組逾一,pattern = re.compile(r'(world)')沒括號(hào)沒分組 ### 輸出 ### # world # world
- split(string[, maxsplit]) | re.split(pattern, string[, maxsplit]):
按照能夠匹配的子串將string分割后返回列表。masxsplit用于指定最大分割次數(shù)肮雨,不指定將全部分割遵堵。
import re p = re.compile(r'\d+') print p.split('one1two2three3four4') ### output ### # ['one', 'two', 'three', 'four', '']
- findall(string[, pos[, endpos]]) | re.findall(pattern, string[, flags]):
搜索string,以列表形式返回全部能匹配的子串怨规。
import re p = re.compile(r'\d+') print p.findall('one1two2three3four4') ### output ### # ['1', '2', '3', '4']
- finditer(string[, pos[, endpos]]) | re.finditer(pattern, string[, flags]):
搜索string陌宿,返回一個(gè)順序訪問每一個(gè)匹配結(jié)果(Match對象)的迭代器。
import re p = re.compile(r'\d+') for m in p.finditer('one1two2three3four4'): print m.group(), ### output ### # 1 2 3 4
- sub(repl, string[, count]) | re.sub(pattern, repl, string[, count]):
使用repl替換string中每一個(gè)匹配的子串后返回替換后的字符串波丰。
當(dāng)repl是一個(gè)字符串時(shí)壳坪,可以使用\id或\g<id>、\g<name>引用分組掰烟,但不能使用編號(hào)0爽蝴。
當(dāng)repl是一個(gè)方法時(shí),這個(gè)方法應(yīng)當(dāng)只接受一個(gè)參數(shù)(Match對象)纫骑,并返回一個(gè)字符串用于替換(返回的字符串中不能再引用分組)蝎亚。
count用于指定最多替換次數(shù),不指定時(shí)全部替換先馆。import re p = re.compile(r'(\w+) (\w+)') s = 'i say, hello world!' print p.sub(r'\2 \1', s) def func(m): return m.group(1).title() + ' ' + m.group(2).title() print p.sub(func, s) ### output ### # say i, world hello! # I Say, Hello World!
Match對象
Match對象是一次匹配的結(jié)果发框,包含了很多關(guān)于此次匹配的信息,可以使用Match提供的可讀屬性或方法來獲取這些信息煤墙。
屬性
- string: 匹配時(shí)使用的文本梅惯。
- re: 匹配時(shí)使用的Pattern對象宪拥。
- pos: 文本中正則表達(dá)式開始搜索的索引。值與Pattern.match()和Pattern.seach()方法的同名參數(shù)相同个唧。
- endpos: 文本中正則表達(dá)式結(jié)束搜索的索引江解。值與Pattern.match()和Pattern.seach()方法的同名參數(shù)相同。
- lastindex: 最后一個(gè)被捕獲的分組在文本中的索引徙歼。如果沒有被捕獲的分組犁河,將為None。
- lastgroup: 最后一個(gè)被捕獲的分組的別名魄梯。如果這個(gè)分組沒有別名或者沒有被捕獲的分組桨螺,將為None。
方法
- group([group1, …]):
獲得一個(gè)或多個(gè)分組截獲的字符串酿秸;指定多個(gè)參數(shù)時(shí)將以元組形式返回灭翔。group1可以使用編號(hào)也可以使用別名;編號(hào)0代表整個(gè)匹配的子串辣苏;不填寫參數(shù)時(shí)肝箱,返回group(0);沒有截獲字符串的組返回None稀蟋;截獲了多次的組返回最后一次截獲的子串煌张。- groups([default]):
以元組形式返回全部分組截獲的字符串。相當(dāng)于調(diào)用group(1,2,…last)退客。default表示沒有截獲字符串的組以這個(gè)值替代骏融,默認(rèn)為None。- groupdict([default]):
返回以有別名的組的別名為鍵萌狂、以該組截獲的子串為值的字典档玻,沒有別名的組不包含在內(nèi)。default含義同上茫藏。- start([group]):
返回指定的組截獲的子串在string中的起始索引(子串第一個(gè)字符的索引)误趴。group默認(rèn)值為0。- end([group]):
返回指定的組截獲的子串在string中的結(jié)束索引(子串最后一個(gè)字符的索引+1)刷允。group默認(rèn)值為0冤留。- span([group]):
返回(start(group), end(group))。- expand(template):
將匹配到的分組代入template中然后返回树灶。template中可以使用\id或\g<id>纤怒、\g<name>引用分組,但不能使用編號(hào)0天通。\id與\g<id>是等價(jià)的泊窘;但\10將被認(rèn)為是第10個(gè)分組,如果你想表達(dá)\1之后是字符'0',只能使用\g<1>0烘豹。
import re m = re.match(r'(\w+) (\w+)(?P<sign>.*)', 'hello world!') print "m.string:", m.string print "m.re:", m.re print "m.pos:", m.pos print "m.endpos:", m.endpos print "m.lastindex:", m.lastindex print "m.lastgroup:", m.lastgroup print "m.group(1,2):", m.group(1, 2) print "m.groups():", m.groups() print "m.groupdict():", m.groupdict() print "m.start(2):", m.start(2) print "m.end(2):", m.end(2) print "m.span(2):", m.span(2) print r"m.expand(r'\2 \1\3'):", m.expand(r'\2 \1\3') ### output ### # m.string: hello world! # m.re: <_sre.SRE_Pattern object at 0x016E1A38> # m.pos: 0 # m.endpos: 12 # m.lastindex: 3 # m.lastgroup: sign # m.group(1,2): ('hello', 'world') # m.groups(): ('hello', 'world', '!') # m.groupdict(): {'sign': '!'} # m.start(2): 6 # m.end(2): 11 # m.span(2): (6, 11) # m.expand(r'\2 \1\3'): world hello!