https://www.cnblogs.com/greatfish/p/7572131.html
一户秤、 字符與字符類
1.特殊字符: .^$?+*{}|
以上特殊字符要想使用字面值,必須使用\進行轉(zhuǎn)義
2.字符類
- 包含在[]中的一個或者多個字符被稱為字符類,字符類在匹配時如果沒有指定量詞則只會匹配其中的一個。
- 字符類內(nèi)可以指定范圍涝缝,比如[a-zA-Z0-9]表示a到z茵典,A到Z获黔,0到9之間的任何一個字符
- 左方括號后跟隨一個,表示否定一個字符類仰担,比如[0-9]表示可以匹配一個任意非數(shù)字的字符糊识。
- 字符類內(nèi)部,除了\之外,其他特殊字符不再具備特殊意義赂苗,都表示字面值铃将。放在第一個位置表示否定,放在其他位置表示本身哑梳,-放在中間表示范圍劲阎,放在字符類中的第一個字符,則表示-本身鸠真。
- 字符類內(nèi)部可以使用速記法悯仙,比如\d \s \w
3.速記法
- 可以匹配除換行符之外的任何字符,如果有re.DOTALL標志吠卷,則匹配任意字符包括換行
- \d 匹配一個Unicode數(shù)字锡垄,如果帶re.ASCII,則匹配0-9
- \D 匹配Unicode非數(shù)字
- \s 匹配Unicode空白祭隔,如果帶有re.ASCII货岭,則匹配\t\n\r\f\v中的一個
- \S 匹配Unicode非空白
- \w 匹配Unicode單詞字符,如果帶有re.ascii,則匹配[a-zA-Z0-9_]中的一個
- \W 匹配Unicode非單子字符
二疾渴、量詞
- ? 匹配前面的字符0次或1次
- * 匹配前面的字符0次或多次
- + 匹配前面的字符1次或者多次
- {m} 匹配前面表達式m次
- {m,} 匹配前面表達式至少m次
- {,n} 匹配前面的正則表達式最多n次
- {m,n} 匹配前面的正則表達式至少m次千贯,最多n次
注意點:
以上量詞都是貪婪模式,會盡可能多的匹配搞坝,如果要改為非貪婪模式搔谴,通過在量詞后面跟隨一個?來實現(xiàn)
三、組與捕獲
- ()的作用:
1.1 捕獲()中正則表達式的內(nèi)容以備進一步利用處理桩撮,可以通過在左括號后面跟隨?:來關(guān)閉這個括號的捕獲功能
1.2 將正則表達式的一部分內(nèi)容進行組合敦第,以便使用量詞或者| - 反響引用前面()內(nèi)捕獲的內(nèi)容:
2.1 通過組號反向引用
每一個沒有使用?:的小括號都會分配一個組好,從1開始店量,從左到右遞增芜果,可以通過\i引用前面()內(nèi)表達式捕獲的內(nèi)容
2.2 通過組名反向引用前面小括號內(nèi)捕獲的內(nèi)容
可以通過在左括號后面跟隨?P<name>,尖括號中放入組名來為一個組起一個別名,后面通過(?P=name)來引用 前面捕獲的內(nèi)容融师。如(? P<word>\w+)\s+(?P=word)來匹配重復(fù)的單詞右钾。 - 注意點:
反向引用不能放在字符類[]中使用。
四诬滩、斷言與標記
斷言不會匹配任何文本霹粥,只是對斷言所在的文本施加某些約束
1 常用斷言:
1. \b 匹配單詞的邊界,放在字符類[]中則表示backspace
2. \B 匹配非單詞邊界疼鸟,受ASCII標記影響
3. \A 在起始處匹配
4. ^ 在起始處匹配后控,如果有MULTILINE標志,則在每個換行符后匹配
5. \Z 在結(jié)尾處匹配
6. $ 在結(jié)尾處匹配空镜,如果有MULTILINE標志浩淘,則在每個換行符前匹配
7. (?=e) 正前瞻
8. (?!e) 負前瞻
9. (?<=e) 正回顧
10.(?<!e) 負回顧
2 前瞻回顧的解釋
前瞻: exp1(?=exp2) exp1后面的內(nèi)容要匹配exp2
負前瞻: exp1(?!exp2) exp1后面的內(nèi)容不能匹配exp2
后顧: (?<=exp2)exp1 exp1前面的內(nèi)容要匹配exp2
負后顧: (?<!exp2)exp1 exp1前面的內(nèi)容不能匹配exp2
例如:我們要查找hello捌朴,但是hello后面必須是world,正則表達式可以這樣寫:"(hello)\s+(?=world)",用來匹配"hello wangxing"和"hello world"只能匹配到后者的hello
五张抄、條件匹配
(?(id)yes_exp|no_exp):對應(yīng)id的子表達式如果匹配到內(nèi)容砂蔽,則這里匹配yes_exp,否則匹配no_exp
六署惯、正則表達式的標志
- 正則表達式的標志有兩種使用方法
1. 通過給compile方法傳入標志參數(shù)左驾,多個標志使用|分割的方法,如re.compile(r"#[\da-f]{6}\b", re.IGNORECASE|re.MULTILINE)
2. 通過在正則表達式前面添加(?標志)的方法給正則表達式添加標志,如(?ms)#[\da-z]{6}\b - 常用的標志
re.A或者re.ASCII极谊, 使\b \B \s \S \w \W \d \D都假定字符串為假定字符串為ASCII
re.I或者re.IGNORECASE 使正則表達式忽略大小寫
re.M或者re.MULTILINE 多行匹配诡右,使每個^在每個回車后,每個$在每個回車前匹配
re.S或者re.DOTALL 使.能匹配任意字符轻猖,包括回車
re.X或者re.VERBOSE 這樣可以在正則表達式跨越多行帆吻,也可以添加注釋,但是空白需要使用\s或者[ ]來表示咙边,因為默認的空白不再解釋猜煮。如:
re.compile(r"""<img\s +) #標簽的開始
[^>]*? #不是src的屬性
src= #src屬性的開始
(?:
(?P<quote>["']) #左引號
(?P<image_name>[^\1>]+?) #圖片名字
(?P=quote) #右括號
""",re.VERBOSE|re.IGNORECASE)
七. Python正則表達式模塊
正則表達式處理字符串主要有四大功能
- 匹配 查看一個字符串是否符合正則表達式的語法,一般返回true或者false
- 獲取 正則表達式來提取字符串中符合要求的文本
- 替換 查找字符串中符合正則表達式的文本败许,并用相應(yīng)的字符串替換
- 分割 使用正則表達式對字符串進行分割王带。
Python中re模塊使用正則表達式的兩種方法
- 使用re.compile(r, f)方法生成正則表達式對象,然后調(diào)用正則表達式對象的相應(yīng)方法檐束。這種做法的好處是生成正則對象之后可以多次使用辫秧。
- re模塊中對正則表達式對象的每個對象方法都有一個對應(yīng)的模塊方法,唯一不同的是傳入的第一個參數(shù)是正則表達式字符串被丧。此種方法適合于只使用一次的正則表達式。
正則表達式對象的常用方法
- rx.findall(s,start, end):
返回一個列表绪妹,如果正則表達式中沒有分組甥桂,則列表中包含的是所有匹配的內(nèi)容,
如果正則表達式中有分組邮旷,則列表中的每個元素是一個元組黄选,元組中包含子分組中匹配到的內(nèi)容,但是沒有返回整個正則表達式匹配的內(nèi)容
- rx.finditer(s, start, end):
返回一個可迭代對象
對可迭代對象進行迭代婶肩,每一次返回一個匹配對象办陷,可以調(diào)用匹配對象的group()方法查看指定組匹配到的內(nèi)容,0表示整個正則表達式匹配到的內(nèi)容
- rx.search(s, start, end):
返回一個匹配對象,倘若沒匹配到律歼,就返回None
search方法只匹配一次就停止民镜,不會繼續(xù)往后匹配
- rx.match(s, start, end):
如果正則表達式在字符串的起始處匹配,就返回一個匹配對象险毁,否則返回None
- rx.sub(x, s, m):
返回一個字符串制圈。每一個匹配的地方用x進行替換们童,返回替換后的字符串,如果指定m鲸鹦,則最多替換m次慧库。對于x可以使用/i或者/g<id>id可以是組名或者編號來引用捕獲到的內(nèi)容。
模塊方法re.sub(r, x, s, m)中的x可以使用一個函數(shù)馋嗜。此時我們就可以對捕獲到的內(nèi)容推過這個函數(shù)進行處理后再替換匹配到的文本齐板。
- rx.subn(x, s, m):
與re.sub()方法相同,區(qū)別在于返回的是二元組葛菇,其中一項是結(jié)果字符串甘磨,一項是做替換的個數(shù)。
- rx.split(s, m):
分割字符串
返回一個列表
用正則表達式匹配到的內(nèi)容對字符串進行分割
如果正則表達式中存在分組熟呛,則把分組匹配到的內(nèi)容放在 列表中每兩個分割的中間作為列表的一部分宽档,如:
rx = re.compile(r"(\d)[a-z]+(\d)")
s = "ab12dk3klj8jk9jks5"
result = rx.split(s)
返回['ab1', '2', '3', 'klj', '8', '9', 'jks5']
- rx.flags():
正則表達式編譯時設(shè)置的標志
- rx.pattern():
正則表達式編譯時使用的字符串
匹配對象的屬性與方法
1. m.group(g, ...)
返回編號或者組名匹配到的內(nèi)容,默認或者0表示整個表達式匹配到的內(nèi)容庵朝,如果指定多個吗冤,就返回一個元組
2. m.groupdict(default)
返回一個字典。字典的鍵是所有命名的組的組名九府,值為命名組捕獲到的內(nèi)容
如果有default參數(shù)椎瘟,則將其作為那些沒有參與匹配的組的默認值。
3. m.groups(default)
返回一個元組侄旬。包含所有捕獲到內(nèi)容的子分組肺蔚,從1開始,如果指定了default值儡羔,則這個值作為那些沒有捕獲到內(nèi)容的組的值
4. m.lastgroup()
匹配到內(nèi)容的編號最高的捕獲組的名稱宣羊,如果沒有或者沒有使用名稱則返回None(不常用)
5. m.lastindex()
匹配到內(nèi)容的編號最高的捕獲組的編號,如果沒有就返回None汰蜘。
6. m.start(g):
當(dāng)前匹配對象的子分組是從字符串的那個位置開始匹配的,如果當(dāng)前組沒有參與匹配就返回-1
7. m.end(g)
當(dāng)前匹配對象的子分組是從字符串的那個位置匹配結(jié)束的仇冯,如果當(dāng)前組沒有參與匹配就返回-1
8. m.span()
返回一個二元組,內(nèi)容分別是m.start(g)和m.end(g)的返回值
9. m.re()
產(chǎn)生這一匹配對象的正則表達式
10. m.string()
傳遞給match或者search用于匹配的字符串
11. m.pos()
搜索的起始位置族操。即字符串的開頭苛坚,或者start指定的位置(不常用)
12. m.endpos()
搜索的結(jié)束位置。即字符串的末尾位置色难,或者end指定的位置(不常用)