python正則表達(dá)式系列(5)——零寬斷言

本文主要總結(jié)了python正則零寬斷言(zero-length-assertion)的一些常用用法冠句。

1. 什么是零寬斷言

有時(shí)候在使用正則表達(dá)式做匹配的時(shí)候,我們希望匹配一個(gè)字符串幸乒,這個(gè)字符串的前面或后面需要是特定的內(nèi)容懦底,但我們又不想要前面或后面的這個(gè)特定的內(nèi)容,這時(shí)候就需要零寬斷言的幫助了罕扎。所謂零寬斷言聚唐,簡(jiǎn)單來(lái)說(shuō)就是匹配一個(gè)位置,這個(gè)位置滿(mǎn)足某個(gè)正則腔召,但是不納入匹配結(jié)果的杆查,所以叫“零寬”,而且這個(gè)位置的前面或后面需要滿(mǎn)足某種正則臀蛛。

比如對(duì)于一個(gè)字符串:finished going done doing亲桦,我們希望匹配出其中的以ing結(jié)尾的單詞崖蜜,就可以使用零寬斷言:

import re
s = 'finished going done doing'
p = re.compile(r'\b\w+(?=ing\b)')

print '【Output】'
print [x + 'ing' for x in re.findall(p,s)]
【Output】
['going', 'doing']

可以看出從中匹配出了goingdoing兩個(gè)單詞,達(dá)到目的客峭。

這里正則中使用的(?=ing\b)就是一種零寬斷言豫领,它匹配這樣一個(gè)位置:這個(gè)位置有一個(gè)ing字符串,后面跟著一個(gè)\b符號(hào)桃笙,并且這個(gè)位置前面的字符串滿(mǎn)足正則:\b\w+氏堤,于是匹配結(jié)果就是:['go','do']

2. 不同的零寬斷言

零寬斷言分為四種:正預(yù)測(cè)先行斷言、正回顧后發(fā)斷言搏明、負(fù)預(yù)測(cè)先行斷言鼠锈、負(fù)回顧后發(fā)斷言,不同的斷言匹配的位置不同星著。

總結(jié)一下购笆,這幾個(gè)仿佛說(shuō)的不是"人話(huà)"的令人費(fèi)解的名詞可以這樣理解:其中的“正”指的是肯定預(yù)測(cè),即某個(gè)位置滿(mǎn)足某個(gè)正則虚循,而與之對(duì)應(yīng)的“負(fù)”則指的是否定預(yù)測(cè)同欠,即某個(gè)位置不要滿(mǎn)足某個(gè)正則;其中的“預(yù)測(cè)先行”則指的是“往后看”横缔,“先往后走”的意思铺遂,即這個(gè)位置是出現(xiàn)在某一個(gè)字符串后面的,而與之相反的“回顧后發(fā)”則指的是相反的意思:“往前看”茎刚,即匹配的這個(gè)位置是出現(xiàn)在某個(gè)字符串的前面的襟锐。

不理解沒(méi)關(guān)系,我們用實(shí)例說(shuō)話(huà)膛锭,下面對(duì)每種零寬斷言進(jìn)行詳細(xì)介紹粮坞。

1. 正預(yù)測(cè)先行斷言:(?=exp)

匹配一個(gè)位置(但結(jié)果不包含此位置)之前的文本內(nèi)容,這個(gè)位置滿(mǎn)足正則exp初狰,舉例:匹配出字符串s中以ing結(jié)尾的單詞的前半部分:

s = "I'm singing while you're dancing."
p = re.compile(r'\b\w+(?=ing\b)')

print '【Output】'
print re.findall(p,s)
【Output】
['sing', 'danc']

2. 正回顧后發(fā)斷言:(?<=exp)

匹配一個(gè)位置(但結(jié)果不包含此位置)之后的文本莫杈,這個(gè)位置滿(mǎn)足正則exp,舉例:匹配出字符串s中以do開(kāi)頭的單詞的后半部分:

s = "doing done do todo"
p = re.compile(r'(?<=\bdo)\w+\b')

print '【Output】'
print re.findall(p,s)
【Output】
['ing', 'ne']

3. 負(fù)預(yù)測(cè)先行斷言:(?!exp)

匹配一個(gè)位置(但結(jié)果不包含此位置)之前的文本奢入,此位置不能滿(mǎn)足正則exp筝闹,舉例:匹配出字符串s中不以ing結(jié)尾的單詞的前半部分:

s = 'done run going'
p = re.compile(r'\b\w+(?!ing\b)')

print '【Output】'
print re.findall(p,s)
【Output】
['done', 'run', 'going']

可見(jiàn),出問(wèn)題了俊马,這不是我們預(yù)期的結(jié)果(預(yù)期的結(jié)果是:done和run)丁存,這是因?yàn)樨?fù)向斷言不支持匹配不定長(zhǎng)的表達(dá)式,將p改一下再匹配:

s = 'done run going'
p = re.compile(r'\b\w{2}(?!ing\b)')

print '【Output】'
print re.findall(p,s)
【Output】
['do', 'ru']

可見(jiàn)一次只能匹配出固定長(zhǎng)度的不以ing結(jié)尾的單詞柴我,沒(méi)有完全達(dá)到預(yù)期。這個(gè)問(wèn)題還有待解決扩然。

4. 負(fù)回顧后發(fā)斷言:(?<!exp)

匹配一個(gè)位置(但結(jié)果不包含此位置)之后的文本艘儒,這個(gè)位置不能滿(mǎn)足正則exp,舉例:匹配字符串s中不以do開(kāi)頭的單詞:

s = 'done run going'
p = re.compile(r'(?<!\bdo)\w+\b')

print '【Output】'
print re.findall(p,s)
【Output】
['done', 'run', 'going']

可見(jiàn)也存在與負(fù)預(yù)測(cè)先行斷言相同的問(wèn)題,改一下:

s = 'done run going'
p = re.compile(r'(?<!\bdo)\w{2}\b')

print '【Output】'
print re.findall(p,s)
【Output】
['un', 'ng']

5. 正向零寬斷言的結(jié)合使用

舉例:字符串ip是一個(gè)ip地址界睁,現(xiàn)在要匹配出其中的四個(gè)整數(shù):

ip = '160.158.0.77'
p = re.compile(r'(?<=\.)?\d+(?=\.)?')

print '【Output】'
print re.findall(p,ip)
【Output】
['160', '158', '0', '77']

6. 負(fù)向零寬斷言的結(jié)合使用

舉例:匹配字符串s中的一些單詞觉增,這些單詞不以x開(kāi)頭且不以y結(jié)尾:

s = 'xaay xbbc accd'
p = re.compile(r'(?<!\bx)\w+(?!y\b)')

print '【Output】'
print re.findall(p,s)
【Output】
['xaay', 'xbbc', 'accd']

可見(jiàn)這里因?yàn)樨?fù)向斷言不支持不定長(zhǎng)表達(dá)式,所以也存在和前面相同的問(wèn)題翻斟。

3. 零寬斷言的應(yīng)用

1. 匹配html標(biāo)簽之間的內(nèi)容

s = '<span>Hello world!</span>'
p = re.compile(r'(?<=<(?:\w+)>(.*)(?=</\1>))')

print '【Output】'
print re.findall(p,s)
# 報(bào)錯(cuò):error: look-behind requires fixed-width pattern

上面的報(bào)錯(cuò)是因?yàn)榱銓挃嘌缘恼齽t中不能含有不定長(zhǎng)的表達(dá)式逾礁,改一下:

s = '<span>Hello world!</span>'
p = re.compile(r'(?<=<(\w{4})>)(.*)(?=</\1>)')

print '【Output】'
print re.findall(p,s)
【Output】
[('span', 'Hello world!')]

2. 匹配存在多種規(guī)則約束(含否定規(guī)則)的字符串

匹配一個(gè)長(zhǎng)度為4個(gè)字符的字符串,該字符串只能由數(shù)字访惜、字母或下劃線(xiàn)3種字符組成嘹履,且必須包含其中的至少兩種字符,且不能以下劃線(xiàn)或數(shù)字開(kāi)頭:

# 測(cè)試數(shù)據(jù)
strs = ['_aaa','1aaa','aaaa','a_12','a1','a_123','1234','____']
p = re.compile(r'^(?!_)(?!\d)(?!\d+$)(?![a-zA-Z]+$)\w{4}$')

print '【Output】'
for s in strs:
    print re.findall(p,s)
【Output】
[]
[]
[]
['a_12']
[]
[]
[]
[]

3. 注意點(diǎn)

零寬斷言雖然也是用小括號(hào)括起來(lái)的债热,但不占用分組的默認(rèn)命名空間砾嫉。舉例如下:

s = 'goingxxx'
# 在緊跟'ing'后面的字符串前加上'AAA'
print re.sub(r'(?<=ing)(\w+)\b',r'AAA\1',s)
# 輸出: goingAAAxxx
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市窒篱,隨后出現(xiàn)的幾起案子焕刮,更是在濱河造成了極大的恐慌,老刑警劉巖墙杯,帶你破解...
    沈念sama閱讀 216,402評(píng)論 6 499
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件配并,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡高镐,警方通過(guò)查閱死者的電腦和手機(jī)溉旋,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,377評(píng)論 3 392
  • 文/潘曉璐 我一進(jìn)店門(mén),熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)避消,“玉大人低滩,你說(shuō)我怎么就攤上這事⊙遗纾” “怎么了恕沫?”我有些...
    開(kāi)封第一講書(shū)人閱讀 162,483評(píng)論 0 353
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)纱意。 經(jīng)常有香客問(wèn)我婶溯,道長(zhǎng),這世上最難降的妖魔是什么偷霉? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 58,165評(píng)論 1 292
  • 正文 為了忘掉前任迄委,我火速辦了婚禮,結(jié)果婚禮上类少,老公的妹妹穿的比我還像新娘叙身。我一直安慰自己,他們只是感情好硫狞,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,176評(píng)論 6 388
  • 文/花漫 我一把揭開(kāi)白布信轿。 她就那樣靜靜地躺著晃痴,像睡著了一般。 火紅的嫁衣襯著肌膚如雪财忽。 梳的紋絲不亂的頭發(fā)上倘核,一...
    開(kāi)封第一講書(shū)人閱讀 51,146評(píng)論 1 297
  • 那天,我揣著相機(jī)與錄音即彪,去河邊找鬼紧唱。 笑死,一個(gè)胖子當(dāng)著我的面吹牛隶校,可吹牛的內(nèi)容都是我干的漏益。 我是一名探鬼主播,決...
    沈念sama閱讀 40,032評(píng)論 3 417
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼惠况,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼遭庶!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起稠屠,我...
    開(kāi)封第一講書(shū)人閱讀 38,896評(píng)論 0 274
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤峦睡,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后权埠,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體榨了,經(jīng)...
    沈念sama閱讀 45,311評(píng)論 1 310
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,536評(píng)論 2 332
  • 正文 我和宋清朗相戀三年攘蔽,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了龙屉。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 39,696評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡满俗,死狀恐怖转捕,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情唆垃,我是刑警寧澤五芝,帶...
    沈念sama閱讀 35,413評(píng)論 5 343
  • 正文 年R本政府宣布,位于F島的核電站辕万,受9級(jí)特大地震影響枢步,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜渐尿,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,008評(píng)論 3 325
  • 文/蒙蒙 一醉途、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧砖茸,春花似錦隘擎、人聲如沸。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 31,659評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)推正。三九已至恍涂,卻和暖如春宝惰,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背再沧。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 32,815評(píng)論 1 269
  • 我被黑心中介騙來(lái)泰國(guó)打工尼夺, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人炒瘸。 一個(gè)月前我還...
    沈念sama閱讀 47,698評(píng)論 2 368
  • 正文 我出身青樓淤堵,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親顷扩。 傳聞我的和親對(duì)象是個(gè)殘疾皇子拐邪,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,592評(píng)論 2 353

推薦閱讀更多精彩內(nèi)容

  • 注:本篇文章只為方便查看,特此保留隘截,如有冒犯扎阶,敬請(qǐng)諒解!I舭拧东臀! 本文目標(biāo) 30分鐘內(nèi)讓你明白正則表達(dá)式是什么,并對(duì)它...
    阿杰Alex閱讀 1,483評(píng)論 0 10
  • 正則表達(dá)式到底是什么東西犀农?字符是計(jì)算機(jī)軟件處理文字時(shí)最基本的單位惰赋,可能是字母,數(shù)字呵哨,標(biāo)點(diǎn)符號(hào)赁濒,空格,換行符孟害,漢字等...
    獅子挽歌閱讀 2,145評(píng)論 0 9
  • 溫馨提示:文章很長(zhǎng)很長(zhǎng)果漾,保持耐心,必要時(shí)可以跳著看谷誓,當(dāng)然用來(lái)查也是不錯(cuò)的绒障。 正則啊,就像一座燈塔捍歪,當(dāng)你在字符串的海...
    Stinson閱讀 4,331評(píng)論 2 82
  • 正則表達(dá)式 \n\n\n 【5】正則表達(dá)式應(yīng)用——?jiǎng)h除空行 啟動(dòng)EditPlus户辱,打開(kāi)待處理的文本類(lèi)型文件鸵钝。 ①、...
    黃花菜已涼閱讀 1,039評(píng)論 0 4
  • 姓名:陳增義 六項(xiàng)精進(jìn)276,感謝1組成員 公司:上海市金山區(qū)錦湖日麗塑料有限公司 【日精進(jìn)打卡第17天庐镐,總365...
    小哥i1114閱讀 119評(píng)論 0 0