正則表達(dá)式

使用正則表達(dá)式

來(lái)源Github項(xiàng)目：jackfrued/Python-100-Days
僅供學(xué)習(xí)參考

正則表達(dá)式相關(guān)知識(shí)

在編寫處理字符串的程序或網(wǎng)頁(yè)時(shí)关炼，經(jīng)常會(huì)有查找符合某些復(fù)雜規(guī)則的字符串的需要程腹，正則表達(dá)式就是用于描述這些規(guī)則的工具。

換句話說(shuō)正則表達(dá)式是一種工具盗扒，它定義了字符串的匹配模式（如何檢查一個(gè)字符串是否有跟某種模式匹配的部分或者從一個(gè)字符串中將與模式匹配的部分提取出來(lái)或者替換掉）跪楞。

如果你在Windows操作系統(tǒng)中使用過(guò)文件查找并且在指定文件名時(shí)使用過(guò)通配符（*和?），那么正則表達(dá)式也是與之類似的用來(lái)進(jìn)行文本匹配的工具侣灶，只不過(guò)比起通配符正則表達(dá)式更強(qiáng)大甸祭，它能更精確地描述你的需求（當(dāng)然你付出的代價(jià)是書寫一個(gè)正則表達(dá)式比打出一個(gè)通配符要復(fù)雜得多，要知道任何給你帶來(lái)好處的東西都是有代價(jià)的褥影，就如同學(xué)習(xí)一門編程語(yǔ)言一樣）池户。

比如你可以編寫一個(gè)正則表達(dá)式，用來(lái)查找所有以0開頭凡怎，后面跟著2-3個(gè)數(shù)字校焦，然后是一個(gè)連字號(hào)“-”，最后是7或8位數(shù)字的字符串（像028-12345678或0813-7654321）统倒，這不就是國(guó)內(nèi)的座機(jī)號(hào)碼嗎寨典。

最初計(jì)算機(jī)是為了做數(shù)學(xué)運(yùn)算而誕生的，處理的信息基本上都是數(shù)值房匆，而今天我們?cè)谌粘９ぷ髦刑幚淼男畔⒒旧隙际俏谋緮?shù)據(jù)耸成，我們希望計(jì)算機(jī)能夠識(shí)別和處理符合某些模式的文本报亩，正則表達(dá)式就顯得非常重要了。

今天幾乎所有的編程語(yǔ)言都提供了對(duì)正則表達(dá)式操作的支持井氢，Python通過(guò)標(biāo)準(zhǔn)庫(kù)中的re模塊來(lái)支持正則表達(dá)式操作弦追。

我們可以考慮下面一個(gè)問(wèn)題：我們從某個(gè)地方（可能是一個(gè)文本文件，也可能是網(wǎng)絡(luò)上的一則新聞）獲得了一個(gè)字符串花竞，希望在字符串中找出手機(jī)號(hào)和座機(jī)號(hào)劲件。

當(dāng)然我們可以設(shè)定手機(jī)號(hào)是11位的數(shù)字（注意并不是隨機(jī)的11位數(shù)字，因?yàn)槟銢](méi)有見過(guò)“25012345678”這樣的手機(jī)號(hào)吧）而座機(jī)號(hào)跟上一段中描述的模式相同约急，如果不使用正則表達(dá)式要完成這個(gè)任務(wù)就會(huì)很麻煩零远。

關(guān)于正則表達(dá)式的相關(guān)知識(shí)，大家可以閱讀一篇非常有名的博客叫《正則表達(dá)式30分鐘入門教程》烤宙，讀完這篇文章后你就可以看懂下面的表格遍烦，這是我們對(duì)正則表達(dá)式中的一些基本符號(hào)進(jìn)行的扼要總結(jié)俭嘁。

符號(hào)	解釋	示例	說(shuō)明
.	匹配任意字符	b.t	可以匹配bat / but / b#t / b1t等
\w	匹配字母/數(shù)字/下劃線	b\wt	可以匹配bat / b1t / b_t等但不能匹配b#t
\s	匹配空白字符（包括\r躺枕、\n、\t等）	love\syou	可以匹配love you
\d	匹配數(shù)字	\d\d	可以匹配01 / 23 / 99等
\b	匹配單詞的邊界	\bThe\b
^	匹配字符串的開始	^The	可以匹配The開頭的字符串
$	匹配字符串的結(jié)束	.exe$	可以匹配.exe結(jié)尾的字符串
\W	匹配非字母/數(shù)字/下劃線	b\Wt	可以匹配b#t / b@t等但不能匹配but / b1t / b_t等
\S	匹配非空白字符	love\Syou	可以匹配love#you等但不能匹配love you
\D	匹配非數(shù)字	\d\D	可以匹配9a / 3# / 0F等
\B	匹配非單詞邊界	\Bio\B
[]	匹配來(lái)自字符集的任意單一字符	[aeiou]	可以匹配任一元音字母字符
[^]	匹配不在字符集中的任意單一字符	[^aeiou]	可以匹配任一非元音字母字符
*	匹配0次或多次	\w*
+	匹配1次或多次	\w+
?	匹配0次或1次	\w?
{N}	匹配N次	\w{3}
{M,}	匹配至少M(fèi)次	\w{3,}
{M,N}	匹配至少M(fèi)次至多N次	\w{3,6}
\|	分支	foo\|bar	可以匹配foo或者bar
(?#)	注釋
(exp)	匹配exp并捕獲到自動(dòng)命名的組中
(??<name>exp)	匹配exp并捕獲到名為name的組中
(?:exp)	匹配exp但是不捕獲匹配的文本
(?=exp)	匹配exp前面的位置	\b\w+(?=ing)	可以匹配I'm dancing中的danc
(?<=exp)	匹配exp后面的位置	(?<=\bdanc)\w+\b	可以匹配I love dancing and reading中的第一個(gè)ing
(?!exp)	匹配后面不是exp的位置
(?<!exp)	匹配前面不是exp的位置
*?	重復(fù)任意次供填，但盡可能少重復(fù)	a.b a.?b	將正則表達(dá)式應(yīng)用于aabab拐云，前者會(huì)匹配整個(gè)字符串a(chǎn)abab，后者會(huì)匹配aab和ab兩個(gè)字符串
+?	重復(fù)1次或多次近她，但盡可能少重復(fù)
??	重復(fù)0次或1次叉瘩，但盡可能少重復(fù)
{M,N}?	重復(fù)M到N次，但盡可能少重復(fù)
{M,}?	重復(fù)M次以上粘捎，但盡可能少重復(fù)

說(shuō)明： 如果需要匹配的字符是正則表達(dá)式中的特殊字符薇缅，那么可以使用\進(jìn)行轉(zhuǎn)義處理，例如想匹配小數(shù)點(diǎn)可以寫成\.就可以了攒磨，因?yàn)橹苯訉?會(huì)匹配任意字符泳桦；同理，想匹配圓括號(hào)必須寫成$和$娩缰，否則圓括號(hào)被視為正則表達(dá)式中的分組灸撰。

Python對(duì)正則表達(dá)式的支持

Python提供了re模塊來(lái)支持正則表達(dá)式相關(guān)操作，下面是re模塊中的核心函數(shù)拼坎。

函數(shù)	說(shuō)明
compile(pattern, flags=0)	編譯正則表達(dá)式返回正則表達(dá)式對(duì)象
match(pattern, string, flags=0)	用正則表達(dá)式匹配字符串成功返回匹配對(duì)象否則返回None
search(pattern, string, flags=0)	搜索字符串中第一次出現(xiàn)正則表達(dá)式的模式成功返回匹配對(duì)象否則返回None
split(pattern, string, maxsplit=0, flags=0)	用正則表達(dá)式指定的模式分隔符拆分字符串返回列表
sub(pattern, repl, string, count=0, flags=0)	用指定的字符串替換原字符串中與正則表達(dá)式匹配的模式可以用count指定替換的次數(shù)
fullmatch(pattern, string, flags=0)	match函數(shù)的完全匹配（從字符串開頭到結(jié)尾）版本
findall(pattern, string, flags=0)	查找字符串所有與正則表達(dá)式匹配的模式返回字符串的列表
finditer(pattern, string, flags=0)	查找字符串所有與正則表達(dá)式匹配的模式返回一個(gè)迭代器
purge()	清除隱式編譯的正則表達(dá)式的緩存
re.I / re.IGNORECASE	忽略大小寫匹配標(biāo)記
re.M / re.MULTILINE	多行匹配標(biāo)記

說(shuō)明： 上面提到的re模塊中的這些函數(shù)浮毯，實(shí)際開發(fā)中也可以用正則表達(dá)式對(duì)象的方法替代對(duì)這些函數(shù)的使用，如果一個(gè)正則表達(dá)式需要重復(fù)的使用泰鸡，那么先通過(guò)compile函數(shù)編譯正則表達(dá)式并創(chuàng)建出正則表達(dá)式對(duì)象無(wú)疑是更為明智的選擇债蓝。

下面我們通過(guò)一系列的例子來(lái)告訴大家在Python中如何使用正則表達(dá)式。

例子1：驗(yàn)證輸入用戶名和QQ號(hào)是否有效并給出對(duì)應(yīng)的提示信息盛龄。

"""
驗(yàn)證輸入用戶名和QQ號(hào)是否有效并給出對(duì)應(yīng)的提示信息

要求：用戶名必須由字母饰迹、數(shù)字或下劃線構(gòu)成且長(zhǎng)度在6~20個(gè)字符之間器虾，QQ號(hào)是5~12的數(shù)字且首位不能為0
"""
import re


def main():
    username = input('請(qǐng)輸入用戶名: ')
    qq = input('請(qǐng)輸入QQ號(hào): ')
    # match函數(shù)的第一個(gè)參數(shù)是正則表達(dá)式字符串或正則表達(dá)式對(duì)象
    # 第二個(gè)參數(shù)是要跟正則表達(dá)式做匹配的字符串對(duì)象
    m1 = re.match(r'^[0-9a-zA-Z_]{6,20}$', username)
    if not m1:
        print('請(qǐng)輸入有效的用戶名.')
    m2 = re.match(r'^[1-9]\d{4,11}$', qq)
    if not m2:
        print('請(qǐng)輸入有效的QQ號(hào).')
    if m1 and m2:
        print('你輸入的信息是有效的!')


if __name__ == '__main__':
    main()

提示： 上面在書寫正則表達(dá)式時(shí)使用了“原始字符串”的寫法（在字符串前面加上了r），所謂“原始字符串”就是字符串中的每個(gè)字符都是它原始的意義蹦锋，說(shuō)得更直接一點(diǎn)就是字符串中沒(méi)有所謂的轉(zhuǎn)義字符啦兆沙。因?yàn)檎齽t表達(dá)式中有很多元字符和需要進(jìn)行轉(zhuǎn)義的地方，如果不使用原始字符串就需要將反斜杠寫作\\莉掂，例如表示數(shù)字的\d得書寫成\\d葛圃，這樣不僅寫起來(lái)不方便，閱讀的時(shí)候也會(huì)很吃力憎妙。

例子2：從一段文字中提取出國(guó)內(nèi)手機(jī)號(hào)碼库正。

下面這張圖是截止到2017年底，國(guó)內(nèi)三家運(yùn)營(yíng)商推出的手機(jī)號(hào)段厘唾。

[圖片上傳失敗...(image-9beea-1586276505791)]

import re


def main():
    # 創(chuàng)建正則表達(dá)式對(duì)象 使用了前瞻和回顧來(lái)保證手機(jī)號(hào)前后不應(yīng)該出現(xiàn)數(shù)字
    pattern = re.compile(r'(?<=\D)1[34578]\d{9}(?=\D)')
    sentence = '''
    重要的事情說(shuō)8130123456789遍褥符，我的手機(jī)號(hào)是13512346789這個(gè)靚號(hào)，
    不是15600998765抚垃，也是110或119喷楣，王大錘的手機(jī)號(hào)才是15600998765。
    '''
    # 查找所有匹配并保存到一個(gè)列表中
    mylist = re.findall(pattern, sentence)
    print(mylist)
    print('--------華麗的分隔線--------')
    # 通過(guò)迭代器取出匹配對(duì)象并獲得匹配的內(nèi)容
    for temp in pattern.finditer(sentence):
        print(temp.group())
    print('--------華麗的分隔線--------')
    # 通過(guò)search函數(shù)指定搜索位置找出所有匹配
    m = pattern.search(sentence)
    while m:
        print(m.group())
        m = pattern.search(sentence, m.end())


if __name__ == '__main__':
    main()

說(shuō)明： 上面匹配國(guó)內(nèi)手機(jī)號(hào)的正則表達(dá)式并不夠好鹤树，因?yàn)橄?4開頭的號(hào)碼只有145或147铣焊，而上面的正則表達(dá)式并沒(méi)有考慮這種情況，要匹配國(guó)內(nèi)手機(jī)號(hào)罕伯，更好的正則表達(dá)式的寫法是：(?<=\D)(1[38]\d{9}|14[57]\d{8}|15[0-35-9]\d{8}|17[678]\d{8})(?=\D)曲伊，國(guó)內(nèi)最近好像有19和16開頭的手機(jī)號(hào)了，但是這個(gè)暫時(shí)不在我們考慮之列追他。

后話

如果要從事爬蟲類應(yīng)用的開發(fā)坟募，那么正則表達(dá)式一定是一個(gè)非常好的助手，因?yàn)樗梢詭椭覀冄杆俚膹木W(wǎng)頁(yè)代碼中發(fā)現(xiàn)某種我們指定的模式并提取出我們需要的信息邑狸。

當(dāng)然對(duì)于初學(xué)者來(lái)說(shuō)懈糯，要編寫一個(gè)正確的適當(dāng)?shù)恼齽t表達(dá)式可能并不是一件容易的事情（當(dāng)然有些常用的正則表達(dá)式可以直接在網(wǎng)上找找），所以實(shí)際開發(fā)爬蟲應(yīng)用的時(shí)候推溃，有很多人會(huì)選擇Beautiful Soup或Lxml來(lái)進(jìn)行匹配和信息的提取昂利，前者簡(jiǎn)單方便但是性能較差，后者既好用性能也好铁坎，但是安裝稍嫌麻煩蜂奸，這些內(nèi)容我們會(huì)在后期的爬蟲專題中為大家介紹。

最后編輯于：2020.04.09 09:01:17

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末硬萍，一起剝皮案震驚了整個(gè)濱河市扩所，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌朴乖，老刑警劉巖祖屏，帶你破解...
沈念sama閱讀 207,113評(píng)論 6贊 481
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件助赞，死亡現(xiàn)場(chǎng)離奇詭異，居然都是意外死亡袁勺，警方通過(guò)查閱死者的電腦和手機(jī)雹食，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 88,644評(píng)論 2贊 381
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)期丰，“玉大人群叶，你說(shuō)我怎么就攤上這事《鄣矗” “怎么了街立？”我有些...
開封第一講書人閱讀 153,340評(píng)論 0贊 344
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長(zhǎng)埠通。經(jīng)常有香客問(wèn)我赎离，道長(zhǎng)，這世上最難降的妖魔是什么端辱？我笑而不...
開封第一講書人閱讀 55,449評(píng)論 1贊 279
?港島之戀（遺憾婚禮）
正文為了忘掉前任梁剔，我火速辦了婚禮，結(jié)果婚禮上掠手，老公的妹妹穿的比我還像新娘憾朴。我一直安慰自己狸捕，他們只是感情好喷鸽，可當(dāng)我...
茶點(diǎn)故事閱讀 64,445評(píng)論 5贊 374
惡毒庶女頂嫁案：這布局不是一般人想出來(lái)的
文/花漫我一把揭開白布。她就那樣靜靜地躺著灸拍，像睡著了一般做祝。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上鸡岗，一...
開封第一講書人閱讀 49,166評(píng)論 1贊 284
城市分裂傳說(shuō)
那天混槐，我揣著相機(jī)與錄音，去河邊找鬼轩性。笑死声登，一個(gè)胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的揣苏。我是一名探鬼主播悯嗓，決...
沈念sama閱讀 38,442評(píng)論 3贊 401
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長(zhǎng)吁一口氣：“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼卸察！你這毒婦竟也來(lái)了脯厨？” 一聲冷哼從身側(cè)響起，我...
開封第一講書人閱讀 37,105評(píng)論 0贊 261
萬(wàn)榮殺人案實(shí)錄
序言：老撾萬(wàn)榮一對(duì)情侶失蹤坑质，失蹤者是張志新（化名）和其女友劉穎合武，沒(méi)想到半個(gè)月后临梗，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 43,601評(píng)論 1贊 300
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡稼跳，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 36,066評(píng)論 2贊 325
?白月光啟示錄
正文我和宋清朗相戀三年盟庞，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片汤善。...
茶點(diǎn)故事閱讀 38,161評(píng)論 1贊 334
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡茫经，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出萎津，到底是詐尸還是另有隱情卸伞，我是刑警寧澤，帶...
沈念sama閱讀 33,792評(píng)論 4贊 323
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布锉屈，位于F島的核電站荤傲，受9級(jí)特大地震影響，放射性物質(zhì)發(fā)生泄漏颈渊。R本人自食惡果不足惜遂黍，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 39,351評(píng)論 3贊 307
男人毒藥：我在死后第九天來(lái)索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望俊嗽。院中可真熱鬧雾家，春花似錦、人聲如沸绍豁。這莊子的主人今日做“春日...
開封第一講書人閱讀 30,352評(píng)論 0贊 19
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)竹揍。三九已至敬飒，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間芬位，已是汗流浹背无拗。一陣腳步聲響...
開封第一講書人閱讀 31,584評(píng)論 1贊 261
情欲美人皮
我被黑心中介騙來(lái)泰國(guó)打工，沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留昧碉，地道東北人英染。一個(gè)月前我還...
沈念sama閱讀 45,618評(píng)論 2贊 355
代替公主和親
正文我出身青樓，卻偏偏與公主長(zhǎng)得像被饿，于是被迫代替她去往敵國(guó)和親四康。傳聞我的和親對(duì)象是個(gè)殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 42,916評(píng)論 2贊 344

正則表達(dá)式

使用正則表達(dá)式