本文轉(zhuǎn)載:靜覓 ? [Python3網(wǎng)絡(luò)爬蟲開發(fā)實(shí)戰(zhàn)] 3.3-正則表達(dá)式
看完requests請求之后,我們獲取到了頁面的信息欧芽,但是這么龐大的頁面信息汤踏,我們所需要的數(shù)據(jù)可能就沒有多少,那怎樣才能得到我們所需要的數(shù)據(jù)呢?下面的幾篇文章我們就來介紹一下爬蟲中第二個很重要的模塊:信息提取岛杀。我們會介紹幾個常用到的信息提取的方式阔拳。
本節(jié)中,我們看一下正則表達(dá)式的相關(guān)用法类嗤。正則表達(dá)式是處理字符串的強(qiáng)大工具糊肠,它有自己特定的語法結(jié)構(gòu),有了它遗锣,實(shí)現(xiàn)字符串的檢索货裹、替換、匹配驗(yàn)證都不在話下精偿。
當(dāng)然,對于爬蟲來說椰拒,有了它楞遏,從HTML里提取想要的信息就非常方便了。
1. 實(shí)例引入
說了這么多霹期,可能我們對它到底是個什么還是比較模糊,下面就用幾個實(shí)例來看一下正則表達(dá)式的用法拯田。
打開開源中國提供的正則表達(dá)式測試工具http://tool.oschina.net/regex/历造,輸入待匹配的文本,然后選擇常用的正則表達(dá)式船庇,就可以得出相應(yīng)的匹配結(jié)果了吭产。例如,這里輸入待匹配的文本如下:
Hello, my phone number is 010-86432100 and email is cqc@cuiqingcai.com, and my website is http://cuiqingcai.com.
這段字符串中包含了一個電話號碼和一個電子郵件鸭轮,接下來就嘗試用正則表達(dá)式提取出來臣淤,如圖3-10所示。
圖3-10 運(yùn)行頁面
在網(wǎng)頁右側(cè)選擇“匹配Email地址”张弛,就可以看到下方出現(xiàn)了文本中的E-mail荒典。如果選擇“匹配網(wǎng)址URL”,就可以看到下方出現(xiàn)了文本中的URL吞鸭。是不是非常神奇寺董?
其實(shí),這里就是用了正則表達(dá)式匹配刻剥,也就是用一定的規(guī)則將特定的文本提取出來遮咖。比如,電子郵件開頭是一段字符串造虏,然后是一個@符號御吞,最后是某個域名,這是有特定的組成格式的漓藕。另外陶珠,對于URL,開頭是協(xié)議類型享钞,然后是冒號加雙斜線揍诽,最后是域名加路徑。
對于URL來說栗竖,可以用下面的正則表達(dá)式匹配:
[a-zA-z]+://[^\s]*
用這個正則表達(dá)式去匹配一個字符串暑脆,如果這個字符串中包含類似URL的文本,那就會被提取出來狐肢。
這個正則表達(dá)式看上去是亂糟糟的一團(tuán)添吗,其實(shí)不然,這里面都是有特定的語法規(guī)則的份名。比如碟联,a-z
代表匹配任意的小寫字母妓美,\s
表示匹配任意的空白字符,*
就代表匹配前面的字符任意多個玄帕,這一長串的正則表達(dá)式就是這么多匹配規(guī)則的組合部脚。
寫好正則表達(dá)式后,就可以拿它去一個長字符串里匹配查找了裤纹。不論這個字符串里面有什么委刘,只要符合我們寫的規(guī)則,統(tǒng)統(tǒng)可以找出來鹰椒。對于網(wǎng)頁來說锡移,如果想找出網(wǎng)頁源代碼里有多少URL,用匹配URL的正則表達(dá)式去匹配即可漆际。
上面我們說了幾個匹配規(guī)則淆珊,表3-2列出了常用的匹配規(guī)則。
看完了之后奸汇,可能有點(diǎn)暈暈的吧施符,不過不用擔(dān)心,后面我們會詳細(xì)講解一些常見規(guī)則的用法擂找。
其實(shí)正則表達(dá)式不是Python獨(dú)有的戳吝,它也可以用在其他編程語言中。但是Python的re庫提供了整個正則表達(dá)式的實(shí)現(xiàn)贯涎,利用這個庫听哭,可以在Python中使用正則表達(dá)式。在Python中寫正則表達(dá)式幾乎都用這個庫塘雳,下面就來了解它的一些常用方法陆盘。
2. match()
這里首先介紹第一個常用的匹配方法——match()
,向它傳入要匹配的字符串以及正則表達(dá)式败明,就可以檢測這個正則表達(dá)式是否匹配字符串隘马。
match()
方法會嘗試從字符串的起始位置匹配正則表達(dá)式,如果匹配妻顶,就返回匹配成功的結(jié)果酸员;如果不匹配,就返回None
盈包。示例如下:
import re
content = 'Hello 123 4567 World_This is a Regex Demo'
print(len(content))
result = re.match('^Hello\s\d\d\d\s\d{4}\s\w{10}', content)
print(result)
print(result.group())
print(result.span())
運(yùn)行結(jié)果如下:
41
<_sre.SRE_Match object; span=(0, 25), match='Hello 123 4567 World_This'>
Hello 123 4567 World_This
(0, 25)
這里首先聲明了一個字符串沸呐,其中包含英文字母醇王、空白字符呢燥、數(shù)字等。接下來寓娩,我們寫一個正則表達(dá)式:
^Hello\s\d\d\d\s\d{4}\s\w{10}
用它來匹配這個長字符串叛氨。開頭的^
是匹配字符串的開頭呼渣,也就是以Hello
開頭;然后\s
匹配空白字符寞埠,用來匹配目標(biāo)字符串的空格屁置;\d
匹配數(shù)字,3個\d
匹配123仁连;然后再寫1個\s
匹配空格蓝角;后面還有4567
,我們其實(shí)可以依然用4個\d
來匹配饭冬,但是這么寫比較煩瑣使鹅,所以后面可以跟{4}
以代表匹配前面的規(guī)則4次,也就是匹配4個數(shù)字昌抠;然后后面再緊接1個空白字符患朱,最后\w{10}
匹配10個字母及下劃線。我們注意到炊苫,這里其實(shí)并沒有把目標(biāo)字符串匹配完裁厅,不過這樣依然可以進(jìn)行匹配,只不過匹配結(jié)果短一點(diǎn)而已侨艾。
而在match()
方法中执虹,第一個參數(shù)傳入了正則表達(dá)式,第二個參數(shù)傳入了要匹配的字符串蒋畜。
打印輸出結(jié)果声畏,可以看到結(jié)果是SRE_Match
對象,這證明成功匹配姻成。該對象有兩個方法:group()
方法可以輸出匹配到的內(nèi)容插龄,結(jié)果是Hello 123 4567 World_This
,這恰好是正則表達(dá)式規(guī)則所匹配的內(nèi)容科展;span()
方法可以輸出匹配的范圍均牢,結(jié)果是(0, 25)
,這就是匹配到的結(jié)果字符串在原字符串中的位置范圍才睹。
通過上面的例子徘跪,我們基本了解了如何在Python中使用正則表達(dá)式來匹配一段文字。
匹配目標(biāo)
剛才我們用match()
方法可以得到匹配到的字符串內(nèi)容琅攘,但是如果想從字符串中提取一部分內(nèi)容垮庐,該怎么辦呢?就像最前面的實(shí)例一樣坞琴,從一段文本中提取出郵件或電話號碼等內(nèi)容哨查。
這里可以使用()
括號將想提取的子字符串括起來。()
實(shí)際上標(biāo)記了一個子表達(dá)式的開始和結(jié)束位置剧辐,被標(biāo)記的每個子表達(dá)式會依次對應(yīng)每一個分組寒亥,調(diào)用group()
方法傳入分組的索引即可獲取提取的結(jié)果邮府。示例如下:
import re
content = 'Hello 1234567 World_This is a Regex Demo'
result = re.match('^Hello\s(\d+)\sWorld', content)
print(result)
print(result.group())
print(result.group(1))
print(result.span())
這里我們想把字符串中的1234567
提取出來,此時可以將數(shù)字部分的正則表達(dá)式用()
括起來溉奕,然后調(diào)用了group(1)
獲取匹配結(jié)果褂傀。
運(yùn)行結(jié)果如下:
<_sre.SRE_Match object; span=(0, 19), match='Hello 1234567 World'>
Hello 1234567 World
1234567
(0, 19)
可以看到,我們成功得到了1234567
加勤。這里用的是group(1)
仙辟,它與group()
有所不同,后者會輸出完整的匹配結(jié)果鳄梅,而前者會輸出第一個被()
包圍的匹配結(jié)果欺嗤。假如正則表達(dá)式后面還有()
包括的內(nèi)容,那么可以依次用group(2)
卫枝、group(3)
等來獲取煎饼。
通用匹配
剛才我們寫的正則表達(dá)式其實(shí)比較復(fù)雜,出現(xiàn)空白字符我們就寫\s
匹配校赤,出現(xiàn)數(shù)字我們就用\d
匹配吆玖,這樣的工作量非常大。其實(shí)完全沒必要這么做马篮,因?yàn)檫€有一個萬能匹配可以用沾乘,那就是.*
(點(diǎn)星)。其中.
(點(diǎn))可以匹配任意字符(除換行符)浑测,*
(星)代表匹配前面的字符無限次翅阵,所以它們組合在一起就可以匹配任意字符了。有了它迁央,我們就不用挨個字符地匹配了掷匠。
接著上面的例子,我們可以改寫一下正則表達(dá)式:
import re
content = 'Hello 123 4567 World_This is a Regex Demo'
result = re.match('^Hello.*Demo$', content)
print(result)
print(result.group())
print(result.span())
這里我們將中間部分直接省略岖圈,全部用.*
來代替讹语,最后加一個結(jié)尾字符串就好了。運(yùn)行結(jié)果如下:
<_sre.SRE_Match object; span=(0, 41), match='Hello 123 4567 World_This is a Regex Demo'>
Hello 123 4567 World_This is a Regex Demo
(0, 41)
可以看到蜂科,group()
方法輸出了匹配的全部字符串顽决,也就是說我們寫的正則表達(dá)式匹配到了目標(biāo)字符串的全部內(nèi)容;span()
方法輸出(0, 41)
导匣,這是整個字符串的長度才菠。
因此,我們可以使用.*
簡化正則表達(dá)式的書寫贡定。
貪婪與非貪婪
使用上面的通用匹配.*
時赋访,可能有時候匹配到的并不是我們想要的結(jié)果。看下面的例子:
import re
content = 'Hello 1234567 World_This is a Regex Demo'
result = re.match('^He.*(\d+).*Demo$', content)
print(result)
print(result.group(1))
這里我們依然想獲取中間的數(shù)字进每,所以中間依然寫的是(\d+)
。而數(shù)字兩側(cè)由于內(nèi)容比較雜亂命斧,所以想省略來寫田晚,都寫成 .*
。最后国葬,組成^He.*(\d+).*Demo$
贤徒,看樣子并沒有什么問題。我們看下運(yùn)行結(jié)果:
<_sre.SRE_Match object; span=(0, 40), match='Hello 1234567 World_This is a Regex Demo'>
7
奇怪的事情發(fā)生了汇四,我們只得到了7這個數(shù)字接奈,這是怎么回事呢?
這里就涉及一個貪婪匹配與非貪婪匹配的問題了通孽。在貪婪匹配下序宦,.*
會匹配盡可能多的字符。正則表達(dá)式中.*
后面是\d+
背苦,也就是至少一個數(shù)字互捌,并沒有指定具體多少個數(shù)字,因此行剂,.*
就盡可能匹配多的字符秕噪,這里就把123456
匹配了,給\d+
留下一個可滿足條件的數(shù)字7厚宰,最后得到的內(nèi)容就只有數(shù)字7了腌巾。
但這很明顯會給我們帶來很大的不便。有時候铲觉,匹配結(jié)果會莫名其妙少了一部分內(nèi)容澈蝙。其實(shí),這里只需要使用非貪婪匹配就好了撵幽。非貪婪匹配的寫法是.*?
碉克,多了一個?
,那么它可以達(dá)到怎樣的效果并齐?我們再用實(shí)例看一下:
import re
content = 'Hello 1234567 World_This is a Regex Demo'
result = re.match('^He.*?(\d+).*Demo$', content)
print(result)
print(result.group(1))
這里我們只是將第一個.*
改成了.*?
漏麦,轉(zhuǎn)變?yōu)榉秦澙菲ヅ洹=Y(jié)果如下:
<_sre.SRE_Match object; span=(0, 40), match='Hello 1234567 World_This is a Regex Demo'>
1234567
此時就可以成功獲取1234567
了况褪。原因可想而知撕贞,貪婪匹配是盡可能匹配多的字符,非貪婪匹配就是盡可能匹配少的字符测垛。當(dāng).*?
匹配到Hello
后面的空白字符時捏膨,再往后的字符就是數(shù)字了,而\d+
恰好可以匹配,那么這里.*?
就不再進(jìn)行匹配号涯,交給\d+
去匹配后面的數(shù)字目胡。所以這樣.*?
匹配了盡可能少的字符,\d+
的結(jié)果就是1234567
了链快。
所以說誉己,在做匹配的時候,字符串中間盡量使用非貪婪匹配域蜗,也就是用.*?
來代替.*
巨双,以免出現(xiàn)匹配結(jié)果缺失的情況。
但這里需要注意霉祸,如果匹配的結(jié)果在字符串結(jié)尾筑累,.*?
就有可能匹配不到任何內(nèi)容了,因?yàn)樗鼤ヅ浔M可能少的字符丝蹭。例如:
import re
content = 'http://weibo.com/comment/kEraCN'
result1 = re.match('http.*?comment/(.*?)', content)
result2 = re.match('http.*?comment/(.*)', content)
print('result1', result1.group(1))
print('result2', result2.group(1))
運(yùn)行結(jié)果如下:
result1
result2 kEraCN
可以觀察到慢宗,.*?
沒有匹配到任何結(jié)果,而.*
則盡量匹配多的內(nèi)容奔穿,成功得到了匹配結(jié)果婆廊。
修飾符
正則表達(dá)式可以包含一些可選標(biāo)志修飾符來控制匹配的模式。修飾符被指定為一個可選的標(biāo)志巫橄。我們用實(shí)例來看一下:
import re
content = '''Hello 1234567 World_This
is a Regex Demo
'''
result = re.match('^He.*?(\d+).*?Demo$', content)
print(result.group(1))
和上面的例子相仿淘邻,我們在字符串中加了換行符,正則表達(dá)式還是一樣的湘换,用來匹配其中的數(shù)字宾舅。看一下運(yùn)行結(jié)果:
AttributeError Traceback (most recent call last)
<ipython-input-18-c7d232b39645> in <module>()
5 '''
6 result = re.match('^He.*?(\d+).*?Demo$', content)
----> 7 print(result.group(1))
AttributeError: 'NoneType' object has no attribute 'group'
運(yùn)行直接報(bào)錯彩倚,也就是說正則表達(dá)式?jīng)]有匹配到這個字符串筹我,返回結(jié)果為None
,而我們又調(diào)用了group()
方法導(dǎo)致AttributeError
帆离。
那么蔬蕊,為什么加了一個換行符,就匹配不到了呢哥谷?這是因?yàn)?code>\.匹配的是除換行符之外的任意字符岸夯,當(dāng)遇到換行符時,.*?
就不能匹配了们妥,所以導(dǎo)致匹配失敗猜扮。這里只需加一個修飾符re.S
,即可修正這個錯誤:
result = re.match('^He.*?(\d+).*?Demo$', content, re.S)
這個修飾符的作用是使.
匹配包括換行符在內(nèi)的所有字符监婶。此時運(yùn)行結(jié)果如下:
1234567
這個re.S
在網(wǎng)頁匹配中經(jīng)常用到旅赢。因?yàn)镠TML節(jié)點(diǎn)經(jīng)常會有換行齿桃,加上它,就可以匹配節(jié)點(diǎn)與節(jié)點(diǎn)之間的換行了煮盼。
另外短纵,還有一些修飾符,在必要的情況下也可以使用僵控,如表3-3所示香到。
在網(wǎng)頁匹配中,較為常用的有re.S
和re.I
喉祭。
轉(zhuǎn)義匹配
我們知道正則表達(dá)式定義了許多匹配模式,如.
匹配除換行符以外的任意字符雷绢,但是如果目標(biāo)字符串里面就包含.
泛烙,那該怎么辦呢?
這里就需要用到轉(zhuǎn)義匹配了翘紊,示例如下:
import re
content = '(百度)www.baidu.com'
result = re.match('\(百度\)www\.baidu\.com', content)
print(result)
當(dāng)遇到用于正則匹配模式的特殊字符時蔽氨,在前面加反斜線轉(zhuǎn)義一下即可。例如.
就可以用\.
來匹配帆疟,運(yùn)行結(jié)果如下:
<_sre.SRE_Match object; span=(0, 17), match='(百度)www.baidu.com'>
可以看到鹉究,這里成功匹配到了原字符串。
這些是寫正則表達(dá)式常用的幾個知識點(diǎn)踪宠,熟練掌握它們對后面寫正則表達(dá)式匹配非常有幫助自赔。
3. search()
前面提到過,match()
方法是從字符串的開頭開始匹配的柳琢,一旦開頭不匹配绍妨,那么整個匹配就失敗了。我們看下面的例子:
import re
content = 'Extra stings Hello 1234567 World_This is a Regex Demo Extra stings'
result = re.match('Hello.*?(\d+).*?Demo', content)
print(result)
這里的字符串以Extra
開頭柬脸,但是正則表達(dá)式以Hello
開頭他去,整個正則表達(dá)式是字符串的一部分,但是這樣匹配是失敗的倒堕。運(yùn)行結(jié)果如下:
None
因?yàn)?code>match()方法在使用時需要考慮到開頭的內(nèi)容灾测,這在做匹配時并不方便。它更適合用來檢測某個字符串是否符合某個正則表達(dá)式的規(guī)則垦巴。
這里就有另外一個方法search()
媳搪,它在匹配時會掃描整個字符串,然后返回第一個成功匹配的結(jié)果骤宣。也就是說蛾号,正則表達(dá)式可以是字符串的一部分,在匹配時涯雅,search()
方法會依次掃描字符串鲜结,直到找到第一個符合規(guī)則的字符串,然后返回匹配內(nèi)容,如果搜索完了還沒有找到精刷,就返回None
拗胜。
我們把上面代碼中的match()
方法修改成search()
,再看下運(yùn)行結(jié)果:
<_sre.SRE_Match object; span=(13, 53), match='Hello 1234567 World_This is a Regex Demo'>
1234567
這時就得到了匹配結(jié)果怒允。
因此埂软,為了匹配方便,我們可以盡量使用search()
方法纫事。
下面再用幾個實(shí)例來看看search()
方法的用法勘畔。
首先,這里有一段待匹配的HTML文本丽惶,接下來寫幾個正則表達(dá)式實(shí)例來實(shí)現(xiàn)相應(yīng)信息的提褥牌摺:
html = '''<div id="songs-list">
<h2 class="title">經(jīng)典老歌</h2>
<p class="introduction">
經(jīng)典老歌列表
</p>
<ul id="list" class="list-group">
<li data-view="2">一路上有你</li>
<li data-view="7">
<a href="/2.mp3" singer="任賢齊">滄海一聲笑</a>
</li>
<li data-view="4" class="active">
<a href="/3.mp3" singer="齊秦">往事隨風(fēng)</a>
</li>
<li data-view="6"><a href="/4.mp3" singer="beyond">光輝歲月</a></li>
<li data-view="5"><a href="/5.mp3" singer="陳慧琳">記事本</a></li>
<li data-view="5">
<a href="/6.mp3" singer="鄧麗君"><i class="fa fa-user"></i>但愿人長久</a>
</li>
</ul>
</div>'''
可以觀察到,ul
節(jié)點(diǎn)里有許多li
節(jié)點(diǎn)钾唬,其中li
節(jié)點(diǎn)中有的包含a
節(jié)點(diǎn)万哪,有的不包含a
節(jié)點(diǎn),a
節(jié)點(diǎn)還有一些相應(yīng)的屬性——超鏈接和歌手名抡秆。
首先奕巍,我們嘗試提取class
為active
的li
節(jié)點(diǎn)內(nèi)部的超鏈接包含的歌手名和歌名,此時需要提取第三個li
節(jié)點(diǎn)下a
節(jié)點(diǎn)的singer
屬性和文本儒士。
此時正則表達(dá)式可以以li
開頭的止,然后尋找一個標(biāo)志符active
,中間的部分可以用.*?
來匹配着撩。接下來冲杀,要提取singer
這個屬性值,所以還需要寫入singer="(.*?)"
睹酌,這里需要提取的部分用小括號括起來权谁,以便用group()
方法提取出來,它的兩側(cè)邊界是雙引號憋沿。然后還需要匹配a
節(jié)點(diǎn)的文本旺芽,其中它的左邊界是>
,右邊界是</a>
辐啄。然后目標(biāo)內(nèi)容依然用(.*?)
來匹配采章,所以最后的正則表達(dá)式就變成了:
<li.*?active.*?singer="(.*?)">(.*?)</a>
然后再調(diào)用search()
方法,它會搜索整個HTML文本壶辜,找到符合正則表達(dá)式的第一個內(nèi)容返回悯舟。
另外,由于代碼有換行砸民,所以這里第三個參數(shù)需要傳入re.S
抵怎。整個匹配代碼如下:
result = re.search('<li.*?active.*?singer="(.*?)">(.*?)</a>', html, re.S)
if result:
print(result.group(1), result.group(2))
由于需要獲取的歌手和歌名都已經(jīng)用小括號包圍奋救,所以可以用group()
方法獲取。
運(yùn)行結(jié)果如下:
齊秦 往事隨風(fēng)
可以看到反惕,這正是class
為active
的li
節(jié)點(diǎn)內(nèi)部的超鏈接包含的歌手名和歌名尝艘。
如果正則表達(dá)式不加active
(也就是匹配不帶class
為active
的節(jié)點(diǎn)內(nèi)容),那會怎樣呢姿染?我們將正則表達(dá)式中的active
去掉背亥,代碼改寫如下:
result = re.search('<li.*?singer="(.*?)">(.*?)</a>', html, re.S)
if result:
print(result.group(1), result.group(2))
由于search()方法會返回第一個符合條件的匹配目標(biāo),這里結(jié)果就變了:
任賢齊 滄海一聲笑
把active
標(biāo)簽去掉后悬赏,從字符串開頭開始搜索狡汉,此時符合條件的節(jié)點(diǎn)就變成了第二個li
節(jié)點(diǎn),后面的就不再匹配闽颇,所以運(yùn)行結(jié)果就變成第二個li
節(jié)點(diǎn)中的內(nèi)容盾戴。
注意,在上面的兩次匹配中进萄,search()
方法的第三個參數(shù)都加了re.S
捻脖,這使得.*?
可以匹配換行锐峭,所以含有換行的li
節(jié)點(diǎn)被匹配到了中鼠。如果我們將其去掉,結(jié)果會是什么沿癞?代碼如下:
result = re.search('<li.*?singer="(.*?)">(.*?)</a>', html)
if result:
print(result.group(1), result.group(2))
運(yùn)行結(jié)果如下:
beyond 光輝歲月
可以看到援雇,結(jié)果變成了第四個li
節(jié)點(diǎn)的內(nèi)容。這是因?yàn)榈诙€和第三個li
節(jié)點(diǎn)都包含了換行符椎扬,去掉re.S
之后惫搏,.*?
已經(jīng)不能匹配換行符,所以正則表達(dá)式不會匹配到第二個和第三個li
節(jié)點(diǎn)蚕涤,而第四個li
節(jié)點(diǎn)中不包含換行符筐赔,所以成功匹配。
由于絕大部分的HTML文本都包含了換行符揖铜,所以盡量都需要加上re.S
修飾符茴丰,以免出現(xiàn)匹配不到的問題。
4. findall()
前面我們介紹了search()
方法的用法天吓,它可以返回匹配正則表達(dá)式的第一個內(nèi)容贿肩,但是如果想要獲取匹配正則表達(dá)式的所有內(nèi)容,那該怎么辦呢龄寞?這時就要借助findall()
方法了汰规。該方法會搜索整個字符串,然后返回匹配正則表達(dá)式的所有內(nèi)容物邑。
還是上面的HTML文本溜哮,如果想獲取所有a
節(jié)點(diǎn)的超鏈接滔金、歌手和歌名,就可以將search()
方法換成findall()
方法茬射。如果有返回結(jié)果的話鹦蠕,就是列表類型,所以需要遍歷一下來依次獲取每組內(nèi)容在抛。代碼如下:
results = re.findall('<li.*?href="(.*?)".*?singer="(.*?)">(.*?)</a>', html, re.S)
print(results)
print(type(results))
for result in results:
print(result)
print(result[0], result[1], result[2])
運(yùn)行結(jié)果如下:
[('/2.mp3', '任賢齊', '滄海一聲笑'), ('/3.mp3', '齊秦', '往事隨風(fēng)'), ('/4.mp3', 'beyond', '光輝歲月'), ('/5.mp3', '陳慧琳', '記事本'), ('/6.mp3', '鄧麗君', '但愿人長久')]
<class 'list'>
('/2.mp3', '任賢齊', '滄海一聲笑')
/2.mp3 任賢齊 滄海一聲笑
('/3.mp3', '齊秦', '往事隨風(fēng)')
/3.mp3 齊秦 往事隨風(fēng)
('/4.mp3', 'beyond', '光輝歲月')
/4.mp3 beyond 光輝歲月
('/5.mp3', '陳慧琳', '記事本')
/5.mp3 陳慧琳 記事本
('/6.mp3', '鄧麗君', '但愿人長久')
/6.mp3 鄧麗君 但愿人長久
可以看到钟病,返回的列表中的每個元素都是元組類型,我們用對應(yīng)的索引依次取出即可刚梭。
如果只是獲取第一個內(nèi)容肠阱,可以用search()
方法。當(dāng)需要提取多個內(nèi)容時朴读,可以用findall()
方法屹徘。
5. sub()
除了使用正則表達(dá)式提取信息外,有時候還需要借助它來修改文本衅金。比如噪伊,想要把一串文本中的所有數(shù)字都去掉,如果只用字符串的replace()
方法氮唯,那就太煩瑣了鉴吹,這時可以借助sub()
方法。示例如下:
import re
content = '54aK54yr5oiR54ix5L2g'
content = re.sub('\d+', '', content)
print(content)
運(yùn)行結(jié)果如下:
aKyroiRixLg
這里只需要給第一個參數(shù)傳入\d+
來匹配所有的數(shù)字惩琉,第二個參數(shù)為替換成的字符串(如果去掉該參數(shù)的話豆励,可以賦值為空),第三個參數(shù)是原字符串瞒渠。
在上面的HTML文本中良蒸,如果想獲取所有li
節(jié)點(diǎn)的歌名,直接用正則表達(dá)式來提取可能比較煩瑣伍玖。比如嫩痰,可以寫成這樣子:
results = re.findall('<li.*?>\s*?(<a.*?>)?(\w+)(</a>)?\s*?</li>', html, re.S)
for result in results:
print(result[1])
運(yùn)行結(jié)果如下:
一路上有你
滄海一聲笑
往事隨風(fēng)
光輝歲月
記事本
但愿人長久
此時借助sub()
方法就比較簡單了∏瞎浚可以先用sub()
方法將a
節(jié)點(diǎn)去掉串纺,只留下文本,然后再利用findall()
提取就好了:
html = re.sub('<a.*?>|</a>', '', html)
print(html)
results = re.findall('<li.*?>(.*?)</li>', html, re.S)
for result in results:
print(result.strip())
運(yùn)行結(jié)果如下:
<div id="songs-list">
<h2 class="title">經(jīng)典老歌</h2>
<p class="introduction">
經(jīng)典老歌列表
</p>
<ul id="list" class="list-group">
<li data-view="2">一路上有你</li>
<li data-view="7">
滄海一聲笑
</li>
<li data-view="4" class="active">
往事隨風(fēng)
</li>
<li data-view="6">光輝歲月</li>
<li data-view="5">記事本</li>
<li data-view="5">
但愿人長久
</li>
</ul>
</div>
一路上有你
滄海一聲笑
往事隨風(fēng)
光輝歲月
記事本
但愿人長久
可以看到仔燕,a
節(jié)點(diǎn)經(jīng)過sub()
方法處理后就沒有了造垛,然后再通過findall()
方法直接提取即可∥螅可以看到五辽,在適當(dāng)?shù)臅r候,借助sub()
方法可以起到事半功倍的效果外恕。
6. compile()
前面所講的方法都是用來處理字符串的方法杆逗,最后再介紹一下compile()
方法乡翅,這個方法可以將正則字符串編譯成正則表達(dá)式對象,以便在后面的匹配中復(fù)用罪郊。示例代碼如下:
import re
content1 = '2016-12-15 12:00'
content2 = '2016-12-17 12:55'
content3 = '2016-12-22 13:21'
pattern = re.compile('\d{2}:\d{2}')
result1 = re.sub(pattern, '', content1)
result2 = re.sub(pattern, '', content2)
result3 = re.sub(pattern, '', content3)
print(result1, result2, result3)
例如蠕蚜,這里有3個日期,我們想分別將3個日期中的時間去掉悔橄,這時可以借助sub()
方法靶累。該方法的第一個參數(shù)是正則表達(dá)式,但是這里沒有必要重復(fù)寫3個同樣的正則表達(dá)式癣疟,此時可以借助compile()
方法將正則表達(dá)式編譯成一個正則表達(dá)式對象挣柬,以便復(fù)用。
運(yùn)行結(jié)果如下:
2016-12-15 2016-12-17 2016-12-22
另外睛挚,compile()
還可以傳入修飾符邪蛔,例如re.S
等修飾符,這樣在search()
扎狱、findall()
等方法中就不需要額外傳了侧到。所以,compile()
方法可以說是給正則表達(dá)式做了一層封裝淤击,以便我們更好地復(fù)用匠抗。
到此為止,正則表達(dá)式的基本用法就介紹完了遭贸,后面會通過具體的實(shí)例來講解正則表達(dá)式的用法戈咳。