python爬蟲day-13（正則表達(dá)式）

個人學(xué)習(xí)筆記踩娘，方便自己查閱，僅供參考，歡迎交流

正則表達(dá)式

1.簡單示例

開源中國提供的正則表達(dá)式測試網(wǎng)址：http://tool.oschina.net/regex/
正表達(dá)式匹配续语，就是用一定的規(guī)則將特定的文本提取出來襟己。
對于URL引谜，開頭是協(xié)議類型，然后是冒號加雙斜線擎浴，最后是域名加路徑员咽。
正則表達(dá)式：[a-zA-z]+://[^\s]*
a-z代表匹配任意的小寫字母； \s表示匹配任意的空白字符退客；＊就代表匹配前面的字符任意多個骏融。
Python的re庫提供了整個正則表達(dá)式的實現(xiàn)，利用這個庫萌狂，可以在Python 中使用正則表達(dá)式档玻。正則表達(dá)式不是Python獨有的，它也可以用在其他編程語言茫藏。

2.match（）

match（）方法會嘗試從字符串的起始位置匹配正則表達(dá)式误趴，如果匹配，就返回匹配成功的結(jié)果务傲；如果不匹配凉当，就返回None。
match （）方法在使用時需要考慮到開頭的內(nèi)容售葡，做匹配時并不方便,它更適合用來檢測某個字符串是存符合某個正則表達(dá)式的規(guī)則看杭。
在 match（）方法中，第一個參數(shù)傳入了正則表達(dá)式挟伙，第二個參數(shù)傳入了要匹配的字符串楼雹。

import re

content = 'Hello 123 4567 World_This is a Regex Demo'
print(len(content))
result = re.match('^Hello\s\d\d\d\s\d{4}\s\w{10}',content)
print(result)
print(result.group())
print(result.span())

輸出結(jié)果：41
<_sre.SRE_Match object; span=(0, 25), match='Hello 123 4567 World_This'>
Hello 123 4567 World_This
(0, 25)

輸出的結(jié)果是SRE_Match對象，證明成功匹配尖阔。該對象有兩個方法：group（）方法可以輸出匹配到的內(nèi)容贮缅，span（）方法可以輸出匹配的范圍，結(jié)果是（0,25）介却，是匹配到的結(jié)果字符串在原字符串中的位置范圍谴供。

首先聲明了一個字符串，其中包含英文字母齿坷、空白字符桂肌、數(shù)字等数焊。
content = 'Hello 123 4567 World_This is a Regex Demo'
正則表達(dá)式：^Hello\s\d\d\d\s\d{4}\s\w{10}
^是匹配字符串的開頭；＼s匹配空白字符轴或；＼d匹配數(shù)字昌跌，＼w{10}匹配10個字母以下劃線。

匹配目標(biāo)
若想把字符串中的1234567提取出來照雁，可以將數(shù)字部分的正則表達(dá)式用（）括起來蚕愤，然后調(diào)用了group（1）獲取匹配結(jié)果。正則表達(dá)式后面還有（）包括的內(nèi) 容饺蚊，那么可以依次用 group（2）萍诱，group（3）等來獲取。

import re

content = 'Hello 1234567 World_This is a Regex Demo'
print(len(content))
result = re.match('^Hello\s(\d+)\sWorld',content)
#（）:匹配括號內(nèi)的表達(dá)式污呼，也表示一個組裕坊。
print(result)
print(result.group())
print(result.group(1))
print(result.span())

通用匹配
通用匹配符號，就是 .*（點星）燕酷，其中.（點）可以匹配任意字符（除換行符）籍凝，＊（星）代表匹配前面的字符無限次，所以組合在一起就可以匹配任意字符了苗缩。

import re 

content = 'Hello 123 4567 World_This is a Regex Deno'
result = re.match('^Hello.*Deno$',content)
#$符號:匹配一行字符串的結(jié)尾
print(result)
print(result.group())
print(result.span())

輸出結(jié)果：
<_sre.SRE_Match object; span=(0, 41), match='Hello 123 4567 World_This is a Regex Deno'>
Hello 123 4567 World_This is a Regex Deno
(0, 41)

貪婪與非貪婪
在貪婪匹配下饵蒂，. *（點星）會匹配盡可能多的字符。非貪婪匹配：. *?（點星問號）酱讶，盡可能匹配少的字符退盯。
在做匹配的時候，字符串中間盡量使用非貪婪匹配泻肯，也就是用：. *?（點星問號）渊迁，來代替. *（點星），以免出現(xiàn)匹配結(jié)果缺失的情況灶挟。

import re

content = 'Hello 1234567 World_This is a Regex Deno'
result = re.match('^He.*(\d+).*Deno$',content)
#.*:貪婪匹配
result1 = re.match('^He.*?(\d+).*Deno$',content)
#.*琉朽？:非貪婪匹配
print(result)
print(result.group(1))
print(result1)
print(result1.group(1))

輸出結(jié)果：
<_sre.SRE_Match object; span=(0, 40), match='Hello 1234567 World_This is a Regex Deno'>
7
<_sre.SRE_Match object; span=(0, 40), match='Hello 1234567 World_This is a Regex Deno'>
1234567

需要注意，如果匹配的結(jié)果在字符串結(jié)尾稚铣，．＊箱叁？就有可能匹配不到任何內(nèi)容了，因為它匹配盡可能少的字符榛泛。

import re

content = 'http:weibo.com/comment/kEraCN'
result1 = re.match('http.*?comment/(.*?)',content)
result2 = re.match('http.*?comment/(.*)',content)
print('result1',result1.group(1))
print('result2',result2.group(1))

輸出結(jié)果：
result1
result2 kEraCN

修飾符
網(wǎng)頁匹配中，較為常用修飾符的有 re.S 和re.I噩斟。
re.S:使.匹配包括換行符在內(nèi)的所有字符曹锨。
re.I:使匹配對大小寫不敏感。

import re

content = '''Hello 1234567 World_This
is a Regex Demo
'''
#result = re.match('^He.*?(\d+).*?Demo$',content)
#會報錯
result1 = re.match('^He.*?(\d+).*?Demo$',content,re.S)
#re.S:使.匹配包括換行符在內(nèi)的所有字符剃允。
#print(result.group(1))
print(result1.group(1))

轉(zhuǎn)義匹配
遇到用于正則匹配模式的特殊字符時沛简，在前面加反斜線轉(zhuǎn)義一下即可齐鲤。

import re

content  ='(百度)www.baidu.com'
result = re.match('\(百度\)www\.baidu\.com',content)
print(result)

3.search（）

match（）方法是從字符串的開頭開始匹配的，一旦開頭不匹配椒楣，那么整個匹配就失敗给郊。
search （）方法匹配時會掃描整個字符串，然后返回第一個成功匹配的結(jié)果捧灰。

import re

content = 'EXtra stings Hello 1234567 World This a regex Demo EXtra stings'
result = re.match('Hello.*?(\d+).*?Demo',content)
print(result)
result1 = re.search('Hello.*?(\d+).*?Demo',content)
print(result1)

輸出結(jié)果：None
<_sre.SRE_Match object; span=(13, 50), match='Hello 1234567 World This a regex Demo'>

import re
html ='''<div id="songs-list" >
<h2 class ="title">經(jīng)典老歌</h2>
<p class="introduction">
經(jīng)典老歌列表
</p>
<ul id="list" class="list-group">
<li data-view="2">一路上有你</li>
<li data-view="7">
<a href ="/2.mp3 singer="任賢齊">滄海一聲笑</a>
</li>
<li data-view="4" class="active">
<a href ="/3.mp3" singer="齊秦">往事隨風(fēng)</a>
</li>
<li data-view ="6">< href="/4.mp3 singer="beyond">光輝歲月 </a></li>
<li data-view ="5">< a href="/S.mp3 singer="陳慧琳">記事本</a></li>
<li data-view ="5">
href ="/6.mp3 singer ="鄧麗君">但愿人長久</a>
</li>
</ul>
</div>'''
result = re.search('<li.*?active.*?singer="(.*?)">(.*?)</a>',html,re.S)
result1 = re.search('<li.*?singer="(.*?)">(.*?)</a>',html,re.S)
result2 = re.search('<li.*?singer="(.*?)">(.*?)</a>',html)
print(result.group(1),result.group(2))
print(result1.group(1),result1.group(2))
print(result2.group(1),result2.group(2))

輸出結(jié)果：
齊秦往事隨風(fēng)
任賢齊滄海一聲笑
beyond 光輝歲月

4.findall（）

search（）方法可以返回匹配正則表達(dá)式的第一個內(nèi)容淆九。
findall（）方法可以獲取匹配正則表達(dá)式的所有內(nèi)容。

import re
html ='''<div id="songs-list" >
<h2 class ="title">經(jīng)典老歌</h2>
<p class="introduction">
經(jīng)典老歌列表
</p>
<ul id="list" class="list-group">
<li data-view="2">一路上有你</li>
<li data-view="7">
<a href="/2.mp3" singer="任賢齊">滄海一聲笑</a>
</li>
<li data-view="4" class="active">
<a href="/3.mp3" singer="齊秦">往事隨風(fēng)</a>
</li>
<li data-view ="6">< href="/4.mp3" singer="beyond">光輝歲月 </a></li>
<li data-view ="5">< a href="/5.mp3" singer="陳慧琳">記事本</a></li>
<li data-view ="5">< href="/6.mp3" singer="鄧麗君">但愿人長久</a></li>
</ul>
</div>'''
results = re.findall('<li.*?href="(.*?)".*?singer="(.*?)">(.*?)</a>',html,re.S)
print(results)
print(type(results))
for result in results:
    print(result)
    print(result[0],result[1],result[2])

輸出結(jié)果：
[('/2.mp3', '任賢齊', '滄海一聲笑'), ('/3.mp3', '齊秦', '往事隨風(fēng)'), ('/4.mp3', 'beyond', '光輝歲月 '), ('/5.mp3', '陳慧琳', '記事本'), ('/6.mp3', '鄧麗君', '但愿人長久')]
<class 'list'>
('/2.mp3', '任賢齊', '滄海一聲笑')
/2.mp3 任賢齊滄海一聲笑
('/3.mp3', '齊秦', '往事隨風(fēng)')
/3.mp3 齊秦往事隨風(fēng)
('/4.mp3', 'beyond', '光輝歲月 ')
/4.mp3 beyond 光輝歲月
('/5.mp3', '陳慧琳', '記事本')
/5.mp3 陳慧琳記事本
('/6.mp3', '鄧麗君', '但愿人長久')
/6.mp3 鄧麗君但愿人長久

5.sub（）

#把文本中的所有數(shù)字都去掉 
import re

content = '54aKS4yrsoiRS4ixSL2g'
content = re.sub('\d+','',content)
#\d:匹配任意空白字符毛俏，等價于[0-9]
print(content)

獲取li節(jié)點的歌名炭庙，findall寫法：

import re

html ='''<div id="songs-list" >
<h2 class ="title">經(jīng)典老歌</h2>
<p class="introduction">
經(jīng)典老歌列表
</p>
<ul id="list" class="list-group">
<li data-view="2">一路上有你</li>
<li data-view="7">
<a href="/2.mp3" singer="任賢齊">滄海一聲笑</a>
</li>
<li data-view="4" class="active">
<a href="/3.mp3" singer="齊秦">往事隨風(fēng)</a>
</li>
<li data-view ="6">< href="/4.mp3" singer="beyond">光輝歲月 </a></li>
<li data-view ="5">< a href="/5.mp3" singer="陳慧琳">記事本</a></li>
<li data-view ="5">< href="/6.mp3" singer="鄧麗君">但愿人長久</a></li>
</ul>
</div>'''
results = re.findall('<li.*?>\s*?(<a.*?>)?(\w+)(</a>)?\s*?</li>',html,re.S)
for result in results:
    print(result[1])

輸出結(jié)果：一路上有你
滄海一聲笑
往事隨風(fēng)
記事本
但愿人長久

獲取li節(jié)點的歌名，使用sub（）寫法：

import re

html ='''<div id="songs-list" >
<h2 class ="title">經(jīng)典老歌</h2>
<p class="introduction">
經(jīng)典老歌列表
</p>
<ul id="list" class="list-group">
<li data-view="2">一路上有你</li>
<li data-view="7">
<a href="/2.mp3" singer="任賢齊">滄海一聲笑</a>
</li>
<li data-view="4" class="active">
<a href="/3.mp3" singer="齊秦">往事隨風(fēng)</a>
</li>
<li data-view ="6"><a href="/4.mp3" singer="beyond">光輝歲月 </a></li>
<li data-view ="5"><a href="/5.mp3" singer="陳慧琳">記事本</a></li>
<li data-view ="5"><a href="/6.mp3" singer="鄧麗君">但愿人長久</a></li>
</ul>
</div>'''
html = re.sub('<a.*?>|</a>','',html)
#print(html)
results = re.findall('<li.*?>(.*?)</li>',html,re.S)
for result in results:
    print(result.strip())

6.compile（）

compile（）方法煌寇，可以將正則字符串編譯成正則表達(dá)式對象焕蹄，以便在后面的匹配中復(fù)用。

import re

content1 = '2016-12-15 12:00'
content2 = '2016-12-17 12:55'
content3 = '2016-12-22 13:21'
pattern = re.compile('\d{2}:\d{2}')
result1 = re.sub(pattern,'',content1)
result2 = re.sub(pattern,'',content2)
result3 = re.sub(pattern,'',content3)
print(result1,result2,result3)

最后編輯于：2019.04.18 17:08:31

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末阀溶，一起剝皮案震驚了整個濱河市腻脏，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌银锻，老刑警劉巖永品，帶你破解...
沈念sama閱讀 217,509評論 6贊 504
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場離奇詭異徒仓，居然都是意外死亡腐碱，警方通過查閱死者的電腦和手機，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 92,806評論 3贊 394
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門掉弛，熙熙樓的掌柜王于貴愁眉苦臉地迎上來症见，“玉大人，你說我怎么就攤上這事殃饿∧弊鳎” “怎么了？”我有些...
開封第一講書人閱讀 163,875評論 0贊 354
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵乎芳，是天一觀的道長遵蚜。經(jīng)常有香客問我，道長奈惑，這世上最難降的妖魔是什么吭净？我笑而不...
開封第一講書人閱讀 58,441評論 1贊 293
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮肴甸，結(jié)果婚禮上寂殉，老公的妹妹穿的比我還像新娘。我一直安慰自己原在，他們只是感情好友扰，可當(dāng)我...
茶點故事閱讀 67,488評論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布彤叉。她就那樣靜靜地躺著，像睡著了一般村怪。火紅的嫁衣襯著肌膚如雪秽浇。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 51,365評論 1贊 302
城市分裂傳說
那天甚负，我揣著相機與錄音柬焕，去河邊找鬼。笑死腊敲，一個胖子當(dāng)著我的面吹牛击喂，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播碰辅，決...
沈念sama閱讀 40,190評論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼懂昂，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了没宾？” 一聲冷哼從身側(cè)響起凌彬，我...
開封第一講書人閱讀 39,062評論 0贊 276
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎循衰，沒想到半個月后铲敛，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 45,500評論 1贊 314
?護(hù)林員之死
正文獨居荒郊野嶺守林人離奇死亡会钝，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 37,706評論 3贊 335
?白月光啟示錄
正文我和宋清朗相戀三年伐蒋，在試婚紗的時候發(fā)現(xiàn)自己被綠了。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片迁酸。...
茶點故事閱讀 39,834評論 1贊 347
活死人
序言：一個原本活蹦亂跳的男人離奇死亡先鱼，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出奸鬓，到底是詐尸還是另有隱情焙畔，我是刑警寧澤，帶...
沈念sama閱讀 35,559評論 5贊 345
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布串远，位于F島的核電站宏多，受9級特大地震影響，放射性物質(zhì)發(fā)生泄漏澡罚。R本人自食惡果不足惜伸但，卻給世界環(huán)境...
茶點故事閱讀 41,167評論 3贊 328
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望留搔。院中可真熱鬧更胖，春花似錦、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,779評論 0贊 22
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽荣月。三九已至管呵，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間哺窄，已是汗流浹背捐下。一陣腳步聲響...
開封第一講書人閱讀 32,912評論 1贊 269
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留萌业，地道東北人坷襟。一個月前我還...
沈念sama閱讀 47,958評論 2贊 370
代替公主和親
正文我出身青樓，卻偏偏與公主長得像生年，于是被迫代替她去往敵國和親婴程。傳聞我的和親對象是個殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點故事閱讀 44,779評論 2贊 354