目錄
- python爬蟲學(xué)習(xí)-day1
- python爬蟲學(xué)習(xí)-day2正則表達(dá)式
- python爬蟲學(xué)習(xí)-day3-BeautifulSoup
- python爬蟲學(xué)習(xí)-day4-使用lxml+xpath提取內(nèi)容
- python爬蟲學(xué)習(xí)-day5-selenium
- python爬蟲學(xué)習(xí)-day6-ip池
- python爬蟲學(xué)習(xí)-day7-實(shí)戰(zhàn)
正則表達(dá)式(Regular Expression)是一種文本模式,包括普通字符(例如荆忍,a到z之間的字母)和特殊字符(稱為”元字符”)倦挂。正則表達(dá)式使用單個(gè)字符串來描述碰凶、匹配一系列匹配某個(gè)句法規(guī)則的字符串靖秩。
簡(jiǎn)介
我們很可能使用 ? 和 通配符來查找硬盤上的文件纸兔。? 通配符匹配文件名中的 0 個(gè)或 1 個(gè)字符誓沸,而 通配符*匹配零個(gè)或多個(gè)字符姿锭。
簡(jiǎn)單實(shí)例:
^[0-9]+abc$塔鳍,其含義是:
^為匹配輸入字符串的開始位置
[0-9]+匹配多個(gè)數(shù)字,[0-9]匹配單個(gè)數(shù)字呻此,+匹配一個(gè)或者多個(gè)
abc$匹配字符abc并以abc結(jié)尾轮纫,$為匹配輸入字符串的結(jié)束位置。
為什么使用正則表達(dá)式焚鲜?
通過使用正則表達(dá)式掌唾,可以:
- 測(cè)試字符串內(nèi)的模式。例如忿磅,可以測(cè)試輸入字符串糯彬,以查看字符串內(nèi)是否出現(xiàn)電話號(hào)碼模式或信用卡號(hào)碼模式。這稱為數(shù)據(jù)驗(yàn)證葱她。
- 替換文本撩扒。可以使用正則表達(dá)式來識(shí)別文檔中的特定文本吨些,完全刪除該文本或者用其他文本替換它搓谆。
- 基于模式匹配從字符串中提取子字符串『朗可以查找文檔內(nèi)或輸入域內(nèi)特定的文本泉手。
python正則表達(dá)式
re模塊使python語言擁有全部的正則表達(dá)式功能。
re.match函數(shù)
re.match 嘗試從字符串的起始位置匹配一個(gè)模式偶器,如果不是起始位置匹配成功的話斩萌,match()就返回None缝裤。函數(shù)語法:
re.match(pattern, string, flags=0)。
pattern: 匹配的正則表達(dá)式
string: 要匹配的字符串
flags: 標(biāo)志位颊郎,用于控制正則表達(dá)式的匹配方式
我們可以使用group(num)或groups()匹配對(duì)象函數(shù)來獲取匹配表達(dá)式憋飞。
group(num=0): 匹配的整個(gè)表達(dá)式的字符串,
group() 可以一次輸入多個(gè)組號(hào)袭艺,在這種情況下它將返回一個(gè)包含那些組所對(duì)應(yīng)值的元組搀崭。
groups(): 返回一個(gè)包含所有小組字符串的元組叨粘,從 1 到 所含的小組號(hào)猾编。
示例
import re
def testMatch():
str = 'www.runoob.com'
regex = 'www'
print(re.match(regex, str).span())
print(re.match('com', str))
testMatch()
結(jié)果:
span()函數(shù)span() 返回一個(gè)元組包含匹配 (開始,結(jié)束) 的位置。
def test01():
line = 'cats are smarter than dogs'
# .*代表匹配除換行符之外的所有字符
# (.*?)第二個(gè)匹配分組, 非貪戀的
# re.I 忽略大小寫
# re.M 多行模式
matchObj = re.match(r'(.*)are(.*?).*', line, re.M|re.I)
if matchObj:
print('matchObj.group(): ', matchObj.group())
print('matchObj.group(1): ', matchObj.group(1))
print('matchObj.group(2): ', matchObj.group(2))
else:
print('Nothing found!')
test01()
結(jié)果:
re.search函數(shù)
re.search 掃描整個(gè)字符串并返回第一個(gè)成功的匹配升敲。函數(shù)語法:
re.search(pattern, string, flags=0)答倡,參數(shù)含義與match函數(shù)的相同。
示例:
def search():
print(re.search('www', 'www.runoob.com').span())
print(re.search('com', 'www.runoob.com').span())
search()
結(jié)果:
re.match與re.search的區(qū)別
re.match只匹配字符串的開始驴党,如果字符串開始不符合正則表達(dá)式瘪撇,則匹配失敗,函數(shù)返回None港庄;
而re.search匹配整個(gè)字符串倔既,直到找到一個(gè)匹配。
檢索與替換
Python 的 re 模塊提供了re.sub用于替換字符串中的匹配項(xiàng)鹏氧。語法:
re.sub(pattern, repl, string, count=0, flags=0)渤涌。參數(shù):
pattern : 正則中的模式字符串。
repl : 替換的字符串把还,也可為一個(gè)函數(shù)实蓬。
string : 要被查找替換的原始字符串。
count : 模式匹配后替換的最大次數(shù)吊履,默認(rèn) 0 表示替換所有的匹配安皱。
示例:
def sub():
phone = '500-234-222 # 號(hào)碼'
num = re.sub(r'#.*$','', phone)
print('號(hào)碼:' , num)
# \D 匹配非數(shù)字
num = re.sub(r'\D', '', num)
print('號(hào)碼:', num)
結(jié)果:
repl參數(shù)一個(gè)函數(shù)
下面例子將字符串中的匹配的數(shù)字乘以2:
記住要加?號(hào),否則沒有命名成功為group:
def double(matched):
value = int(matched.group('value'))
return str(value * 2)
def sub2():
s = 'A12F45S98'
# ?P<value> 代表為group分組艇炎,添加一個(gè)分組名
print(re.sub('(?P<value>\d+)', double, s))
# 記住要加?號(hào)
print(re.sub('(P<value>\d+)', double, s))
sub2()
結(jié)果:
re.compile函數(shù)
compile 函數(shù)用于編譯正則表達(dá)式酌伊,生成一個(gè)正則表達(dá)式( Pattern )對(duì)象,供 match() 和 search() 這兩個(gè)函數(shù)使用缀踪。
語法格式為:re.compile(pattern[, flags])
參數(shù):
pattern : 一個(gè)字符串形式的正則表達(dá)式
flags : 可選腺晾,表示匹配模式,比如忽略大小寫辜贵,多行模式等悯蝉,具體參數(shù)為:
re.I 忽略大小寫
re.L 表示特殊字符集 \w, \W, \b, \B, \s, \S 依賴于當(dāng)前環(huán)境
re.M 多行模式
re.S 即為 . 并且包括換行符在內(nèi)的任意字符(. 不包括換行符)
re.U 表示特殊字符集 \w, \W, \b, \B, \d, \D, \s, \S 依賴于 Unicode 字符屬性數(shù)據(jù)庫
re.X 為了增加可讀性,忽略空格和 # 后面的注釋
import re
pattern = re.compile(r'world')
match = re.search(pattern, 'hello world')
# <re.Match object; span=(6, 11), match='world'>
## 可以匹配到托慨,是匹配整個(gè)字符串
if match:
print(match.group())
re.findall函數(shù)
在字符串中找到正則表達(dá)式所匹配的所有子串鼻由,并返回一個(gè)列表,如果沒有找到匹配的,則返回空列表蕉世。語法格式為:findall(string, pos, endpos)
import re
a = re.findall(r"a(\d+?)", 'a23b')
print(a)
b = re.findall(r"a(\d+)", 'a23b')
print(b)
'''執(zhí)行結(jié)果:
['2']
['23']'''
a = re.match('<(.*)>', '<H1>title<H1>').group()
print(a)
b = re.match('<(.*?)>', '<H1>title<H1>').group()
print(b)
'''執(zhí)行結(jié)果:
<H1>title<H1>
<H1>'''
a = re.findall(r"a(\d+)b", 'a3333b')
print(a)
b = re.findall(r"a(\d+?)b", 'a3333b')
print(b)
'''
執(zhí)行結(jié)果如下:
['3333']
['3333']
這里需要注意的是如果前后均有限定條件的時(shí)候蔼紧,就不存在什么貪婪模式了,非匹配模式失效狠轻。
'''
爬取豆瓣top50的內(nèi)容
結(jié)合requests奸例、re兩者的內(nèi)容爬取 https://movie.douban.com/top250 中的內(nèi)容,要求抓取名次向楼、影片名稱查吊、國家、導(dǎo)演等字段湖蜕。
示例:
import re
import requests
import csv
# 結(jié)合requests逻卖、re兩者的內(nèi)容爬取 https://movie.douban.com/top250 中的內(nèi)容,要求抓取名次昭抒、影片名稱评也、國家、導(dǎo)演等字段灭返。
def get_html(url):
headers = {}
headers[
'User-Agent'] = 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.108 Safari/537.36'
res = requests.get(url, headers=headers)
res.encoding = 'utf-8'
if res.status_code == 200:
return res.text
return None
def get_info(html):
pattern = re.compile(r'<li.*?<em class="">(.*?)</em>.*?<span class="title">(.*?)</span>.*?導(dǎo)演:(.*?) (.*?)<br>(.*?) / (.*?) / (.*?).*?</p>.*?<div class="star">.*?<span class="rating_num" property="v:average">(.*?)</span>.*?<span>(.*?)人.*?</li>', re.S)
items = re.findall(pattern, html)
for item in items:
index = re.sub(re.compile('\s+'), '', item[0])
movie_name = re.sub(re.compile('\s+'), '', item[1])
country = re.sub(re.compile('\s+'), '', item[5])
# director = re.sub(re.compile('\s+'), '', item[2])
director = item[2].strip()
score = re.sub(re.compile('\s+'), '', item[7])
# 一個(gè)帶有 yield 的函數(shù)就是一個(gè) generator
writer.writerow([item[0], item[1], item[5], item[2], item[7]])
print({
'index': index,
'movie_name': movie_name,
'country': country,
'director': director,
'score': score
})
if __name__ == '__main__':
file = open('G:/NLP/movie.csv', 'w+', encoding='utf-8', newline='')
writer = csv.writer(file)
writer.writerow(['index', 'movie_name', 'country', 'director', 'score'])
for i in range(10):
url = 'https://movie.douban.com/top250?start=%d&filter=' % (i * 25)
html = get_html(url)
get_info(html)
結(jié)果:
PS: 若你覺得可以盗迟、還行、過得去熙含、甚至不太差的話罚缕,可以“關(guān)注或點(diǎn)贊”一下,就此謝過!