下方有太過...不含蓄的畫面 快閃開
9150e4e5ly1fs3g0aqj8nj20a705c0tm.jpg
事情的起因是這樣的
emmmmm向來慷慨大度的我 怎么能破壞了群友的性質(zhì)纯路,于是乎~拿起鍵盤 摔起鼠標(biāo) 來干
9150e4e5gy1fs3fyxur15j205i03naa3.jpg
同時(shí) 本人剛簡書剛開通兩天,來的大哥大姐們(小姐姐誒)覺得不錯(cuò)~可以點(diǎn)個(gè)關(guān)注后面的內(nèi)容敬請期待
成果圖
QQ圖片20180608131951.jpg
[圖片上傳中...(QQ截圖20180608132309.png-ec0f3b-1528435524958-0)]
進(jìn)行翻頁
QQ截圖20180608132504.png
hahah.png
這樣我們找到了 每翻一頁 url的變化
現(xiàn)在我們分析一下單頁圖片爬取
chrome 瀏覽器 按f12 打開開發(fā)者工具
點(diǎn)擊圖片進(jìn)去
chatu2.png
那么我們采用兩個(gè)函數(shù)來解決這個(gè)問題
第一步獲得主頁上的所有的合集的url
header ={'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.181 Safari/537.36', }
first = 'http://www.meizitu.com/a/more_1.html'
def scrawl(url):
zy_url = url
print(url)
zy_rs = requests.get(url,headers = header)
zy_rs.encoding='gb2312' 1
print(zy_rs.status_code)
print(zy_rs.text)
p = re.compile(r'http://www.meizitu.com/a/(\d+).html')
for x in p.finditer(zy_rs.text):
img_url =x.group(1)
zhuye='http://www.meizitu.com/a/'+str(img_url)+'.html'
#下方函為合集中圖片的保存下載
img_scrawl(zhuye)
print('正在進(jìn)行下一頁的下載')
第二步 點(diǎn)擊合集中所有圖片url的構(gòu)造方式,并用正則表達(dá)式提取出來后進(jìn)行保存下載
def img_scrawl(url):
img_url_rs =requests.get(url)
img_url_rs.encoding='gb2312'
p = re.compile(r'<img alt="(.*?)" src="(.*?)" />')
for x in p.finditer(img_url_rs.text):
name = x.group(1)#獲得圖片的url
load_url = x.group(2)#獲得圖片的名稱
img = requests.get(load_url,stream=True,headers=header)
if img.status_code==200: #請求為200時(shí)返回正常
global n #記錄圖片的下載數(shù)量
n=n+1
print(n)
with open(name+'.jpg','wb') as f:
for chunk in img:
f.write(chunk)
第三步第一個(gè)主頁下載完之后需要翻頁
那么
chatu4.png
p = re.compile(r"<li><a href='(.*?)'>下一頁</a></li>")
for x in p.finditer(zy_rs.text):
print('開始下載')
pipei_ =x.group(1)
print(pipei +'開始下載')
uuu = 'http://www.meizitu.com/a/'+pipei_
scrawl(uuu)
把這段代碼放到第一步代碼的后面 于是形成了遞歸
完整代碼如下表所示
import re
import requests
#"http://www.meizitu.com/a/5578.html"
header ={'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.181 Safari/537.36',
}
proxies = { "http": "http://171.37.141.89:9797"}
def scrawl(url):
zy_url = url
print(url)
zy_rs = requests.get(url,headers = header)
zy_rs.encoding='gb2312'
print(zy_rs.status_code)
print(zy_rs.text)
print('123')
p = re.compile(r'http://www.meizitu.com/a/(\d+).html')
#l = p.findall(zyrs.text)
for x in p.finditer(zy_rs.text):
img_url =x.group(1)
zhuye='http://www.meizitu.com/a/'+str(img_url)+'.html'
img_scrawl(zhuye)
#<a href="/a/more_1.html">下一頁</a>
print('正在進(jìn)行下一頁的下載')
p = re.compile(r"<li><a href='(.*?)'>下一頁</a></li>")
for x in p.finditer(zy_rs.text):
print('開始下載')
pipei_ =x.group(1)
print(pipei +'開始下載')
uuu = 'http://www.meizitu.com/a/'+pipei_
scrawl(uuu)
def img_scrawl(url):
img_url_rs =requests.get(url)
img_url_rs.encoding='gb2312'
p = re.compile(r'<img alt="(.*?)" src="(.*?)" />')
for x in p.finditer(img_url_rs.text):
name = x.group(1)
load_url = x.group(2)
print(name)
print(load_url)
img = requests.get(load_url,stream=True,headers=header)
if img.status_code==200:
global n
n=n+1
print(n)
with open(name+'.jpg','wb') as f:
for chunk in img:
f.write(chunk)
aa = 'http://www.meizitu.com/a/more_1.html'
n=0
continue_ =True
scrawl(aa)
有任何問題下方評論扰法,會(huì)回復(fù)的~感謝