利用python抓取網(wǎng)絡(luò)圖片的步驟:
1.根據(jù)給定的網(wǎng)址獲取網(wǎng)頁(yè)源代碼
2.利用正則表達(dá)式把源代碼中的圖片地址過(guò)濾出來(lái)
3.根據(jù)過(guò)濾出來(lái)的圖片地址下載網(wǎng)絡(luò)圖片
今天我們用(http://www.umei.cc/) 作為事例,教大家爬取美女圖片:
1:打開(kāi): http://www.umei.cc/
2:打開(kāi)網(wǎng)頁(yè)源代碼围橡,找到圖片的正則規(guī)則:
Paste_Image.png
3:開(kāi)始爬取
#-*-coding:utf-8-*-
# 正則
import re
# 網(wǎng)絡(luò)交互
import requests
# 操作系統(tǒng)功能
import os
# 定義一個(gè)類
class Spider:
#定義一個(gè)函數(shù)
def savePageInfo(self, _url, _position, _regX):
# 要爬的網(wǎng)址
url = _url
# 本地地址
position = _position
# 獲取網(wǎng)頁(yè)源代碼
html = requests.get(url).text
# 正則
regX = _regX
pic_url = re.findall(regX,html,re.S)
i = 0
for each in pic_url:
pic = requests.get( each )
print url + each
# 如果文件夾不存在麦撵,則創(chuàng)建一個(gè)文件夾
if not os.path.isdir(position):
os.makedirs(position)
fp = open( position+str(i)+'.jpg', 'wb' )
fp.write(pic.content)
# print position+each
fp.close()
i+=1
#===================網(wǎng)頁(yè)爬取圖片========================
position_end = ''
# 要爬的網(wǎng)址
url = 'http://www.umei.cc/' + position_end
# 本地地址
position = '/Users/edison/Desktop/1/' + position_end
# 正則
regX = '_blank\'><img src=(.*?) t'
#參數(shù) url, 儲(chǔ)存位置, 爬取的正則
spider = Spider()
spider.savePageInfo(url, position, regX)
三分鐘學(xué)會(huì),如囊中取物代态。
工具:PyCharm