一:前言
嘀嘀嘀,上車請(qǐng)刷卡舔琅。昨天看到了不錯(cuò)的圖片分享網(wǎng)——花瓣等恐,里面的圖片質(zhì)量還不錯(cuò),所以利用selenium+xpath我把它的妹子的欄目下爬取了下來,以圖片欄目名稱給文件夾命名分類保存到電腦中课蔬。這個(gè)妹子主頁http://huaban.com/boards/favorite/beauty 是動(dòng)態(tài)加載的囱稽,如果想獲取更多內(nèi)容可以模擬下拉,這樣就可以更多的圖片資源二跋。這種之前爬蟲中也做過战惊,但是因?yàn)榫W(wǎng)速不夠快所以我就抓了19個(gè)欄目,一共500多張美圖同欠,也已經(jīng)很滿意了样傍。
先看看效果:
二:運(yùn)行環(huán)境
- IDE:Pycharm
- Python3.6
- lxml 3.7.2
- Selenium 3.4.0
- requests 2.12.4
三:實(shí)例分析
1.這次爬蟲我開始做的思路是:進(jìn)入這個(gè)網(wǎng)頁http://huaban.com/boards/favorite/beauty 然后來獲取所有的圖片欄目對(duì)應(yīng)網(wǎng)址,然后進(jìn)入每一個(gè)網(wǎng)頁中去獲取全部圖片铺遂。(如下圖所示)
2.但是爬取獲取的圖片分辨率是236x354衫哥,圖片質(zhì)量不夠高,但是那個(gè)時(shí)候已經(jīng)是晚上1點(diǎn)30之后了襟锐,所以第二天做了另一個(gè)版本:在這個(gè)基礎(chǔ)上再進(jìn)入每個(gè)縮略圖對(duì)應(yīng)的網(wǎng)頁撤逢,再抓取像下面這樣高清的圖片。
四:實(shí)戰(zhàn)代碼
1.第一步導(dǎo)入本次爬蟲需要的模塊
__author__ = '布咯咯_rieuse'
from selenium.webdriver.common.by import By
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.support.ui import WebDriverWait
from selenium import webdriver
import requests
import lxml.html
import os
2.下面是設(shè)置webdriver的種類粮坞,就是使用什么瀏覽器進(jìn)行模擬蚊荣,可以使用火狐來看它模擬的過程,也可以是無頭瀏覽器PhantomJS來快速獲取資源莫杈,['--load-images=false', '--disk-cache=true']這個(gè)意思是模擬瀏覽的時(shí)候不加載圖片和緩存互例,這樣運(yùn)行速度會(huì)加快一些。WebDriverWait標(biāo)明最大等待瀏覽器加載為10秒筝闹,set_window_size可以設(shè)置一下模擬瀏覽網(wǎng)頁的大小媳叨。有些網(wǎng)站如果大小不到位,那么一些資源就不加載出來关顷。
# SERVICE_ARGS = ['--load-images=false', '--disk-cache=true']
# browser = webdriver.PhantomJS(service_args=SERVICE_ARGS)
browser = webdriver.Firefox()
wait = WebDriverWait(browser, 10)
browser.set_window_size(1400, 900)
3.parser(url, param)這個(gè)函數(shù)用來解析網(wǎng)頁糊秆,后面有幾次都用用到這些代碼,所以直接寫一個(gè)函數(shù)會(huì)讓代碼看起來更整潔有序议双。函數(shù)有兩個(gè)參數(shù):一個(gè)是網(wǎng)址痘番,另一個(gè)是顯性等待代表的部分,這個(gè)可以是網(wǎng)頁中的某些板塊平痰,按鈕汞舱,圖片等等...
def parser(url, param):
browser.get(url)
wait.until(EC.presence_of_element_located((By.CSS_SELECTOR, param)))
html = browser.page_source
doc = lxml.html.fromstring(html)
return doc
4.下面的代碼就是解析本次主頁面http://huaban.com/boards/favorite/beauty/ 然后獲取到每個(gè)欄目的網(wǎng)址和欄目的名稱,使用xpath來獲取欄目的網(wǎng)頁時(shí)宗雇,進(jìn)入網(wǎng)頁開發(fā)者模式后兵拢,如圖所示進(jìn)行操作。之后需要用欄目名稱在電腦中建立文件夾逾礁,所以在這個(gè)網(wǎng)頁中要獲取到欄目的名稱说铃,這里遇到一個(gè)問題访惜,一些名稱不符合文件命名規(guī)則要剔除,我這里就是一個(gè) * 影響了腻扇。
def get_main_url():
print('打開主頁搜尋鏈接中...')
try:
doc = parser('http://huaban.com/boards/favorite/beauty/', '#waterfall')
name = doc.xpath('//*[@id="waterfall"]/div/a[1]/div[2]/h3/text()')
u = doc.xpath('//*[@id="waterfall"]/div/a[1]/@href')
for item, fileName in zip(u, name):
main_url = 'http://huaban.com' + item
print('主鏈接已找到' + main_url)
if '*' in fileName:
fileName = fileName.replace('*', '')
download(main_url, fileName)
except Exception as e:
print(e)
5.前面已經(jīng)獲取到欄目的網(wǎng)頁和欄目的名稱债热,這里就需要對(duì)欄目的網(wǎng)頁分析,進(jìn)入欄目網(wǎng)頁后幼苛,只是一些縮略圖窒篱,我們不想要這些低分辨率的圖片,所以要再進(jìn)入每個(gè)縮略圖中舶沿,解析網(wǎng)頁獲取到真正的高清圖片網(wǎng)址墙杯。這里也有一個(gè)地方比較坑人,就是一個(gè)欄目中括荡,不同的圖片存放dom格式不一樣高镐,所以我這樣做
img_url = doc.xpath('//*[@id="baidu_image_holder"]/a/img/@src')
img_url2 = doc.xpath('//*[@id="baidu_image_holder"]/img/@src')
這就把兩種dom格式中的圖片地址都獲取了,然后把兩個(gè)地址list合并一下畸冲。img_url +=img_url2
在本地創(chuàng)建文件夾使用filename = 'image\\{}\\'.format(fileName) + str(i) + '.jpg'
表示文件保存在與這個(gè)爬蟲代碼同級(jí)目錄image下嫉髓,然后獲取的圖片保存在image中按照之前獲取的欄目名稱的文件夾中。
def download(main_url, fileName):
print('-------準(zhǔn)備下載中-------')
try:
doc = parser(main_url, '#waterfall')
if not os.path.exists('image\\' + fileName):
print('創(chuàng)建文件夾...')
os.makedirs('image\\' + fileName)
link = doc.xpath('//*[@id="waterfall"]/div/a/@href')
# print(link)
i = 0
for item in link:
i += 1
minor_url = 'http://huaban.com' + item
doc = parser(minor_url, '#pin_view_page')
img_url = doc.xpath('//*[@id="baidu_image_holder"]/a/img/@src')
img_url2 = doc.xpath('//*[@id="baidu_image_holder"]/img/@src')
img_url +=img_url2
try:
url = 'http:' + str(img_url[0])
print('正在下載第' + str(i) + '張圖片邑闲,地址:' + url)
r = requests.get(url)
filename = 'image\\{}\\'.format(fileName) + str(i) + '.jpg'
with open(filename, 'wb') as fo:
fo.write(r.content)
except Exception:
print('出錯(cuò)了算行!')
except Exception:
print('出錯(cuò)啦!')
if __name__ == '__main__':
get_main_url()
五:總結(jié)
這次爬蟲繼續(xù)練習(xí)了Selenium和xpath的使用,在網(wǎng)頁分析的時(shí)候也遇到很多問題苫耸,只有不斷練習(xí)才能把自己不會(huì)部分減少州邢,當(dāng)然這次爬取了500多張妹紙還是挺養(yǎng)眼的。
貼出我的github地址褪子,我的爬蟲代碼和學(xué)習(xí)的基礎(chǔ)部分都放進(jìn)去了量淌,有喜歡的朋友一起學(xué)習(xí)交流吧!github.com/rieuse/learnPython