昨天學(xué)習(xí)了pyspider的使用
《Python 3 網(wǎng)絡(luò)爬蟲開發(fā)實戰(zhàn)》中介紹了使用pyspider爬取去哪的游記內(nèi)容
然后在書中所介紹的案例的基礎(chǔ)上,今天自己又進行了修改完善,實現(xiàn)了游記內(nèi)容的爬取保存,已經(jīng)驢友們拍攝的美圖的保存。
代碼如下
#!/usr/bin/env python
# -*- encoding: utf-8 -*-
# Created on 2019-08-28 14:52:57
# Project: quna
from pyspider.libs.base_handler import *
import os
DIR_PATH = '/Users/********/Desktop/去哪游記' #本地存放路徑
class Handler(BaseHandler):
crawl_config = {
}
def __init__(self):
self.deal = Deal() #初始化文件處理對象
@every(minutes=24 * 60)
def on_start(self):
self.crawl('http://travel.qunar.com/travelbook/list.htm', callback=self.index_page) #請求主頁
@config(age=10 * 24 * 60 * 60)
def index_page(self, response):
for each in response.doc('li > .tit > a').items():
self.crawl(each.attr.href, callback=self.detail_page, fetch_type='js')
next = response.doc('.next').attr.href
self.crawl(next, callback=self.index_page) #請求詳情
@config(priority=2)
def detail_page(self, response):
images = response.doc('.js_lazyimg').items() #根據(jù)返回的網(wǎng)頁源碼來進行處理,得到所有img標(biāo)簽數(shù)據(jù)
name = response.doc('#booktitle').text() #獲取游記title
dir_path = self.deal.mkDir(name) #在文件目錄下生成游記文件夾
if dir_path:
content = response.doc('#b_panel_schedule').text()#獲取游記內(nèi)容
self.deal.saveContent(content, dir_path, name)#保存游記內(nèi)容在游記文件夾下做盅,txt格式
for img in images:
src = img.attr.src #獲取img src
if src:
file_name = self.deal.getFileName(src) #獲取文件名
self.crawl(src, callback=self.save_img, validate_cert = False,
save={'dir_path': dir_path, 'file_name': file_name})#請求圖片
def save_img(self, response):
content = response.content
dir_path = response.save['dir_path']
file_name = response.save['file_name']
file_path = dir_path + '/' + file_name
self.deal.saveImg(content, file_path)
return file_path
class Deal:
def __init__(self):
self.path = DIR_PATH
if not self.path.endswith('/'):
self.path = self.path + '/'
if not os.path.exists(self.path):
os.makedirs(self.path)
def mkDir(self, path):
path = path.strip()
dir_path = self.path + path
exists = os.path.exists(dir_path)
if not exists:
os.makedirs(dir_path)
return dir_path
else:
return dir_path
def saveImg(self, content, path):
f = open(path, 'wb')
f.write(content)
f.close()
def saveContent(self, content, dir_path, name):
file_name = dir_path + "/" + name + ".txt"
f = open(file_name, "w+")
f.write(content)
def getFileName(self, url):
(url, tempfilename) = os.path.split(url)
return tempfilename
啟動爬蟲
爬蟲開始工作
經(jīng)過早上一個多小時的折騰,可以正常使用了
不過對于pyspider也有了新的認(rèn)識窘哈,這家伙調(diào)試太難吹榴、編碼不舒服(只能VS中寫完復(fù)制過去才能好受點)
個人感覺pyspider簡單,易操作滚婉,適合去爬一些急图筹、數(shù)據(jù)量不大又不復(fù)雜的情況
今天學(xué)習(xí)Scrapy,完事之后再做對比