學(xué)著用一下框架,參考了小白進(jìn)階之Scrapy第一篇(這篇文章寫的很詳細(xì)),采集頂點(diǎn)小說
- 首先在item里定義字段
name = scrapy.Field() # 小說的名字
author = scrapy.Field() # 小說的作者
novelurl = scrapy.Field() # 小說地址
status = scrapy.Field() # 狀態(tài)
number = scrapy.Field() # 連載字?jǐn)?shù)
category = scrapy.Field() # 文章類別
name_id = scrapy.Field() # 小說編號
- 創(chuàng)建dingdian.py導(dǎo)入需要的模塊
import scrapy
import re
from dingdian.items import DingdianItem
from scrapy.http import Request
from bs4 import BeautifulSoup
- 根據(jù)不同分類的小說作為入口url,觀察特征,編寫start_urls列表
class DingdianSpider(scrapy.Spider):
name = 'dingdian' # 項(xiàng)目名稱,必須是唯一的
allowed_domains = ['23us.com'] # 域名
start_urls = [] # 構(gòu)建各個(gè)類型首頁url的列表
for i in range(1, 11):
url = 'http://www.23us.com/class/%d_1.html' % i
start_urls.append(url)
- 編寫parse函數(shù)解析response構(gòu)建出所有頁面的url
def parse(self, response):
'''
解析每一個(gè)類型的首頁url并返回這個(gè)類型的所有頁面url
:param response:
:return:
'''
pattern = '>1/(\d+)<'
html = response.text
max_num = re.findall(pattern, html)[0] # 構(gòu)建re獲取各個(gè)類型的最大頁面數(shù)
prefix_url = str(response.url)[0:28]
for num in range(1, int(max_num)+1):
url = prefix_url + str(num) + '.html' # 構(gòu)建每一頁的完整url
yield Request(url, callback=self.get_url)
# 將頁面的response交給get_url()函數(shù)處理
首先是根據(jù)正則表達(dá)式獲取最大頁碼值,然后拼接處完整的url,并將response傳遞給下一個(gè)函數(shù).
-
寫一個(gè)get_url()函數(shù)獲取每一頁小說簡介的url,跟原博思路不太一樣的是我先找到小說的簡介的url再去簡介里面獲取需要的信息,因?yàn)槲野l(fā)現(xiàn)簡介里面有需要的所有信息,很詳細(xì).
簡介.png
def get_url(self, response):
'''
根據(jù)每個(gè)頁面的url找到這個(gè)頁面中所有書籍的簡介url
:param response:
:return:
'''
# pattern1 = 'title="(.*?)簡介"' # name的正則表達(dá)式(偷懶用re)
pattern2 = 'a href="(.*?)" title=' # 構(gòu)造簡介的url的正則表達(dá)式
html = response.text
# names = re.findall(pattern1, html)
urls = re.findall(pattern2, html)
for u in urls:
yield Request(u, callback=self.get_all) # 將簡介的url交給get_all處理
本來打算在這個(gè)函數(shù)提取出小說名,根據(jù)title=這個(gè)規(guī)律,但發(fā)現(xiàn)不好傳遞給下一個(gè)函數(shù),就只提取一個(gè)簡介的url好了,下一個(gè)函數(shù)再把所有需要的提取出來.
2017-05-02 獲取name正則.png
- 最后就是get_all(),提取我們需要的所有吧.
def get_all(self, response):
'''
處理頁面,匹配各項(xiàng)內(nèi)容并返回item字典
:param response:
:return:
'''
item = DingdianItem()
html = response.text
name = BeautifulSoup(html, 'lxml').find('h1').get_text().split()[0]
novelurl = BeautifulSoup(html, 'lxml').find('a', class_='read')['href']
bs_table = BeautifulSoup(html, 'lxml').find('table')
author = bs_table.find_all('td')[1].get_text().split()[0]
status = bs_table.find_all('td')[2].get_text().split()[0]
number = bs_table.find_all('td')[4].get_text().split()[0][:-1]
category = bs_table.find_all('td')[0].get_text().split()[0]
name_id = re.findall('down/(\d+)', html)[0]
item['name'] = name
item['author'] = author
item['novelurl'] = novelurl
item['status'] = status
item['number'] = number
item['category'] = category
item['name_id'] = name_id
return item
都是一些簡單的提取代碼,沒什么好解釋的.Spider就寫完了.
- 定義pipeline存入MySQL,剛看了下MySQL語法,這段基本上是copy了原博的代碼,修改settings
-
昨晚run了一下,40秒存入3500多條數(shù)據(jù),大概是120個(gè)頁面,就心滿意足的上床睡覺了.
-
今天早上起來想著把數(shù)據(jù)全爬下來(8點(diǎn)多看小說的人應(yīng)該睡著了吧,這個(gè)時(shí)候服務(wù)器訪問量沒那么大,減輕服務(wù)器壓力).
洗臉?biāo)㈨摶貋戆l(fā)現(xiàn)好多重定向,數(shù)據(jù)總共只有5000多條,還不如40秒勒.在settings里禁止了重定向數(shù)據(jù)也沒有多起來.
- 頂點(diǎn)就先這樣吧,總結(jié)一下,頁面比較簡單,都是靜態(tài)沒有Ajax,好像也沒有限制ip訪問頻率,這個(gè)重定向?qū)ξ襾碚f拎不清.還有一些想法沒精力和能力實(shí)現(xiàn)的:能不能把url放進(jìn)set去重代替MySQL判斷,怎么提高速率(多進(jìn)程?).源碼
- 以前覺得把過程記錄下來好占時(shí)間,但自己看了別人的優(yōu)秀博客學(xué)到了很多,也應(yīng)該多記錄,留下點(diǎn)什么作為傳承(雖然自己水了點(diǎn),莫欺少年窮),也方便自己回顧,再理一遍.