2017-5-2Scrapy爬頂點(diǎn)

學(xué)著用一下框架,參考了小白進(jìn)階之Scrapy第一篇(這篇文章寫的很詳細(xì)),采集頂點(diǎn)小說

首先在item里定義字段

    name = scrapy.Field()  # 小說的名字
    author = scrapy.Field()  # 小說的作者
    novelurl = scrapy.Field()  # 小說地址
    status = scrapy.Field()  # 狀態(tài)
    number = scrapy.Field()  # 連載字?jǐn)?shù)
    category = scrapy.Field()  # 文章類別
    name_id = scrapy.Field()  # 小說編號

創(chuàng)建dingdian.py導(dǎo)入需要的模塊

import scrapy
import re
from dingdian.items import DingdianItem
from scrapy.http import Request
from bs4 import BeautifulSoup

根據(jù)不同分類的小說作為入口url,觀察特征,編寫start_urls列表

class DingdianSpider(scrapy.Spider):

    name = 'dingdian'  # 項(xiàng)目名稱,必須是唯一的
    allowed_domains = ['23us.com']  # 域名
    start_urls = []  # 構(gòu)建各個(gè)類型首頁url的列表
    for i in range(1, 11):
        url = 'http://www.23us.com/class/%d_1.html' % i
        start_urls.append(url)

編寫parse函數(shù)解析response構(gòu)建出所有頁面的url

    def parse(self, response):
        '''
        解析每一個(gè)類型的首頁url并返回這個(gè)類型的所有頁面url
        :param response: 
        :return: 
        '''
        pattern = '>1/(\d+)<'
        html = response.text
        max_num = re.findall(pattern, html)[0]  # 構(gòu)建re獲取各個(gè)類型的最大頁面數(shù)
        prefix_url = str(response.url)[0:28]
        for num in range(1, int(max_num)+1):
            url = prefix_url + str(num) + '.html'  # 構(gòu)建每一頁的完整url
            yield Request(url, callback=self.get_url)
            # 將頁面的response交給get_url()函數(shù)處理

首先是根據(jù)正則表達(dá)式獲取最大頁碼值,然后拼接處完整的url,并將response傳遞給下一個(gè)函數(shù).

寫一個(gè)get_url()函數(shù)獲取每一頁小說簡介的url,跟原博思路不太一樣的是我先找到小說的簡介的url再去簡介里面獲取需要的信息,因?yàn)槲野l(fā)現(xiàn)簡介里面有需要的所有信息,很詳細(xì).

簡介.png

    def get_url(self, response):
        '''
        根據(jù)每個(gè)頁面的url找到這個(gè)頁面中所有書籍的簡介url
        :param response: 
        :return: 
        '''
        # pattern1 = 'title="(.*?)簡介"'  # name的正則表達(dá)式(偷懶用re)
        pattern2 = 'a href="(.*?)" title='  # 構(gòu)造簡介的url的正則表達(dá)式
        html = response.text
        # names = re.findall(pattern1, html)
        urls = re.findall(pattern2, html)
        for u in urls:
            yield Request(u, callback=self.get_all)  # 將簡介的url交給get_all處理

本來打算在這個(gè)函數(shù)提取出小說名,根據(jù)title=這個(gè)規(guī)律,但發(fā)現(xiàn)不好傳遞給下一個(gè)函數(shù),就只提取一個(gè)簡介的url好了,下一個(gè)函數(shù)再把所有需要的提取出來.

2017-05-02 獲取name正則.png

最后就是get_all(),提取我們需要的所有吧.

    def get_all(self, response):
        '''
        處理頁面,匹配各項(xiàng)內(nèi)容并返回item字典
        :param response: 
        :return: 
        '''
        item = DingdianItem()
        html = response.text
        name = BeautifulSoup(html, 'lxml').find('h1').get_text().split()[0]
        novelurl = BeautifulSoup(html, 'lxml').find('a', class_='read')['href']
        bs_table = BeautifulSoup(html, 'lxml').find('table')
        author = bs_table.find_all('td')[1].get_text().split()[0]
        status = bs_table.find_all('td')[2].get_text().split()[0]
        number = bs_table.find_all('td')[4].get_text().split()[0][:-1]
        category = bs_table.find_all('td')[0].get_text().split()[0]
        name_id = re.findall('down/(\d+)', html)[0]
        item['name'] = name
        item['author'] = author
        item['novelurl'] = novelurl
        item['status'] = status
        item['number'] = number
        item['category'] = category
        item['name_id'] = name_id
        return item

都是一些簡單的提取代碼,沒什么好解釋的.Spider就寫完了.

定義pipeline存入MySQL,剛看了下MySQL語法,這段基本上是copy了原博的代碼,修改settings
昨晚run了一下,40秒存入3500多條數(shù)據(jù),大概是120個(gè)頁面,就心滿意足的上床睡覺了.
今天早上起來想著把數(shù)據(jù)全爬下來(8點(diǎn)多看小說的人應(yīng)該睡著了吧,這個(gè)時(shí)候服務(wù)器訪問量沒那么大,減輕服務(wù)器壓力).

洗臉?biāo)㈨摶貋戆l(fā)現(xiàn)好多重定向,數(shù)據(jù)總共只有5000多條,還不如40秒勒.在settings里禁止了重定向數(shù)據(jù)也沒有多起來.
頂點(diǎn)就先這樣吧,總結(jié)一下,頁面比較簡單,都是靜態(tài)沒有Ajax,好像也沒有限制ip訪問頻率,這個(gè)重定向?qū)ξ襾碚f拎不清.還有一些想法沒精力和能力實(shí)現(xiàn)的:能不能把url放進(jìn)set去重代替MySQL判斷,怎么提高速率(多進(jìn)程?).源碼
以前覺得把過程記錄下來好占時(shí)間,但自己看了別人的優(yōu)秀博客學(xué)到了很多,也應(yīng)該多記錄,留下點(diǎn)什么作為傳承(雖然自己水了點(diǎn),莫欺少年窮),也方便自己回顧,再理一遍.

最后編輯于：2017.12.07 02:12:57

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末嘱吗，一起剝皮案震驚了整個(gè)濱河市，隨后出現(xiàn)的幾起案子帚戳，更是在濱河造成了極大的恐慌棵帽，老刑警劉巖妹卿，帶你破解...
沈念sama閱讀 216,919評論 6贊 502
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件旺矾，死亡現(xiàn)場離奇詭異，居然都是意外死亡夺克，警方通過查閱死者的電腦和手機(jī)箕宙，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 92,567評論 3贊 392
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來铺纽，“玉大人柬帕，你說我怎么就攤上這事〗泼牛” “怎么了陷寝？”我有些...
開封第一講書人閱讀 163,316評論 0贊 353
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長其馏。經(jīng)常有香客問我凤跑，道長，這世上最難降的妖魔是什么叛复？我笑而不...
開封第一講書人閱讀 58,294評論 1贊 292
?港島之戀（遺憾婚禮）
正文為了忘掉前任仔引，我火速辦了婚禮，結(jié)果婚禮上褐奥，老公的妹妹穿的比我還像新娘咖耘。我一直安慰自己，他們只是感情好撬码，可當(dāng)我...
茶點(diǎn)故事閱讀 67,318評論 6贊 390
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布儿倒。她就那樣靜靜地躺著，像睡著了一般耍群。火紅的嫁衣襯著肌膚如雪义桂。梳的紋絲不亂的頭發(fā)上找筝，一...
開封第一講書人閱讀 51,245評論 1贊 299
城市分裂傳說
那天蹈垢，我揣著相機(jī)與錄音，去河邊找鬼袖裕。笑死曹抬，一個(gè)胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的急鳄。我是一名探鬼主播谤民，決...
沈念sama閱讀 40,120評論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼堰酿，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了张足？” 一聲冷哼從身側(cè)響起触创，我...
開封第一講書人閱讀 38,964評論 0贊 275
萬榮殺人案實(shí)錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎为牍，沒想到半個(gè)月后哼绑，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 45,376評論 1贊 313
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡碉咆，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,592評論 2贊 333
?白月光啟示錄
正文我和宋清朗相戀三年抖韩，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片疫铜。...
茶點(diǎn)故事閱讀 39,764評論 1贊 348
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡茂浮，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出壳咕，到底是詐尸還是另有隱情席揽，我是刑警寧澤，帶...
沈念sama閱讀 35,460評論 5贊 344
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布谓厘，位于F島的核電站驹尼，受9級特大地震影響，放射性物質(zhì)發(fā)生泄漏庞呕。R本人自食惡果不足惜新翎，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,070評論 3贊 327
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望住练。院中可真熱鬧地啰，春花似錦、人聲如沸讲逛。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,697評論 0贊 22
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽盏混。三九已至蔚鸥，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間许赃，已是汗流浹背止喷。一陣腳步聲響...
開封第一講書人閱讀 32,846評論 1贊 269
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留混聊，地道東北人弹谁。一個(gè)月前我還...
沈念sama閱讀 47,819評論 2贊 370
代替公主和親
正文我出身青樓，卻偏偏與公主長得像，于是被迫代替她去往敵國和親预愤。傳聞我的和親對象是個(gè)殘疾皇子沟于，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 44,665評論 2贊 354

2017-5-2Scrapy爬頂點(diǎn)

推薦閱讀更多精彩內(nèi)容