爬簡(jiǎn)書(shū)首頁(yè)乾忱,一開(kāi)始是想著用Scrapy框架比較方便一點(diǎn)睦柴,結(jié)果遇到了好多坑余指,花了好多時(shí)間解決醉途,必須記錄一下矾瑰。
先貼修改完的完整代碼
from scrapy.spiders import Spider
from scrapy.selector import Selector
from ..items import JianshuItem
class JianshuSpider(Spider):
name = "jianshu_spider"
allowed_domains = []
start_urls = ['http://www.reibang.com/']
def parse(self, response):
sel = Selector(response)
title = sel.xpath("http://div[@class='content']/a[@class='title']/text()").extract()
author = sel.xpath("http://div[@class='author']/div[@class='name']/a/text()").extract()
post_time = sel.xpath("http://div[@class='content']/div/div/span[@class='time']/@data-shared-at").extract()
read = sel.xpath("http://div[@class='content']/div[@class='meta']/a[last()-1]/text()").re(r' ([0-9]*)\n')
comment = sel.xpath("http://div[@class='content']/div[@class='meta']/a[last()]/text()").re(r' ([0-9]*)\n')
like = sel.xpath("http://div[@class='content']/div[@class='meta']/span[1]/text()").extract()
reward = []
div_1s = sel.xpath("http://div[@class='content']/div[@class='meta']")
for div_1 in div_1s:
if div_1.xpath(".//span[2]/text()"):
reward.append(div_1.xpath(".//span[2]/text()").extract()[0])
else:
reward.append(u'0')
subject = []
div_2s = sel.xpath("http://div[@class='content']/div[@class='meta']")
for div_2 in div_2s:
if div_2.xpath(".//span[2]/text()"):
subject.append(div_2.xpath(".//a[@class='collection-tag']/text()").extract()[0])
else:
subject.append(u'none')
item = JianshuItem()
item['title'] = [i for i in title]
item['author'] = [i for i in author]
item['post_time'] = [i for i in post_time]
item['read'] = [i for i in read]
item['comment'] = [i for i in comment]
item['like'] = [i for i in like]
item['reward'] = [i for i in reward]
item['subject'] = [i for i in subject]
yield item
坑一:打賞和收錄主題
并不是所有的文章都是有收錄主題和打賞的。
標(biāo)準(zhǔn)的就是第二張圖片的樣子隘擎,這樣子我是最喜歡的殴穴。
沒(méi)有打賞和收錄主題的怎么辦??采幌?
一開(kāi)始腦子一片空白劲够,不知道該怎么解決,就去看別人的代碼休傍,發(fā)現(xiàn)了人家用了循環(huán)就解決了征绎,好,那就用循環(huán)磨取,但是用XPath怎么實(shí)現(xiàn)呢人柿?腦子一片空白,想不出來(lái)忙厌。后來(lái)想到去看Scrapy的官方文檔凫岖,查到了。(這里再次印證了慰毅,官方文檔是最棒的0亍)
怎么解決?上代碼
reward = []
div_1s = sel.xpath("http://div[@class='content']/div[@class='meta']")
for div_1 in div_1s:
if div_1.xpath(".//span[2]/text()"):
reward.append(div_1.xpath(".//span[2]/text()").extract()[0])
else:
reward.append(u'0')
subject = []
div_2s = sel.xpath("http://div[@class='content']/div[@class='meta']")
for div_2 in div_2s:
if div_2.xpath(".//span[2]/text()"):
subject.append(div_2.xpath(".//a[@class='collection-tag']/text()").extract()[0])
else:
subject.append(u'none')
很簡(jiǎn)單是不是汹胃,但是沒(méi)有接觸過(guò)第一次解決就是無(wú)從下手婶芭,想了好久。
坑二:沒(méi)有收錄主題的文章着饥,a標(biāo)簽會(huì)少一個(gè)O!宰掉!
先看圖
其實(shí)這個(gè)問(wèn)題我應(yīng)該早就注意到的呵哨,還是經(jīng)驗(yàn)太少了,掉坑里了轨奄,剛開(kāi)始一直摸不著頭腦到底是哪里出錯(cuò)了孟害,為什么我爬出來(lái)的評(píng)論就是少一個(gè)。
分析一下第二章標(biāo)準(zhǔn)的格式挪拟,前三個(gè)a標(biāo)簽分別是收錄的主題挨务、閱讀數(shù)和評(píng)論數(shù),后兩個(gè)span標(biāo)簽分別是贊數(shù)和打賞數(shù)玉组。如果沒(méi)有收錄主題谎柄,那么會(huì)沒(méi)有第一個(gè)a標(biāo)簽。
我之前的是這么寫(xiě)的
read = sel.xpath("http://div[@class='content']/div[@class='meta']/a[2]/text()").extract()
comment = sel.xpath("http://div[@class='content']/div[@class='meta']/a[3]/text()").extract()
改成
read = sel.xpath("http://div[@class='content']/div[@class='meta']/a[last()-1]/text()").re(r' ([0-9]*)\n')
comment = sel.xpath("http://div[@class='content']/div[@class='meta']/a[last()]/text()").re(r' ([0-9]*)\n')
這樣子就能解決了惯雳。
坑三:格式問(wèn)題
這里的數(shù)字朝巫,是由空格+數(shù)字+換行,其實(shí)很好解決石景,用正則表達(dá)式劈猿,可是該怎么用呢拙吉,再一次我的愚蠢支配了我,我就去百度了糙臼。后來(lái)突然想到看文檔庐镐。看文檔变逃,看文檔必逆,看文檔!重要的事情說(shuō)三遍揽乱!
Selector
有.re()
的方法名眉!然后就自己寫(xiě)正則表達(dá)式啊,自己還是太菜了凰棉,寫(xiě)出了怎么還是這么多空格換行损拢,氣死我了!就去查撒犀,最后發(fā)現(xiàn)了這個(gè)福压。
.re(r' ([0-9]*)\n')
這個(gè)模式可以匹配出數(shù)字并把前面的空格和后面的換行符刪掉。好了或舞,這就是我爬簡(jiǎn)書(shū)首頁(yè)所有的心路歷程了荆姆!
第一次獨(dú)立的把所有的問(wèn)題解決了,獨(dú)立解決問(wèn)題還是蠻難的映凳!群里的小伙伴給了我一點(diǎn)啟發(fā)哈哈哈胆筒!
通過(guò)這次練習(xí),掌握了好多東西诈豌,至少再次面對(duì)框架的時(shí)候不會(huì)沒(méi)頭沒(méi)腦了仆救!
最后貼上結(jié)果吧