簡(jiǎn)書(shū)首頁(yè)的坑

爬簡(jiǎn)書(shū)首頁(yè)乾忱,一開(kāi)始是想著用Scrapy框架比較方便一點(diǎn)睦柴,結(jié)果遇到了好多坑余指,花了好多時(shí)間解決醉途,必須記錄一下矾瑰。

先貼修改完的完整代碼

from scrapy.spiders import Spider
from scrapy.selector import Selector

from ..items import JianshuItem


class JianshuSpider(Spider):
    name = "jianshu_spider"

    allowed_domains = []

    start_urls = ['http://www.reibang.com/']

    def parse(self, response):
        sel = Selector(response)

        title = sel.xpath("http://div[@class='content']/a[@class='title']/text()").extract()
        author = sel.xpath("http://div[@class='author']/div[@class='name']/a/text()").extract()
        post_time = sel.xpath("http://div[@class='content']/div/div/span[@class='time']/@data-shared-at").extract()
        read = sel.xpath("http://div[@class='content']/div[@class='meta']/a[last()-1]/text()").re(r' ([0-9]*)\n')
        comment = sel.xpath("http://div[@class='content']/div[@class='meta']/a[last()]/text()").re(r' ([0-9]*)\n')
        like = sel.xpath("http://div[@class='content']/div[@class='meta']/span[1]/text()").extract()

        reward = []
        div_1s = sel.xpath("http://div[@class='content']/div[@class='meta']")
        for div_1 in div_1s:
            if div_1.xpath(".//span[2]/text()"):
                reward.append(div_1.xpath(".//span[2]/text()").extract()[0])
            else:
                reward.append(u'0')
        subject = []
        div_2s = sel.xpath("http://div[@class='content']/div[@class='meta']")
        for div_2 in div_2s:
            if div_2.xpath(".//span[2]/text()"):
                subject.append(div_2.xpath(".//a[@class='collection-tag']/text()").extract()[0])
            else:
                subject.append(u'none')

        item = JianshuItem()

        item['title'] = [i for i in title]
        item['author'] = [i for i in author]
        item['post_time'] = [i for i in post_time]
        item['read'] = [i for i in read]
        item['comment'] = [i for i in comment]
        item['like'] = [i for i in like]
        item['reward'] = [i for i in reward]
        item['subject'] = [i for i in subject]

        yield item

坑一:打賞和收錄主題
并不是所有的文章都是有收錄主題和打賞的。

image.png
image.png
image.png

標(biāo)準(zhǔn)的就是第二張圖片的樣子隘擎,這樣子我是最喜歡的殴穴。

沒(méi)有打賞和收錄主題的怎么辦??采幌?

一開(kāi)始腦子一片空白劲够,不知道該怎么解決,就去看別人的代碼休傍,發(fā)現(xiàn)了人家用了循環(huán)就解決了征绎,好,那就用循環(huán)磨取,但是用XPath怎么實(shí)現(xiàn)呢人柿?腦子一片空白,想不出來(lái)忙厌。后來(lái)想到去看Scrapy的官方文檔凫岖,查到了。(這里再次印證了慰毅,官方文檔是最棒的0亍)
怎么解決?上代碼

        reward = []
        div_1s = sel.xpath("http://div[@class='content']/div[@class='meta']")
        for div_1 in div_1s:
            if div_1.xpath(".//span[2]/text()"):
                reward.append(div_1.xpath(".//span[2]/text()").extract()[0])
            else:
                reward.append(u'0')
        subject = []
        div_2s = sel.xpath("http://div[@class='content']/div[@class='meta']")
        for div_2 in div_2s:
            if div_2.xpath(".//span[2]/text()"):
                subject.append(div_2.xpath(".//a[@class='collection-tag']/text()").extract()[0])
            else:
                subject.append(u'none')

很簡(jiǎn)單是不是汹胃,但是沒(méi)有接觸過(guò)第一次解決就是無(wú)從下手婶芭,想了好久。

坑二:沒(méi)有收錄主題的文章着饥,a標(biāo)簽會(huì)少一個(gè)O!宰掉!
先看圖

image.png
image.png

其實(shí)這個(gè)問(wèn)題我應(yīng)該早就注意到的呵哨,還是經(jīng)驗(yàn)太少了,掉坑里了轨奄,剛開(kāi)始一直摸不著頭腦到底是哪里出錯(cuò)了孟害,為什么我爬出來(lái)的評(píng)論就是少一個(gè)。
分析一下第二章標(biāo)準(zhǔn)的格式挪拟,前三個(gè)a標(biāo)簽分別是收錄的主題挨务、閱讀數(shù)和評(píng)論數(shù),后兩個(gè)span標(biāo)簽分別是贊數(shù)和打賞數(shù)玉组。如果沒(méi)有收錄主題谎柄,那么會(huì)沒(méi)有第一個(gè)a標(biāo)簽。

我之前的是這么寫(xiě)的

read = sel.xpath("http://div[@class='content']/div[@class='meta']/a[2]/text()").extract()
comment = sel.xpath("http://div[@class='content']/div[@class='meta']/a[3]/text()").extract()
     

改成

read = sel.xpath("http://div[@class='content']/div[@class='meta']/a[last()-1]/text()").re(r' ([0-9]*)\n')
comment = sel.xpath("http://div[@class='content']/div[@class='meta']/a[last()]/text()").re(r' ([0-9]*)\n')

這樣子就能解決了惯雳。

坑三:格式問(wèn)題

image.png
image.png

這里的數(shù)字朝巫,是由空格+數(shù)字+換行,其實(shí)很好解決石景,用正則表達(dá)式劈猿,可是該怎么用呢拙吉,再一次我的愚蠢支配了我,我就去百度了糙臼。后來(lái)突然想到看文檔庐镐。看文檔变逃,看文檔必逆,看文檔!重要的事情說(shuō)三遍揽乱!

image.png
Selector.re()的方法名眉!
然后就自己寫(xiě)正則表達(dá)式啊,自己還是太菜了凰棉,寫(xiě)出了怎么還是這么多空格換行损拢,氣死我了!就去查撒犀,最后發(fā)現(xiàn)了這個(gè)福压。
.re(r' ([0-9]*)\n')這個(gè)模式可以匹配出數(shù)字并把前面的空格和后面的換行符刪掉。
好了或舞,這就是我爬簡(jiǎn)書(shū)首頁(yè)所有的心路歷程了荆姆!
第一次獨(dú)立的把所有的問(wèn)題解決了,獨(dú)立解決問(wèn)題還是蠻難的映凳!群里的小伙伴給了我一點(diǎn)啟發(fā)哈哈哈胆筒!
通過(guò)這次練習(xí),掌握了好多東西诈豌,至少再次面對(duì)框架的時(shí)候不會(huì)沒(méi)頭沒(méi)腦了仆救!
最后貼上結(jié)果吧
image.png

image.png
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市矫渔,隨后出現(xiàn)的幾起案子彤蔽,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 211,042評(píng)論 6 490
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件鹰霍,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī)质帅,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 89,996評(píng)論 2 384
  • 文/潘曉璐 我一進(jìn)店門(mén),熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)跷敬,“玉大人麻车,你說(shuō)我怎么就攤上這事∈芄” “怎么了碌补?”我有些...
    開(kāi)封第一講書(shū)人閱讀 156,674評(píng)論 0 345
  • 文/不壞的土叔 我叫張陵虏束,是天一觀的道長(zhǎng)。 經(jīng)常有香客問(wèn)我厦章,道長(zhǎng)镇匀,這世上最難降的妖魔是什么? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 56,340評(píng)論 1 283
  • 正文 為了忘掉前任袜啃,我火速辦了婚禮汗侵,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘群发。我一直安慰自己晰韵,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,404評(píng)論 5 384
  • 文/花漫 我一把揭開(kāi)白布熟妓。 她就那樣靜靜地躺著雪猪,像睡著了一般。 火紅的嫁衣襯著肌膚如雪起愈。 梳的紋絲不亂的頭發(fā)上只恨,一...
    開(kāi)封第一講書(shū)人閱讀 49,749評(píng)論 1 289
  • 那天,我揣著相機(jī)與錄音抬虽,去河邊找鬼官觅。 笑死,一個(gè)胖子當(dāng)著我的面吹牛斥赋,可吹牛的內(nèi)容都是我干的缰猴。 我是一名探鬼主播,決...
    沈念sama閱讀 38,902評(píng)論 3 405
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼疤剑,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼滑绒!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起隘膘,我...
    開(kāi)封第一講書(shū)人閱讀 37,662評(píng)論 0 266
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤疑故,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后弯菊,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體纵势,經(jīng)...
    沈念sama閱讀 44,110評(píng)論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,451評(píng)論 2 325
  • 正文 我和宋清朗相戀三年管钳,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了钦铁。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 38,577評(píng)論 1 340
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡才漆,死狀恐怖牛曹,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情醇滥,我是刑警寧澤黎比,帶...
    沈念sama閱讀 34,258評(píng)論 4 328
  • 正文 年R本政府宣布超营,位于F島的核電站,受9級(jí)特大地震影響阅虫,放射性物質(zhì)發(fā)生泄漏演闭。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,848評(píng)論 3 312
  • 文/蒙蒙 一颓帝、第九天 我趴在偏房一處隱蔽的房頂上張望米碰。 院中可真熱鬧,春花似錦躲履、人聲如沸见间。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 30,726評(píng)論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)米诉。三九已至,卻和暖如春篷帅,著一層夾襖步出監(jiān)牢的瞬間史侣,已是汗流浹背。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 31,952評(píng)論 1 264
  • 我被黑心中介騙來(lái)泰國(guó)打工魏身, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留惊橱,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 46,271評(píng)論 2 360
  • 正文 我出身青樓箭昵,卻偏偏與公主長(zhǎng)得像税朴,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子家制,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,452評(píng)論 2 348

推薦閱讀更多精彩內(nèi)容