簡(jiǎn)書(shū)首頁(yè)的坑

爬簡(jiǎn)書(shū)首頁(yè)乾忱，一開(kāi)始是想著用Scrapy框架比較方便一點(diǎn)睦柴，結(jié)果遇到了好多坑余指，花了好多時(shí)間解決醉途，必須記錄一下矾瑰。

先貼修改完的完整代碼

from scrapy.spiders import Spider
from scrapy.selector import Selector

from ..items import JianshuItem


class JianshuSpider(Spider):
    name = "jianshu_spider"

    allowed_domains = []

    start_urls = ['http://www.reibang.com/']

    def parse(self, response):
        sel = Selector(response)

        title = sel.xpath("http://div[@class='content']/a[@class='title']/text()").extract()
        author = sel.xpath("http://div[@class='author']/div[@class='name']/a/text()").extract()
        post_time = sel.xpath("http://div[@class='content']/div/div/span[@class='time']/@data-shared-at").extract()
        read = sel.xpath("http://div[@class='content']/div[@class='meta']/a[last()-1]/text()").re(r' ([0-9]*)\n')
        comment = sel.xpath("http://div[@class='content']/div[@class='meta']/a[last()]/text()").re(r' ([0-9]*)\n')
        like = sel.xpath("http://div[@class='content']/div[@class='meta']/span[1]/text()").extract()

        reward = []
        div_1s = sel.xpath("http://div[@class='content']/div[@class='meta']")
        for div_1 in div_1s:
            if div_1.xpath(".//span[2]/text()"):
                reward.append(div_1.xpath(".//span[2]/text()").extract()[0])
            else:
                reward.append(u'0')
        subject = []
        div_2s = sel.xpath("http://div[@class='content']/div[@class='meta']")
        for div_2 in div_2s:
            if div_2.xpath(".//span[2]/text()"):
                subject.append(div_2.xpath(".//a[@class='collection-tag']/text()").extract()[0])
            else:
                subject.append(u'none')

        item = JianshuItem()

        item['title'] = [i for i in title]
        item['author'] = [i for i in author]
        item['post_time'] = [i for i in post_time]
        item['read'] = [i for i in read]
        item['comment'] = [i for i in comment]
        item['like'] = [i for i in like]
        item['reward'] = [i for i in reward]
        item['subject'] = [i for i in subject]

        yield item

坑一：打賞和收錄主題
并不是所有的文章都是有收錄主題和打賞的。

image.png

標(biāo)準(zhǔn)的就是第二張圖片的樣子隘擎，這樣子我是最喜歡的殴穴。

沒(méi)有打賞和收錄主題的怎么辦？？采幌？

一開(kāi)始腦子一片空白劲够，不知道該怎么解決，就去看別人的代碼休傍，發(fā)現(xiàn)了人家用了循環(huán)就解決了征绎，好，那就用循環(huán)磨取，但是用XPath怎么實(shí)現(xiàn)呢人柿？腦子一片空白，想不出來(lái)忙厌。后來(lái)想到去看Scrapy的官方文檔凫岖，查到了。（這里再次印證了慰毅，官方文檔是最棒的０亍）
怎么解決？上代碼

        reward = []
        div_1s = sel.xpath("http://div[@class='content']/div[@class='meta']")
        for div_1 in div_1s:
            if div_1.xpath(".//span[2]/text()"):
                reward.append(div_1.xpath(".//span[2]/text()").extract()[0])
            else:
                reward.append(u'0')
        subject = []
        div_2s = sel.xpath("http://div[@class='content']/div[@class='meta']")
        for div_2 in div_2s:
            if div_2.xpath(".//span[2]/text()"):
                subject.append(div_2.xpath(".//a[@class='collection-tag']/text()").extract()[0])
            else:
                subject.append(u'none')

很簡(jiǎn)單是不是汹胃，但是沒(méi)有接觸過(guò)第一次解決就是無(wú)從下手婶芭，想了好久。

坑二：沒(méi)有收錄主題的文章着饥，a標(biāo)簽會(huì)少一個(gè)Ｏ！宰掉！
先看圖

image.png

其實(shí)這個(gè)問(wèn)題我應(yīng)該早就注意到的呵哨，還是經(jīng)驗(yàn)太少了，掉坑里了轨奄，剛開(kāi)始一直摸不著頭腦到底是哪里出錯(cuò)了孟害，為什么我爬出來(lái)的評(píng)論就是少一個(gè)。
分析一下第二章標(biāo)準(zhǔn)的格式挪拟，前三個(gè)a標(biāo)簽分別是收錄的主題挨务、閱讀數(shù)和評(píng)論數(shù)，后兩個(gè)span標(biāo)簽分別是贊數(shù)和打賞數(shù)玉组。如果沒(méi)有收錄主題谎柄，那么會(huì)沒(méi)有第一個(gè)a標(biāo)簽。

我之前的是這么寫(xiě)的

read = sel.xpath("http://div[@class='content']/div[@class='meta']/a[2]/text()").extract(）
comment = sel.xpath("http://div[@class='content']/div[@class='meta']/a[3]/text()").extract()

改成

read = sel.xpath("http://div[@class='content']/div[@class='meta']/a[last()-1]/text()").re(r' ([0-9]*)\n')
comment = sel.xpath("http://div[@class='content']/div[@class='meta']/a[last()]/text()").re(r' ([0-9]*)\n')

這樣子就能解決了惯雳。

坑三：格式問(wèn)題

image.png

這里的數(shù)字朝巫，是由空格+數(shù)字+換行，其實(shí)很好解決石景，用正則表達(dá)式劈猿，可是該怎么用呢拙吉，再一次我的愚蠢支配了我，我就去百度了糙臼。后來(lái)突然想到看文檔庐镐。看文檔变逃，看文檔必逆，看文檔！重要的事情說(shuō)三遍揽乱！

image.png

Selector有.re()的方法名眉！
然后就自己寫(xiě)正則表達(dá)式啊，自己還是太菜了凰棉，寫(xiě)出了怎么還是這么多空格換行损拢，氣死我了！就去查撒犀，最后發(fā)現(xiàn)了這個(gè)福压。
.re(r' ([0-9]*)\n')這個(gè)模式可以匹配出數(shù)字并把前面的空格和后面的換行符刪掉。
好了或舞，這就是我爬簡(jiǎn)書(shū)首頁(yè)所有的心路歷程了荆姆！
第一次獨(dú)立的把所有的問(wèn)題解決了，獨(dú)立解決問(wèn)題還是蠻難的映凳！群里的小伙伴給了我一點(diǎn)啟發(fā)哈哈哈胆筒！
通過(guò)這次練習(xí)，掌握了好多東西诈豌，至少再次面對(duì)框架的時(shí)候不會(huì)沒(méi)頭沒(méi)腦了仆救！
最后貼上結(jié)果吧

image.png

最后編輯于：2017.12.07 17:20:57

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個(gè)濱河市矫渔，隨后出現(xiàn)的幾起案子彤蔽，更是在濱河造成了極大的恐慌，老刑警劉巖，帶你破解...
沈念sama閱讀 211,042評(píng)論 6贊 490
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件鹰霍，死亡現(xiàn)場(chǎng)離奇詭異，居然都是意外死亡，警方通過(guò)查閱死者的電腦和手機(jī)质帅，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 89,996評(píng)論 2贊 384
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門(mén)，熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)跷敬，“玉大人麻车，你說(shuō)我怎么就攤上這事∈芄” “怎么了碌补？”我有些...
開(kāi)封第一講書(shū)人閱讀 156,674評(píng)論 0贊 345
道士緝兇錄：失蹤的賣(mài)姜人
文/不壞的土叔我叫張陵虏束，是天一觀的道長(zhǎng)。經(jīng)常有香客問(wèn)我厦章，道長(zhǎng)镇匀，這世上最難降的妖魔是什么？我笑而不...
開(kāi)封第一講書(shū)人閱讀 56,340評(píng)論 1贊 283
?港島之戀（遺憾婚禮）
正文為了忘掉前任袜啃，我火速辦了婚禮汗侵，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘群发。我一直安慰自己晰韵，他們只是感情好，可當(dāng)我...
茶點(diǎn)故事閱讀 65,404評(píng)論 5贊 384
惡毒庶女頂嫁案：這布局不是一般人想出來(lái)的
文/花漫我一把揭開(kāi)白布熟妓。她就那樣靜靜地躺著雪猪，像睡著了一般。火紅的嫁衣襯著肌膚如雪起愈。梳的紋絲不亂的頭發(fā)上只恨，一...
開(kāi)封第一講書(shū)人閱讀 49,749評(píng)論 1贊 289
城市分裂傳說(shuō)
那天，我揣著相機(jī)與錄音抬虽，去河邊找鬼官觅。笑死，一個(gè)胖子當(dāng)著我的面吹牛斥赋，可吹牛的內(nèi)容都是我干的缰猴。我是一名探鬼主播，決...
沈念sama閱讀 38,902評(píng)論 3贊 405
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開(kāi)眼疤剑，長(zhǎng)吁一口氣：“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼滑绒！你這毒婦竟也來(lái)了？” 一聲冷哼從身側(cè)響起隘膘，我...
開(kāi)封第一講書(shū)人閱讀 37,662評(píng)論 0贊 266
萬(wàn)榮殺人案實(shí)錄
序言：老撾萬(wàn)榮一對(duì)情侶失蹤疑故，失蹤者是張志新（化名）和其女友劉穎，沒(méi)想到半個(gè)月后弯菊，有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體纵势，經(jīng)...
沈念sama閱讀 44,110評(píng)論 1贊 303
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 36,451評(píng)論 2贊 325
?白月光啟示錄
正文我和宋清朗相戀三年管钳，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了钦铁。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點(diǎn)故事閱讀 38,577評(píng)論 1贊 340
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡才漆，死狀恐怖牛曹，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情醇滥，我是刑警寧澤黎比，帶...
沈念sama閱讀 34,258評(píng)論 4贊 328
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布超营，位于F島的核電站，受9級(jí)特大地震影響阅虫，放射性物質(zhì)發(fā)生泄漏演闭。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 39,848評(píng)論 3贊 312
男人毒藥：我在死后第九天來(lái)索命
文/蒙蒙一颓帝、第九天我趴在偏房一處隱蔽的房頂上張望米碰。院中可真熱鬧，春花似錦躲履、人聲如沸见间。這莊子的主人今日做“春日...
開(kāi)封第一講書(shū)人閱讀 30,726評(píng)論 0贊 21
一樁弒父案工猜，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)米诉。三九已至，卻和暖如春篷帅，著一層夾襖步出監(jiān)牢的瞬間史侣，已是汗流浹背。一陣腳步聲響...
開(kāi)封第一講書(shū)人閱讀 31,952評(píng)論 1贊 264
情欲美人皮
我被黑心中介騙來(lái)泰國(guó)打工魏身，沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留惊橱，地道東北人。一個(gè)月前我還...
沈念sama閱讀 46,271評(píng)論 2贊 360
代替公主和親
正文我出身青樓箭昵，卻偏偏與公主長(zhǎng)得像税朴，于是被迫代替她去往敵國(guó)和親。傳聞我的和親對(duì)象是個(gè)殘疾皇子家制，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 43,452評(píng)論 2贊 348

簡(jiǎn)書(shū)首頁(yè)的坑

推薦閱讀更多精彩內(nèi)容