2017/4/20 scrapy response

作業(yè)代碼

spider.py

# -*- coding: utf-8 -*-
import scrapy
from jianshu.items import JianshuItem
import sys
import re
import requests
import json
class WeekSpider(scrapy.Spider):
    name = "weekhot"

    def start_requests(self):
        for i in range(1, 6):
            self.url = 'http://www.reibang.com/trending/weekly?&page=%s' % i
            yield scrapy.Request(self.url, self.get_url)

    def get_url(self, response):
        base_url = 'http://www.reibang.com'
        total_url = response.xpath('//a[@class="title"]').extract()
        for i in total_url:
            link = b = re.findall('href="(.*?)">', i, re.S)[0]
            url = base_url + link
            yield scrapy.Request(url,callback=self.parse)


    def parse(self, response):
        #total = response.xpath('//div[@class="content"]')
        #item = []
        item = JianshuItem()
        item['author'] = response.xpath('//span[@class="name"]/a/text()').extract()
        item['post_date'] = response.xpath('//span[@class="publish-time"]/text()').extract()
        item['wordage'] = response.xpath('//span[@class="wordage"]/text()').extract()
        item['title'] = response.xpath('//div[@class="article"]/h1/text()').extract()
        item['read_num'] = re.search('views_count":(.*?),', response.text, re.S).group()
        item['comment_num'] = re.search('comments_count":(.*?),', response.text, re.S).group()
        item['like_num'] = re.search('likes_count":(.*?),', response.text, re.S).group()

        # 獲取專題信息
        id = re.findall('{"id":(.*?),', response.text, re.S)[0]
        url = 'http://www.reibang.com/notes/%s/included_collections?page=1' % id
        datas = []
        result = requests.get(url)
        data = json.loads(result.text)
        for one in data['collections']:
            datas.append(one['title'])
        count = data['total_pages']
        for one in range(2, count + 1):
            url = 'http://www.reibang.com/notes/{}/included_collections?page={}'.format(id, one)
            result = requests.get(url)
            data = json.loads(result.text)
            for one in data['collections']:
                datas.append(one['title'])
        try:
            item['zhuanti'] = " ".join(datas).encode('utf-8')
        except:
            item['sp_title'] = u''
        yield item

item.py

import scrapy
class JianshuItem(scrapy.Item):
    # define the fields for your item here like:
    author = scrapy.Field()
    post_date = scrapy.Field()
    title = scrapy.Field()
    read_num = scrapy.Field()
    comment_num = scrapy.Field()
    like_num = scrapy.Field()

作業(yè)結(jié)果

作業(yè)結(jié)果

作業(yè)思路梳理

越來越覺得一罩,思路這東西腺占,如果沒有足夠清楚的思路以及保持這個思路前進與經(jīng)過思考的修正,花再多的時間都是白費挨措。
在作業(yè)中惭缰,困擾我的主要是start_url, start_resquest(), 這兩個的區(qū)別,本來是雖然不能區(qū)分晚缩,但是也理得清楚尾膊,后面越做就越理不清了,陷入死循環(huán)了
對于這兩點荞彼,因為時間的關(guān)系冈敛,沒有查詢,從剛才的調(diào)試中來談下吧鸣皂,從字面的意思上看抓谴,start_url是開始抓取的入口中,start_request()是一個函數(shù)寞缝,開始處理信息的入口齐邦,結(jié)合昨天的作業(yè)來看,這兩個分別適應(yīng)的情景第租,如果是一級頁面措拇,用start_url便可以了,而如果是有多層頁面慎宾,start_request()來定義抓取的url丐吓,然后再寫一個函數(shù)來爬取下一層的頁面浅悉。
還有一個問題沒有解決,就是提取被收錄的專題券犁,這個因為時間的原因术健,沒有理解清楚。

在作業(yè)中發(fā)現(xiàn)的不足

  1. 總是有這樣一個壞習(xí)慣粘衬,在做的過程中荞估,如果遇到不懂的,第一選擇往往是去谷歌稚新,主要谷歌的對象是別人的經(jīng)驗勘伺,看下別人有沒有類似的項目,然后快速掃一遍褂删,看似能夠比較快地解決問題飞醉,但是卻是很零碎地知識,不系統(tǒng)屯阀,前期還好缅帘,但是在后面,可以預(yù)見地是懶于思考难衰,會在一個個的問題上困擾更久钦无。
  2. 沒有很好地建立自己的知識索引系統(tǒng),有一些問題盖袭,之前也是遇到過了铃诬,但是找起來還是不夠快,這是物理上的索引苍凛,在大腦里的索引就是沒有很好地總結(jié)歸類趣席。
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市醇蝴,隨后出現(xiàn)的幾起案子宣肚,更是在濱河造成了極大的恐慌,老刑警劉巖悠栓,帶你破解...
    沈念sama閱讀 211,042評論 6 490
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件霉涨,死亡現(xiàn)場離奇詭異,居然都是意外死亡惭适,警方通過查閱死者的電腦和手機笙瑟,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 89,996評論 2 384
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來癞志,“玉大人往枷,你說我怎么就攤上這事。” “怎么了错洁?”我有些...
    開封第一講書人閱讀 156,674評論 0 345
  • 文/不壞的土叔 我叫張陵秉宿,是天一觀的道長。 經(jīng)常有香客問我屯碴,道長描睦,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 56,340評論 1 283
  • 正文 為了忘掉前任导而,我火速辦了婚禮忱叭,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘今艺。我一直安慰自己韵丑,他們只是感情好,可當(dāng)我...
    茶點故事閱讀 65,404評論 5 384
  • 文/花漫 我一把揭開白布洼滚。 她就那樣靜靜地躺著,像睡著了一般技潘。 火紅的嫁衣襯著肌膚如雪遥巴。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,749評論 1 289
  • 那天享幽,我揣著相機與錄音铲掐,去河邊找鬼。 笑死值桩,一個胖子當(dāng)著我的面吹牛摆霉,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播奔坟,決...
    沈念sama閱讀 38,902評論 3 405
  • 文/蒼蘭香墨 我猛地睜開眼携栋,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了咳秉?” 一聲冷哼從身側(cè)響起婉支,我...
    開封第一講書人閱讀 37,662評論 0 266
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎澜建,沒想到半個月后向挖,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 44,110評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡炕舵,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,451評論 2 325
  • 正文 我和宋清朗相戀三年何之,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 38,577評論 1 340
  • 序言:一個原本活蹦亂跳的男人離奇死亡馍刮,死狀恐怖否灾,靈堂內(nèi)的尸體忽然破棺而出摸袁,到底是詐尸還是另有隱情悼潭,我是刑警寧澤庇忌,帶...
    沈念sama閱讀 34,258評論 4 328
  • 正文 年R本政府宣布,位于F島的核電站舰褪,受9級特大地震影響皆疹,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜占拍,卻給世界環(huán)境...
    茶點故事閱讀 39,848評論 3 312
  • 文/蒙蒙 一略就、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧晃酒,春花似錦表牢、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,726評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至蛔翅,卻和暖如春敲茄,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背山析。 一陣腳步聲響...
    開封第一講書人閱讀 31,952評論 1 264
  • 我被黑心中介騙來泰國打工堰燎, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人笋轨。 一個月前我還...
    沈念sama閱讀 46,271評論 2 360
  • 正文 我出身青樓秆剪,卻偏偏與公主長得像,于是被迫代替她去往敵國和親爵政。 傳聞我的和親對象是個殘疾皇子仅讽,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 43,452評論 2 348

推薦閱讀更多精彩內(nèi)容