Scrapy 抓取數(shù)據(jù)提取對象小技巧

Scrapy在一個頁面抓取一條數(shù)據(jù)較為簡單疹吃。如果在一個頁面上抓取多條數(shù)據(jù),循環(huán)點取在哪里西雀,有一個技巧萨驶。

以簡書首頁為例。如抓取熱門文章艇肴,一條信息包含:作者腔呜、文章標題叁温、閱讀量、評論數(shù)量核畴、喜歡數(shù)膝但、打賞數(shù)。在一個頁面上有多條數(shù)據(jù)谤草。

QQ20160726-2.png

這里實際上跟束,就是把頁面上的數(shù)據(jù)提取出來封裝成一個對象item,只是最后沒有放在集合中丑孩。

items定義

class JsuserItem(Item):

    author = Field()
    url = Field()
    title = Field()
    reads = Field()
    comments = Field()
    likes = Field()
    rewards = Field()

提取數(shù)據(jù)循環(huán)點應為包含多條數(shù)據(jù)的一條信息的標簽開始冀宴,分析頁面代碼就是 div>li

QQ20160726-0.png

第一次提取出來的是一整塊的內(nèi)容:(即多條數(shù)據(jù)塊內(nèi)容)

  infos = selector.xpath('//li/div')

第二次在這個節(jié)點下提取整塊中的數(shù)據(jù)字段:

            author = info.xpath('p/a/text()').extract()
            title = info.xpath('h4/a/text()').extract()
QQ20160726-1.png

完整代碼:

    def parse(self, response):

        selector = Selector(response)

        infos = selector.xpath('//li/div')

        for info in infos:

            item = JsuserItem()

            author = info.xpath('p/a/text()').extract()
            title = info.xpath('h4/a/text()').extract()
            url = info.xpath('h4/a/@href').extract()
            reads = info.xpath('div/a[1]/text()').extract()
            comments = info.xpath('div/a[2]/text()').extract()

            likes = info.xpath('div/span[1]/text()').extract()

            #注意有些文章是沒有打賞的
            rewards = info.xpath('div/span[2]/text()')
            if len(rewards)==1 :
                rds = info.xpath('div/span[2]/text()').extract()
                rds = int(filter(str.isdigit,str(rds[0])))
            else:
                rds = 0

            item['author']=author
            item['title']=title

            item['url']='http://www.reibang.com'+url[0]
            item['reads']=int(filter(str.isdigit,str(reads[0])))
            item['comments']=int(filter(str.isdigit,str(comments[0])))
            item['likes']=int(filter(str.isdigit,str(likes[0])))
            item['rewards']=rds
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市嚎杨,隨后出現(xiàn)的幾起案子花鹅,更是在濱河造成了極大的恐慌,老刑警劉巖枫浙,帶你破解...
    沈念sama閱讀 212,599評論 6 492
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件刨肃,死亡現(xiàn)場離奇詭異,居然都是意外死亡箩帚,警方通過查閱死者的電腦和手機真友,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,629評論 3 385
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來紧帕,“玉大人盔然,你說我怎么就攤上這事∈鞘龋” “怎么了愈案?”我有些...
    開封第一講書人閱讀 158,084評論 0 348
  • 文/不壞的土叔 我叫張陵,是天一觀的道長鹅搪。 經(jīng)常有香客問我站绪,道長,這世上最難降的妖魔是什么丽柿? 我笑而不...
    開封第一講書人閱讀 56,708評論 1 284
  • 正文 為了忘掉前任恢准,我火速辦了婚禮,結(jié)果婚禮上甫题,老公的妹妹穿的比我還像新娘馁筐。我一直安慰自己,他們只是感情好坠非,可當我...
    茶點故事閱讀 65,813評論 6 386
  • 文/花漫 我一把揭開白布敏沉。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪赦抖。 梳的紋絲不亂的頭發(fā)上舱卡,一...
    開封第一講書人閱讀 50,021評論 1 291
  • 那天,我揣著相機與錄音队萤,去河邊找鬼轮锥。 笑死,一個胖子當著我的面吹牛要尔,可吹牛的內(nèi)容都是我干的舍杜。 我是一名探鬼主播,決...
    沈念sama閱讀 39,120評論 3 410
  • 文/蒼蘭香墨 我猛地睜開眼赵辕,長吁一口氣:“原來是場噩夢啊……” “哼既绩!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起还惠,我...
    開封第一講書人閱讀 37,866評論 0 268
  • 序言:老撾萬榮一對情侶失蹤饲握,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后蚕键,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體救欧,經(jīng)...
    沈念sama閱讀 44,308評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,633評論 2 327
  • 正文 我和宋清朗相戀三年锣光,在試婚紗的時候發(fā)現(xiàn)自己被綠了笆怠。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 38,768評論 1 341
  • 序言:一個原本活蹦亂跳的男人離奇死亡誊爹,死狀恐怖蹬刷,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情频丘,我是刑警寧澤办成,帶...
    沈念sama閱讀 34,461評論 4 333
  • 正文 年R本政府宣布,位于F島的核電站搂漠,受9級特大地震影響诈火,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜状答,卻給世界環(huán)境...
    茶點故事閱讀 40,094評論 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望刀崖。 院中可真熱鬧惊科,春花似錦、人聲如沸亮钦。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,850評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至蜡娶,卻和暖如春混卵,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背窖张。 一陣腳步聲響...
    開封第一講書人閱讀 32,082評論 1 267
  • 我被黑心中介騙來泰國打工幕随, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人宿接。 一個月前我還...
    沈念sama閱讀 46,571評論 2 362
  • 正文 我出身青樓赘淮,卻偏偏與公主長得像,于是被迫代替她去往敵國和親睦霎。 傳聞我的和親對象是個殘疾皇子梢卸,可洞房花燭夜當晚...
    茶點故事閱讀 43,666評論 2 350

推薦閱讀更多精彩內(nèi)容