2017/4/19爬蟲作業(yè)

作業(yè)代碼

spider.py

# -*- coding: utf-8 -*-
import scrapy
from jianshu.items import JianshuItem
import sys
import re
reload(sys)
sys.setdefaultencoding("utf-8")

class WeekSpider(scrapy.Spider):
    name = "weekhot"

    #start_urls = [ 'http://www.reibang.com/trending/weekly?&page=1',]
    def start_requests(self):
        url = 'http://www.reibang.com/trending/weekly'
        for i in range(1, 6):
            url = url + '?&page=%s' %i
            yield scrapy.Request(url, self.parse)

    def parse(self, response):
        total = response.xpath('//div[@class="content"]')
        item = []
        for alone in total:
            item = JianshuItem()
            item['author'] = alone.xpath('div[@class="author"]/div/a/text()').extract()
            posts = alone.xpath('div[@class="author"]/div/span').extract()
            item['post_date'] = re.findall('at="(.*?)"><', posts[0], re.S)
            item['title'] = alone.xpath('a[@class="title"]/text()').extract()
            meta = alone.xpath('div[@class="meta"]')
            item['read_num'] = meta.xpath('a[@target="_blank"][1]/text()').extract()
            item['comment_num'] = meta.xpath('a[@target="_blank"][2]/text()').extract()
            item['like_num'] = meta.xpath('span/text()')[0].extract()
            yield item

items.py

import scrapy
class JianshuItem(scrapy.Item):
    # define the fields for your item here like:
    author = scrapy.Field()
    post_date = scrapy.Field()
    title = scrapy.Field()
    read_num = scrapy.Field()
    comment_num = scrapy.Field()
    like_num = scrapy.Field()

作業(yè)結(jié)果

作業(yè)結(jié)果

作業(yè)總結(jié)

這次所爬取的內(nèi)容和昨天的一樣甸饱,不過這次使用了xpathscrapy病线,在速度上彌補(bǔ)了昨天所不足的地方危队,在作業(yè)中肴沫,困擾比較久的是xpath的用法宙枷,第一次學(xué)xpath掉房,以為和beautifulsoup一樣,只要截取到一部分標(biāo)簽慰丛,就可以直接搜索這個標(biāo)簽下的任意子標(biāo)簽卓囚,就是這個想法誤導(dǎo)了好久,嘗試了一下诅病,發(fā)現(xiàn)xpath與beautifulsoup的原理不太一樣哪亿,xpath是部分解析,要哪一部分就提取哪一部分贤笆,而beautifulsoup是全部解析蝇棉,舉個例子,我們要去找一個地方芥永,這個地方是某某縣篡殷,用xpath的辦法就是,你必須先知道是哪個省埋涧,再是哪個市板辽,最后才到某某縣奇瘦,你不知道哪個市也就找不到這個縣了,而用beautifulsoup的辦法就是不管你要找哪個縣劲弦,我先把整個地圖給你掃一遍耳标,再告訴你這個縣的位置,即使你不知道哪個市邑跪,也知道這個縣在哪里麻捻,兩種方法的優(yōu)缺點(diǎn)在哪里呢?就我個人感覺呀袱,xpath上手稍微難點(diǎn)贸毕,要按層級找,但是由于是部分截取夜赵,所以快明棍,而beautifulsoup呢,上手簡單寇僧,但是全局搜索摊腋,速度慢。當(dāng)然還在于xpath是用C編寫的嘁傀,beautifulsoup是用python編寫的兴蒸。
還有一個坑就是終于找到了第一次學(xué)scrapy為什么不運(yùn)行的原因了,原因在于url的設(shè)置不對细办。

昨天的問題解決情況

坑二橙凳、關(guān)于寫入到csv文件中,在輸出的到csv文件中笑撞,并轉(zhuǎn)化成excel文件后岛啸,發(fā)現(xiàn)read_numcomment_num這兩列無法排序,糾其原因茴肥,是無法選取其值坚踩,將他們復(fù)制下來到文本中,發(fā)現(xiàn)多了幾個引號:

這個問題的產(chǎn)生并不是在編碼上的問題瓤狐,而是在原網(wǎng)站上的標(biāo)簽內(nèi)容本身就是帶有" "的瞬铸,所以輸出到csv文件里,會默認(rèn)成列表中的另一個列表础锐,所以無法在exel中顯示其值

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末嗓节,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子郁稍,更是在濱河造成了極大的恐慌赦政,老刑警劉巖胜宇,帶你破解...
    沈念sama閱讀 211,817評論 6 492
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件耀怜,死亡現(xiàn)場離奇詭異恢着,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)财破,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,329評論 3 385
  • 文/潘曉璐 我一進(jìn)店門掰派,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人左痢,你說我怎么就攤上這事靡羡。” “怎么了俊性?”我有些...
    開封第一講書人閱讀 157,354評論 0 348
  • 文/不壞的土叔 我叫張陵略步,是天一觀的道長。 經(jīng)常有香客問我定页,道長趟薄,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 56,498評論 1 284
  • 正文 為了忘掉前任典徊,我火速辦了婚禮杭煎,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘卒落。我一直安慰自己羡铲,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,600評論 6 386
  • 文/花漫 我一把揭開白布儡毕。 她就那樣靜靜地躺著也切,像睡著了一般。 火紅的嫁衣襯著肌膚如雪腰湾。 梳的紋絲不亂的頭發(fā)上贾费,一...
    開封第一講書人閱讀 49,829評論 1 290
  • 那天,我揣著相機(jī)與錄音檐盟,去河邊找鬼褂萧。 笑死,一個胖子當(dāng)著我的面吹牛葵萎,可吹牛的內(nèi)容都是我干的导犹。 我是一名探鬼主播,決...
    沈念sama閱讀 38,979評論 3 408
  • 文/蒼蘭香墨 我猛地睜開眼羡忘,長吁一口氣:“原來是場噩夢啊……” “哼谎痢!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起卷雕,我...
    開封第一講書人閱讀 37,722評論 0 266
  • 序言:老撾萬榮一對情侶失蹤节猿,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體滨嘱,經(jīng)...
    沈念sama閱讀 44,189評論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡峰鄙,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,519評論 2 327
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了太雨。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片吟榴。...
    茶點(diǎn)故事閱讀 38,654評論 1 340
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖囊扳,靈堂內(nèi)的尸體忽然破棺而出吩翻,到底是詐尸還是另有隱情,我是刑警寧澤锥咸,帶...
    沈念sama閱讀 34,329評論 4 330
  • 正文 年R本政府宣布狭瞎,位于F島的核電站,受9級特大地震影響搏予,放射性物質(zhì)發(fā)生泄漏脚作。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,940評論 3 313
  • 文/蒙蒙 一缔刹、第九天 我趴在偏房一處隱蔽的房頂上張望球涛。 院中可真熱鬧,春花似錦校镐、人聲如沸亿扁。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,762評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽从祝。三九已至,卻和暖如春引谜,著一層夾襖步出監(jiān)牢的瞬間牍陌,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,993評論 1 266
  • 我被黑心中介騙來泰國打工员咽, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留毒涧,地道東北人。 一個月前我還...
    沈念sama閱讀 46,382評論 2 360
  • 正文 我出身青樓贝室,卻偏偏與公主長得像契讲,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子滑频,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,543評論 2 349

推薦閱讀更多精彩內(nèi)容