用Scrapy采集公管學院新聞

采集對象:四川大學公共管理學院新聞動態(tài)及內容
爬取規(guī)則:用css選擇器的方法來進行元素定位

采集過程

激活犹撒,進入虛擬環(huán)境


1.png

創(chuàng)建項目


2.png

修改items.py文件

# -*- coding: utf-8 -*-

# Define here the models for your scraped items
#
# See documentation in:
# http://doc.scrapy.org/en/latest/topics/items.html

import scrapy

class GgnewsItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    title = scrapy.Field()
    time = scrapy.Field()
    content = scrapy.Field()
    img = scrapy.Field()

編寫爬蟲

import scrapy

from ggnews.items import GgnewsItem

class GgnewsSpider(scrapy.Spider):
    name = "spidernews"
    start_urls = [
        'http://ggglxy.scu.edu.cn/index.php?c=special&sid=1',
    ]

    def parse(self, response):
        for href in response.css('div.pb30.mb30 div.right_info.p20.bgf9 ul.index_news_ul.dn li a.fl::attr(href)'):
            url = response.urljoin(href.extract())
            yield scrapy.Request(url, callback=self.parse2)

            next_page = response.css('div.w100p div.px_box.w1000.auto.ovh.cf div.pb30.mb30 div.mobile_pager.dn li.c::text').extract_first()
            if next_page is not None:
                next_url = int(next_page) + 1
                next_urls = '?c=special&sid=1&page=%s' % next_url
                print next_urls
                next_urls = response.urljoin(next_urls)
                yield scrapy.Request(next_urls,callback = self.parse)

    def parse2(self, response):
        items = []
        for new in response.css('div.w1000.auto.cf div.w780.pb30.mb30.fr div.right_info.p20'):
                item = GgnewsItem()
                item['title'] = new.css('div.detail_zy_title h1::text').extract_first(),
                item['time'] = new.css('div.detail_zy_title p::text').extract_first(),
                item['content'] = new.css('div.detail_zy_c.pb30.mb30 p span::text').extract(),
                item['img'] = new.css('div.detail_zy_c.pb30.mb30 p.MsoNormal img::attr(src)').extract(),
                items.append(item)

        return items

將爬蟲文件拖進spiders文件夾下

3.png

4.png

執(zhí)行爬蟲

scrapy crawl spidernews -o spidernews.xml

(開始幾次一直出現 ImportError: No module named items的錯誤颁湖,查百度發(fā)現時spiders 目錄中的.py文件不能和項目名同名的問題蔗候,對其文件名進行修改)


5.png
scrapy crawl spidernews -o spidernews.json
7.png

得到數據


6.png
8.png
9.png
10.png
最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
  • 序言:七十年代末宇姚,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌空盼,老刑警劉巖,帶你破解...
    沈念sama閱讀 211,123評論 6 490
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件新荤,死亡現場離奇詭異揽趾,居然都是意外死亡,警方通過查閱死者的電腦和手機苛骨,發(fā)現死者居然都...
    沈念sama閱讀 90,031評論 2 384
  • 文/潘曉璐 我一進店門篱瞎,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人痒芝,你說我怎么就攤上這事俐筋。” “怎么了严衬?”我有些...
    開封第一講書人閱讀 156,723評論 0 345
  • 文/不壞的土叔 我叫張陵澄者,是天一觀的道長。 經常有香客問我请琳,道長粱挡,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 56,357評論 1 283
  • 正文 為了忘掉前任俄精,我火速辦了婚禮询筏,結果婚禮上,老公的妹妹穿的比我還像新娘嘀倒。我一直安慰自己屈留,他們只是感情好,可當我...
    茶點故事閱讀 65,412評論 5 384
  • 文/花漫 我一把揭開白布测蘑。 她就那樣靜靜地躺著灌危,像睡著了一般。 火紅的嫁衣襯著肌膚如雪碳胳。 梳的紋絲不亂的頭發(fā)上勇蝙,一...
    開封第一講書人閱讀 49,760評論 1 289
  • 那天,我揣著相機與錄音挨约,去河邊找鬼味混。 笑死,一個胖子當著我的面吹牛诫惭,可吹牛的內容都是我干的翁锡。 我是一名探鬼主播,決...
    沈念sama閱讀 38,904評論 3 405
  • 文/蒼蘭香墨 我猛地睜開眼夕土,長吁一口氣:“原來是場噩夢啊……” “哼馆衔!你這毒婦竟也來了瘟判?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 37,672評論 0 266
  • 序言:老撾萬榮一對情侶失蹤角溃,失蹤者是張志新(化名)和其女友劉穎拷获,沒想到半個月后,有當地人在樹林里發(fā)現了一具尸體减细,經...
    沈念sama閱讀 44,118評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡匆瓜,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 36,456評論 2 325
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現自己被綠了未蝌。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片驮吱。...
    茶點故事閱讀 38,599評論 1 340
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖树埠,靈堂內的尸體忽然破棺而出糠馆,到底是詐尸還是另有隱情,我是刑警寧澤怎憋,帶...
    沈念sama閱讀 34,264評論 4 328
  • 正文 年R本政府宣布,位于F島的核電站九昧,受9級特大地震影響绊袋,放射性物質發(fā)生泄漏。R本人自食惡果不足惜铸鹰,卻給世界環(huán)境...
    茶點故事閱讀 39,857評論 3 312
  • 文/蒙蒙 一癌别、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧蹋笼,春花似錦展姐、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,731評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至逊谋,卻和暖如春擂达,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背胶滋。 一陣腳步聲響...
    開封第一講書人閱讀 31,956評論 1 264
  • 我被黑心中介騙來泰國打工板鬓, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人究恤。 一個月前我還...
    沈念sama閱讀 46,286評論 2 360
  • 正文 我出身青樓俭令,卻偏偏與公主長得像,于是被迫代替她去往敵國和親部宿。 傳聞我的和親對象是個殘疾皇子抄腔,可洞房花燭夜當晚...
    茶點故事閱讀 43,465評論 2 348

推薦閱讀更多精彩內容