Scrapy入門

參考資料:

scrapy參考文檔

我的測試:

  • 新建項目

目標文件夾下命令行執(zhí)行:

scrapy startproject 項目名稱

  • 項目目錄結構
圖片.png

scrapy.cfg:項目配置文件
myScrapyProject:
myScrapyProject/items.py:自定義項目類的地方鹊漠,也就是爬蟲獲取到數據之后艺演,傳入管道文件pipelines.py的載體
myScrapyProject/pipelines.py:項目管道文件,對傳入的項目類中的數據進行一個清理和入庫
myScrapyProject/middlewares.py:中間件配置文件
myScrapyProject/settings.py:項目的設置文件铛纬,例如下載延遲跷究,項目管道文件中類的啟用以及自定義中間件的啟用和順序
spiders:是我們爬蟲文件集合肴掷,在這里新建爬蟲文件

  • 新建爬蟲

在spiders下新建一個Python文件块蚌,用于編寫爬蟲

# coding:utf-8
import scrapy

# 爬蟲類机蔗,繼承自scrapy.Spider類
class PrizeSpider(scrapy.Spider):
    # 爬蟲名稱
    name = "prize"
    # 目標網址蒲祈,爬蟲啟動后自動爬取得鏈接,列表內可以放多個鏈接
    start_urls = ['http://www.cgscgs.org.cn/drupal/?q=node/95']

    # 爬蟲啟動時萝嘁,爬取鏈接成功后自動回調的函數梆掸,默認parse,參數self和response
    def parse(self, response):
        print(response)
        # extract():序列化該節(jié)點為unicode字符串并返回list牙言;extract_first()則是去第一個元素
        title_list = response.xpath("http://*[@id='node-95']/div[1]/dl/dt/a/text()").extract()
        content_list = response.xpath("http://*[@id='node-95']/div[1]/dl/dd/text()").extract()
        for i, j in zip(title_list, content_list):
            print(i, ":", j)
  • 打開PyCharm命令行

查看爬蟲列表酸钦,羅列所有爬蟲的名稱

scrapy list

啟動爬蟲

scrapy crawl 爬蟲名稱

過程解析

Scrapy為Spider的 start_urls 屬性中的每個URL創(chuàng)建了 scrapy.Request對象,并將 parse 方法作為回調函數(callback)賦值給了Request咱枉。

Request對象經過調度卑硫,執(zhí)行生成 scrapy.http.Response對象并送回給spider parse() 方法。parse()方法是Scrapy默認的網站爬取成功時的回調函數蚕断,所以它一定有一個response參數

  • 將數據存到MySQL中

上面編寫的spider類是用來爬蟲欢伏,他只負責獲取數據,而錄入數據則是在“管道文件”pipelines中完成
首先在settings文件中啟用管道類

ITEM_PIPELINES = {
   # 'myScrapyProject.pipelines.MyscrapyprojectPipeline': 300,
   # 類名稱:優(yōu)先級(0-1000)
   'myScrapyProject.pipelines.MyscrapyprojectPipeline': 300,
}

編寫管道類

# -*- coding: utf-8 -*-
import pymysql


class MyscrapyprojectPipeline(object):
    # 爬蟲開始運行的時候運行
    def open_spider(self, spider):
        print("連接數據庫")
        self.connect = pymysql.connect(
            host='127.0.0.1',
            port=3306,
            db='test',
            user='admin',
            passwd='123456',
            charset='utf8')
        self.cursor = self.connect.cursor()

    # 爬蟲獲取的數據并不是直接傳入管道中亿乳,而是賦值到items的item中硝拧,然后item作為參數傳入到該方法中
    # 最終數據可以通過管道文件寫入到數據庫中
    def process_item(self, item, spider):
        # print(spider.name)
        print("sql")
        insert_sql = "insert into prize(title,content) values('{}','{}')".format(item['title'], item['content'])
        print(insert_sql)
        self.cursor.execute(insert_sql)
        self.connect.commit()
        return item

    # 爬蟲關閉時調用
    def spider_close(self, spider):
        self.connect.close()

編寫item

class MyscrapyprojectItem(scrapy.Item):
    title = scrapy.Field()
    content = scrapy.Field()

修改爬蟲文件

class PrizeSpider(scrapy.Spider):
    # 爬蟲名稱
    name = "prize"
    # 目標網址,爬蟲啟動后自動爬取得鏈接葛假,列表內可以放多個鏈接
    start_urls = ['http://www.cgscgs.org.cn/drupal/?q=node/95']

    # 爬蟲啟動時河爹,爬取鏈接成功后自動回調的函數,默認parse桐款,參數self和response
    def parse(self, response):
        print(response)
        # 實例化item對象
        pr = MyscrapyprojectItem()
        title_list = response.xpath("http://*[@id='node-95']/div[1]/dl/dt/a/text()").extract()
        content_list = response.xpath("http://*[@id='node-95']/div[1]/dl/dd/text()").extract()
        for i, j in zip(title_list, content_list):
            # 將爬取的數據寫入到item中
            pr['title'] = i
            pr['content'] = j
            # 注意這里要用yield咸这,因為item是單個傳遞的
            # yield可以理解為return,將pr返回魔眨,但是下一次警戒著上次的循環(huán)繼續(xù)執(zhí)行
            yield pr
最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
  • 序言:七十年代末媳维,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子遏暴,更是在濱河造成了極大的恐慌侄刽,老刑警劉巖,帶你破解...
    沈念sama閱讀 219,490評論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件朋凉,死亡現場離奇詭異州丹,居然都是意外死亡,警方通過查閱死者的電腦和手機,發(fā)現死者居然都...
    沈念sama閱讀 93,581評論 3 395
  • 文/潘曉璐 我一進店門墓毒,熙熙樓的掌柜王于貴愁眉苦臉地迎上來吓揪,“玉大人,你說我怎么就攤上這事所计∧牵” “怎么了?”我有些...
    開封第一講書人閱讀 165,830評論 0 356
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我赶舆,道長,這世上最難降的妖魔是什么焙格? 我笑而不...
    開封第一講書人閱讀 58,957評論 1 295
  • 正文 為了忘掉前任,我火速辦了婚禮夷都,結果婚禮上间螟,老公的妹妹穿的比我還像新娘。我一直安慰自己损肛,他們只是感情好,可當我...
    茶點故事閱讀 67,974評論 6 393
  • 文/花漫 我一把揭開白布荣瑟。 她就那樣靜靜地躺著治拿,像睡著了一般。 火紅的嫁衣襯著肌膚如雪笆焰。 梳的紋絲不亂的頭發(fā)上劫谅,一...
    開封第一講書人閱讀 51,754評論 1 307
  • 那天,我揣著相機與錄音嚷掠,去河邊找鬼捏检。 笑死,一個胖子當著我的面吹牛不皆,可吹牛的內容都是我干的贯城。 我是一名探鬼主播,決...
    沈念sama閱讀 40,464評論 3 420
  • 文/蒼蘭香墨 我猛地睜開眼霹娄,長吁一口氣:“原來是場噩夢啊……” “哼能犯!你這毒婦竟也來了?” 一聲冷哼從身側響起犬耻,我...
    開封第一講書人閱讀 39,357評論 0 276
  • 序言:老撾萬榮一對情侶失蹤踩晶,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后枕磁,有當地人在樹林里發(fā)現了一具尸體渡蜻,經...
    沈念sama閱讀 45,847評論 1 317
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 37,995評論 3 338
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現自己被綠了茸苇。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片排苍。...
    茶點故事閱讀 40,137評論 1 351
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖税弃,靈堂內的尸體忽然破棺而出纪岁,到底是詐尸還是另有隱情,我是刑警寧澤则果,帶...
    沈念sama閱讀 35,819評論 5 346
  • 正文 年R本政府宣布幔翰,位于F島的核電站,受9級特大地震影響西壮,放射性物質發(fā)生泄漏遗增。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 41,482評論 3 331
  • 文/蒙蒙 一款青、第九天 我趴在偏房一處隱蔽的房頂上張望做修。 院中可真熱鬧,春花似錦抡草、人聲如沸饰及。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,023評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽燎含。三九已至,卻和暖如春腿短,著一層夾襖步出監(jiān)牢的瞬間屏箍,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,149評論 1 272
  • 我被黑心中介騙來泰國打工橘忱, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留赴魁,地道東北人。 一個月前我還...
    沈念sama閱讀 48,409評論 3 373
  • 正文 我出身青樓钝诚,卻偏偏與公主長得像颖御,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子凝颇,可洞房花燭夜當晚...
    茶點故事閱讀 45,086評論 2 355

推薦閱讀更多精彩內容

  • 入門案例 學習目標 創(chuàng)建一個Scrapy項目 定義提取的結構化數據(Item) 編寫爬取網站的 Spider 并提...
    文子軒閱讀 1,342評論 0 1
  • 該博客首發(fā)于www.litreily.top scrapy作為一款強大的爬蟲框架郎嫁,當然要好好學習一番,本文便是本人...
    litreily閱讀 565評論 0 1
  • Scrapy介紹 Scrapy是一個為了爬取網站數據祈噪,提取結構性數據而編寫的應用框架泽铛。 可以應用在包括數據挖掘,信...
    JasonDing閱讀 122,509評論 15 126
  • 一 【學習目標】 創(chuàng)建一個Scrapy項目 定義提取的結構化數據Item 編寫爬蟲網頁的Spider并提取出結構化...
    XiWeidong閱讀 712評論 0 51
  • A:周末大家都去玩兒了辑鲤?有幾個人聊聊文學多好盔腔! B:你開個頭 C:六分閱讀,三分生活,一分寫作弛随。 C建議A說瓢喉,你動...
    高樂呵閱讀 173評論 0 0