Scrapy入門

參考資料：

scrapy參考文檔

我的測試：

新建項目

目標文件夾下命令行執(zhí)行：

scrapy startproject 項目名稱

圖片.png

scrapy.cfg:項目配置文件
myScrapyProject:
myScrapyProject/items.py:自定義項目類的地方鹊漠，也就是爬蟲獲取到數據之后艺演，傳入管道文件pipelines.py的載體
myScrapyProject/pipelines.py:項目管道文件，對傳入的項目類中的數據進行一個清理和入庫
myScrapyProject/middlewares.py:中間件配置文件
myScrapyProject/settings.py:項目的設置文件铛纬，例如下載延遲跷究，項目管道文件中類的啟用以及自定義中間件的啟用和順序
spiders：是我們爬蟲文件集合肴掷，在這里新建爬蟲文件

新建爬蟲

在spiders下新建一個Python文件块蚌，用于編寫爬蟲

# coding:utf-8
import scrapy

# 爬蟲類机蔗，繼承自scrapy.Spider類
class PrizeSpider(scrapy.Spider):
    # 爬蟲名稱
    name = "prize"
    # 目標網址蒲祈，爬蟲啟動后自動爬取得鏈接，列表內可以放多個鏈接
    start_urls = ['http://www.cgscgs.org.cn/drupal/?q=node/95']

    # 爬蟲啟動時萝嘁，爬取鏈接成功后自動回調的函數梆掸，默認parse，參數self和response
    def parse(self, response):
        print(response)
        # extract()：序列化該節(jié)點為unicode字符串并返回list牙言；extract_first()則是去第一個元素
        title_list = response.xpath("http://*[@id='node-95']/div[1]/dl/dt/a/text()").extract()
        content_list = response.xpath("http://*[@id='node-95']/div[1]/dl/dd/text()").extract()
        for i, j in zip(title_list, content_list):
            print(i, ":", j)

打開PyCharm命令行

查看爬蟲列表酸钦，羅列所有爬蟲的名稱

scrapy list

啟動爬蟲

scrapy crawl 爬蟲名稱

過程解析

Scrapy為Spider的 start_urls 屬性中的每個URL創(chuàng)建了 scrapy.Request對象，并將 parse 方法作為回調函數(callback)賦值給了Request咱枉。

Request對象經過調度卑硫，執(zhí)行生成 scrapy.http.Response對象并送回給spider parse() 方法。parse()方法是Scrapy默認的網站爬取成功時的回調函數蚕断，所以它一定有一個response參數

將數據存到MySQL中

上面編寫的spider類是用來爬蟲欢伏，他只負責獲取數據，而錄入數據則是在“管道文件”pipelines中完成
首先在settings文件中啟用管道類

ITEM_PIPELINES = {
   # 'myScrapyProject.pipelines.MyscrapyprojectPipeline': 300,
   # 類名稱:優(yōu)先級（0-1000）
   'myScrapyProject.pipelines.MyscrapyprojectPipeline': 300,
}

編寫管道類

# -*- coding: utf-8 -*-
import pymysql


class MyscrapyprojectPipeline(object):
    # 爬蟲開始運行的時候運行
    def open_spider(self, spider):
        print("連接數據庫")
        self.connect = pymysql.connect(
            host='127.0.0.1',
            port=3306,
            db='test',
            user='admin',
            passwd='123456',
            charset='utf8')
        self.cursor = self.connect.cursor()

    # 爬蟲獲取的數據并不是直接傳入管道中亿乳，而是賦值到items的item中硝拧，然后item作為參數傳入到該方法中
    # 最終數據可以通過管道文件寫入到數據庫中
    def process_item(self, item, spider):
        # print(spider.name)
        print("sql")
        insert_sql = "insert into prize(title,content) values('{}','{}')".format(item['title'], item['content'])
        print(insert_sql)
        self.cursor.execute(insert_sql)
        self.connect.commit()
        return item

    # 爬蟲關閉時調用
    def spider_close(self, spider):
        self.connect.close()

編寫item

class MyscrapyprojectItem(scrapy.Item):
    title = scrapy.Field()
    content = scrapy.Field()

修改爬蟲文件

class PrizeSpider(scrapy.Spider):
    # 爬蟲名稱
    name = "prize"
    # 目標網址，爬蟲啟動后自動爬取得鏈接葛假，列表內可以放多個鏈接
    start_urls = ['http://www.cgscgs.org.cn/drupal/?q=node/95']

    # 爬蟲啟動時河爹，爬取鏈接成功后自動回調的函數，默認parse桐款，參數self和response
    def parse(self, response):
        print(response)
        # 實例化item對象
        pr = MyscrapyprojectItem()
        title_list = response.xpath("http://*[@id='node-95']/div[1]/dl/dt/a/text()").extract()
        content_list = response.xpath("http://*[@id='node-95']/div[1]/dl/dd/text()").extract()
        for i, j in zip(title_list, content_list):
            # 將爬取的數據寫入到item中
            pr['title'] = i
            pr['content'] = j
            # 注意這里要用yield咸这，因為item是單個傳遞的
            # yield可以理解為return，將pr返回魔眨，但是下一次警戒著上次的循環(huán)繼續(xù)執(zhí)行
            yield pr

最后編輯于：2018.07.18 16:50:29

?著作權歸作者所有,轉載或內容合作請聯系作者

人面猴
序言：七十年代末媳维，一起剝皮案震驚了整個濱河市，隨后出現的幾起案子遏暴，更是在濱河造成了極大的恐慌侄刽，老刑警劉巖，帶你破解...
沈念sama閱讀 219,490評論 6贊 508
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件朋凉，死亡現場離奇詭異州丹，居然都是意外死亡，警方通過查閱死者的電腦和手機，發(fā)現死者居然都...
沈念sama閱讀 93,581評論 3贊 395
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門墓毒，熙熙樓的掌柜王于貴愁眉苦臉地迎上來吓揪，“玉大人，你說我怎么就攤上這事所计∧牵” “怎么了？”我有些...
開封第一講書人閱讀 165,830評論 0贊 356
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長。經常有香客問我赶舆，道長，這世上最難降的妖魔是什么焙格？我笑而不...
開封第一講書人閱讀 58,957評論 1贊 295
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮夷都，結果婚禮上间螟，老公的妹妹穿的比我還像新娘。我一直安慰自己损肛，他們只是感情好，可當我...
茶點故事閱讀 67,974評論 6贊 393
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布荣瑟。她就那樣靜靜地躺著治拿，像睡著了一般。火紅的嫁衣襯著肌膚如雪笆焰。梳的紋絲不亂的頭發(fā)上劫谅，一...
開封第一講書人閱讀 51,754評論 1贊 307
城市分裂傳說
那天，我揣著相機與錄音嚷掠，去河邊找鬼捏检。笑死，一個胖子當著我的面吹牛不皆，可吹牛的內容都是我干的贯城。我是一名探鬼主播，決...
沈念sama閱讀 40,464評論 3贊 420
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼霹娄，長吁一口氣：“原來是場噩夢啊……” “哼能犯！你這毒婦竟也來了？” 一聲冷哼從身側響起犬耻，我...
開封第一講書人閱讀 39,357評論 0贊 276
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤踩晶，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后枕磁，有當地人在樹林里發(fā)現了一具尸體渡蜻，經...
沈念sama閱讀 45,847評論 1贊 317
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內容為張勛視角年9月15日...
茶點故事閱讀 37,995評論 3贊 338
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時候發(fā)現自己被綠了茸苇。大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片排苍。...
茶點故事閱讀 40,137評論 1贊 351
活死人
序言：一個原本活蹦亂跳的男人離奇死亡，死狀恐怖税弃，靈堂內的尸體忽然破棺而出纪岁，到底是詐尸還是另有隱情，我是刑警寧澤则果，帶...
沈念sama閱讀 35,819評論 5贊 346
?日本核電站爆炸內幕
正文年R本政府宣布幔翰，位于F島的核電站，受9級特大地震影響西壮，放射性物質發(fā)生泄漏遗增。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點故事閱讀 41,482評論 3贊 331
男人毒藥：我在死后第九天來索命
文/蒙蒙一款青、第九天我趴在偏房一處隱蔽的房頂上張望做修。院中可真熱鬧，春花似錦抡草、人聲如沸饰及。這莊子的主人今日做“春日...
開封第一講書人閱讀 32,023評論 0贊 22
一樁弒父案康震，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽燎含。三九已至，卻和暖如春腿短，著一層夾襖步出監(jiān)牢的瞬間屏箍，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 33,149評論 1贊 272
情欲美人皮
我被黑心中介騙來泰國打工橘忱，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留赴魁，地道東北人。一個月前我還...
沈念sama閱讀 48,409評論 3贊 373
代替公主和親
正文我出身青樓钝诚，卻偏偏與公主長得像颖御，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子凝颇，可洞房花燭夜當晚...
茶點故事閱讀 45,086評論 2贊 355

Scrapy入門

Scrapy入門

參考資料：

我的測試：

新建項目

項目目錄結構

新建爬蟲

打開PyCharm命令行

將數據存到MySQL中

推薦閱讀更多精彩內容