day07-scrapy

前景提要

  • 請求網(wǎng)站: urllib/requests/selenium/scrapy
  • 解析源碼: lxml/bs4/re/scrapy(xpath)
  • 存儲: MySQL, mongo
  • 反爬: woff纤怒、user-agent雹洗、ip幕帆、ajax祥诽、cookie诸典、referer
  • 反反爬: 大眾點評(字體woff)、貓眼漠酿、fake_useragent憔鬼、ip代理池、分析js观话、驗證碼

框架scrapy

  • 框架scrapy == >>twisted(異步)

1. 安裝scrapy

  • pip install scrapy --- 報錯 安裝twisted
  • easy_install pywin32-221.win-amd64-py3.6.exe
  • twisted安裝:pip install Twisted-19.2.1-cp37-cp37m-win_amd64.whl
  • 在安裝scrapy - pip install scrapy

2. 初建項目

  • scrapy startproject TestSpider - 創(chuàng)建項目
  • cd TestSpider
  • scrapy genspider qidian www.qidian.com - 創(chuàng)建爬蟲文件文件名是qidian.py予借, 爬取的網(wǎng)站是www.qidian.com
  • scrapy crawl qidian - 啟動爬蟲

3. 爬取豆瓣電影

  • scrapy執(zhí)行過程


    spider_scrapy_zhujian.png
"""__author__= 雍新有"""
from scrapy import Selector, Spider, Request


class DouBanSpider(Spider):
    # 爬蟲名
    name = 'douban'
    # 爬取地址, 爬蟲默認(rèn)從start_urls列表中取地址進行爬取,
    # 寫一個parse不指定該解析哪個response,所有分開寫
    # start_urls = ['正在上映url', '即將上映url', '即將上映全部電影url']

    # 正在上映url
    nowplaying_url = 'https://movie.douban.com/cinema/nowplaying/chengdu/'
    # 即將上映url
    later_url = 'https://movie.douban.com/cinema/later/chengdu/'
    # 即將上映全部電影url
    coming_url = 'https://movie.douban.com/coming'

    def start_requests(self):
        # 自定義發(fā)送的請求频蛔,請求地址的響應(yīng)通過callback參數(shù)來指定
        yield Request(url=self.nowplaying_url,
                      callback=self.parse_nowplaying)

        yield Request(url=self.coming_url,
                      callback=self.parse_coming)

        yield Request(url=self.later_url,
                      callback=self.parse_later)

    def parse_nowplaying(self, response):
        sel = Selector(response)
        # 拿到電影列表
        nowplaying_movies = sel.xpath('//*[@id="nowplaying"]/div[2]/ul/li')
        for movie in nowplaying_movies:
            # 第一個a標(biāo)簽灵迫,電影鏈接
            href = movie.xpath('./ul/li/a/@href').extract_first()
            yield Request(url=href, callback=self.parse_detail)

    def parse_coming(self, response):
        sel = Selector(response)
        # 即將上映的電影列表
        coming_movies = sel.xpath('//*[@id="content"]/div/div[1]/table/tbody/tr')
        for movie in coming_movies:
            href = movie.xpath('./td[2]/a/@href').extract_first()
            yield Request(url=href, callback=self.parse_detail)

    def parse_later(self, response):
        sel = Selector(response)
        later_movies = sel.xpath('//*[@id="showing-soon"]/div')
        for movie in later_movies:
            href = movie.xpath('./a/@href').extract_first('')
            yield Request(url=href, callback=self.parse_detail)

    def parse_detail(self, response):
        # 回調(diào)用于解析電影詳情內(nèi)容
        sel = Selector(response)
        # 電影名稱
        name = sel.xpath('//*[@id="content"]/h1/span[1]/text()').extract_first()
        # 上映時間
        coming_time = sel.xpath('//*[@property="v:initialReleaseDate"]/text()').extract_first()
        print(f'{name}上映時間為{coming_time}')
        item = TestspiderItem()
        item['name'] = name
        item['coming_time'] = coming_time
        # 這里的yield是把數(shù)據(jù)返回給通道然后存在數(shù)據(jù)庫
        yield item

  • 爬取多頁的網(wǎng)站
name = 'jobs'

    boss_url = 'https://www.zhipin.com/c101270100/?query=python&page=%s&ka=page-%s'

    def start_requests(self):
        for i in range(1, 6):
            print(self.boss_url % (i, i))
            yield Request(url=self.boss_url % (i, i),
                          callback=self.parse_boss)
name = 'guazi'
    guazi_urls = 'https://www.guazi.com/cd/buy/o{page}/#bread'

    def start_requests(self):
        for i in range(1, 51):
            print(self.guazi_urls.format(page=i))
            yield Request(url=self.guazi_urls.format(page=i),
                          callback=self.parse_guazi)

1.3.1 要改的settings參數(shù)

  • 19行
USER_AGENT = 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36'

為了改ip

  1. 改settings
  • 55行
DOWNLOADER_MIDDLEWARES = {
   # 'TestSpider.middlewares.TestspiderDownloaderMiddleware': 543,
    'TestSpider.middlewares.ProxyMiddleware': 543,

}
  1. 改middlewares

class ProxyMiddleware():

    def process_request(self, request, spider):
        request.meta['proxy'] = 'http://213.178.38.246:51967'
        # res  = request.get('127.0.0.1:500/get')
        # request.meta['proxy'] = 'http://' + res
        # 返回None,表示繼續(xù)執(zhí)行請求
        return None

4. item實體的定義和json格式數(shù)據(jù)的導(dǎo)出

  • item就相當(dāng)于模型model
    items中

import scrapy

class TestspiderItem(scrapy.Item):
    # define the fields for your item here like:
    name = scrapy.Field()
    coming_time = scrapy.Field()

  • 在douabn文件的最后添加
item = TestspiderItem()
        item['name'] = name
        item['coming_time'] = coming_time
        # 這里的yield是把數(shù)據(jù)返回給通道然后存在數(shù)據(jù)庫
        yield item

后臺運行 -- 導(dǎo)入json數(shù)據(jù)

  • cd TestSpider
  • scrapy crawl douban -o douban.json
  • settings最后添加下列代碼 - 設(shè)置存儲中文到j(luò)son文件中的格式
    FEED_EXPORT_ENCODING='utf-8'
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末晦溪,一起剝皮案震驚了整個濱河市瀑粥,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌三圆,老刑警劉巖狞换,帶你破解...
    沈念sama閱讀 210,978評論 6 490
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異舟肉,居然都是意外死亡修噪,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 89,954評論 2 384
  • 文/潘曉璐 我一進店門路媚,熙熙樓的掌柜王于貴愁眉苦臉地迎上來黄琼,“玉大人,你說我怎么就攤上這事整慎≡嗫睿” “怎么了围苫?”我有些...
    開封第一講書人閱讀 156,623評論 0 345
  • 文/不壞的土叔 我叫張陵,是天一觀的道長弛矛。 經(jīng)常有香客問我够吩,道長,這世上最難降的妖魔是什么丈氓? 我笑而不...
    開封第一講書人閱讀 56,324評論 1 282
  • 正文 為了忘掉前任周循,我火速辦了婚禮,結(jié)果婚禮上万俗,老公的妹妹穿的比我還像新娘湾笛。我一直安慰自己,他們只是感情好闰歪,可當(dāng)我...
    茶點故事閱讀 65,390評論 5 384
  • 文/花漫 我一把揭開白布嚎研。 她就那樣靜靜地躺著,像睡著了一般库倘。 火紅的嫁衣襯著肌膚如雪临扮。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,741評論 1 289
  • 那天教翩,我揣著相機與錄音杆勇,去河邊找鬼。 笑死饱亿,一個胖子當(dāng)著我的面吹牛蚜退,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播彪笼,決...
    沈念sama閱讀 38,892評論 3 405
  • 文/蒼蘭香墨 我猛地睜開眼钻注,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了配猫?” 一聲冷哼從身側(cè)響起幅恋,我...
    開封第一講書人閱讀 37,655評論 0 266
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎泵肄,沒想到半個月后佳遣,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 44,104評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡凡伊,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,451評論 2 325
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了窒舟。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片系忙。...
    茶點故事閱讀 38,569評論 1 340
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖惠豺,靈堂內(nèi)的尸體忽然破棺而出银还,到底是詐尸還是另有隱情风宁,我是刑警寧澤,帶...
    沈念sama閱讀 34,254評論 4 328
  • 正文 年R本政府宣布蛹疯,位于F島的核電站戒财,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏捺弦。R本人自食惡果不足惜饮寞,卻給世界環(huán)境...
    茶點故事閱讀 39,834評論 3 312
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望列吼。 院中可真熱鬧幽崩,春花似錦、人聲如沸寞钥。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,725評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽理郑。三九已至蹄溉,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間您炉,已是汗流浹背柒爵。 一陣腳步聲響...
    開封第一講書人閱讀 31,950評論 1 264
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留邻吭,地道東北人餐弱。 一個月前我還...
    沈念sama閱讀 46,260評論 2 360
  • 正文 我出身青樓,卻偏偏與公主長得像囱晴,于是被迫代替她去往敵國和親膏蚓。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 43,446評論 2 348