scrapy入門之【什么值得買】（1）

什么值得買：大型比價(jià) / 推送網(wǎng)站

現(xiàn)狀

網(wǎng)站內(nèi)信息雜亂，很多商家自薦信息并無(wú)用
水軍

目標(biāo)：

爬取數(shù)據(jù)
存入mongoDB
數(shù)據(jù)分析
數(shù)據(jù)挖掘
可視化

構(gòu)思一個(gè)精準(zhǔn)定位特價(jià)產(chǎn)品的程序

不廢話直接開(kāi)扒，跳過(guò)安裝肆良，網(wǎng)上很多教程坏瞄，這里使用的 windows 安裝 scrapy, pycharm IDE

頁(yè)面：

首頁(yè)： url 管理器（存放url 遍歷用）
商品詳情頁(yè)：商品結(jié)構(gòu)化信息,如（發(fā)布時(shí)間，產(chǎn)品標(biāo)簽译柏、評(píng)論等）
爆料者信息頁(yè)面：爆料者等級(jí) 酗失，是否商家自薦，粉絲數(shù)量等來(lái)確定此發(fā)布是否有價(jià)值

分頁(yè)規(guī)則：http://www.smzdm.com/p + pageNum(頁(yè)碼數(shù))

一墩崩、首頁(yè)

Paste_Image.png

二、詳情頁(yè)面

Paste_Image.png

三侯勉、爆料人頁(yè)面

Paste_Image.png

代碼

1.新建一個(gè)spider (爬蟲(chóng)引擎)

import scrapy
from scrapy.selector import Selector
from first_project.items import smzdmItem

class mySpider(scrapy.Spider): # 繼承 spider
name = "smzdm" #名稱

初始化方法

def __init__(self,pageNumFrom=1,pageNumTo=None,*args,**kwargs):
    start_urls = []
    for i in range(int(pageNumFrom),int(pageNumTo)):
        start_urls.append('http://www.smzdm.com/p'+ str(i))
    self.start_urls = start_urls   ## 參數(shù) 控制頁(yè)碼

自動(dòng)調(diào)用parse() 接收每個(gè)初始url完成下載后生成的 response

 def parse(self, response):
     selector = Selector(response)
     goods = selector.xpath('//ul[@id="feed-main-list"]/li[@class="feed-row-wide  "]/h5/a/@href').extract()
     num = 0
     item_list = []
     for href in goods:
        num += 1
        item = smzdmItem()

        #頁(yè)面規(guī)則 li[序列數(shù)]  廣告位要剔除ｐ谐铩！址貌！  (元素[@屬性名稱 = ""][索引值] 并列條件 剔除廣告位)
        #發(fā)布時(shí)間
        pub_time = selector.xpath('//*[@id="feed-main-list"]/li[@class="feed-row-wide  "]['+str(num)+']/div/div[2]/div[3]/div[2]/span/text()').extract_first()
        #來(lái)源網(wǎng)站
        from_web = selector.xpath('//*[@id="feed-main-list"]/li[@class="feed-row-wide  "]['+str(num)+']/div/div[2]/div[3]/div[2]/span/a/text()').extract_first()
        #購(gòu)買網(wǎng)址
        purchase_url = selector.xpath('//*[@id="feed-main-list"]/li[@class="feed-row-wide  "]['+str(num)+']/div/div[2]/div[3]/div[2]/span/a/@href').extract_first()


        if self.crawl_today:
            if "-" in pub_time:
                self.start_urls = []
                break

        dt = time.strftime('%m-%d', time.localtime(time.time()))
        item['pub_time'] = str(dt) + str(pub_time)
        item['from_web'] = from_web
        item['purchase_url'] = purchase_url

        item = scrapy.Request(href, meta={'item': item}, callback=self.parse_dir_cotents)  # 遞歸查詢
        item_list.append(item)
     for a in item_list:
        yield a

遞歸爬取產(chǎn)品詳細(xì)頁(yè)面

def parse_dir_cotents(self,response):

    item = response.meta['item']

    #標(biāo)題組成
    title = response.xpath('//div[1]/article/div[1]/div[2]/h1/em[1]/text()').extract_first()

    price = response.xpath('//div[1]/article/div[1]/div[2]/h1/em[2]/em/text()').extract_first()
    title_detail = response.xpath('//div[1]/article/div[1]/div[2]/h1/em[2]/span/text()').extract()

    recommender = response.xpath('//div[1]/article/div[1]/div[2]/div/div[1]/span[1]/a/text()').extract()
    update_time = response.xpath('//div[1]/div[2]/div/div[1]/span[2]/text()').extract_first()
    if update_time is not None:
        update_time = update_time.replace("更新時(shí)間：","")

    # 產(chǎn)品描述  detail_info_
    detail_info = response.xpath('//*/p[@itemprop="description"]')
    detail_info_text = detail_info.xpath('string(.)').extract()[0]  # 獲取元素下所有文本
    # 商品標(biāo)簽
    label = response.xpath('//*/div[@class="meta-tags"]/a/text()').extract()
    # 購(gòu)買鏈接
    purchase_url = response.xpath('//div[1]/article/div[1]/div[2]/div/div[3]/div/a/@href').extract_first()

    #評(píng)論數(shù)量
    comment_num = response.xpath('//*[@id="panelTitle"]/span/em/text()').extract_first()
    #最新評(píng)論  //  id = commentTabBlockHot  最熱評(píng)論
    comment_info = response.xpath('//div[@id="commentTabBlockNew"]//span[@itemprop="description"]/text()').extract()

    #值不值
    worth = response.xpath('// *[ @ id = "rating_worthy_num"]/text()').extract_first()
    unworth = response.xpath('//*[@id="rating_unworthy_num"]/text()').extract_first()

    #位置導(dǎo)航
    position = response.xpath('//div[@class="crumbsCate"]/a/span/text()').extract();
    if len(position) > 0:
        del position[0]

    item['title'] = str(title).strip()
    item['price'] = str(price)
    item['title_detail'] = str(title_detail[0]).strip()

    item['update_time'] = str(update_time)

    item['detail_info'] = str(detail_info_text)

    item['label'] = str(label)
    item['purchase_url'] = str(purchase_url)

    item['comment_num'] = comment_num
    item['comment_info'] = str(comment_info)

    item['worth'] = str(worth).strip()
    item['unworth'] = str(unworth).strip()
    item['position'] = str(position)

    recommender_url = ''
    if len(recommender) == 0:
        recommender = '商家自薦'
        item['recommender'] = recommender
    else:
        # 通過(guò)爆料人 遞歸到爆料人頁(yè)面 獲取信息
        item['recommender'] = recommender[0]
        recommender_url = response.xpath('//div[1]/article/div[1]/div[2]/div/div[1]/span[1]/a/@href').extract()
        item = scrapy.Request(recommender_url[0], meta={'item': item}, callback=self.recommender_info)

    return item

遞歸爬取爆料者頁(yè)面

def recommender_info(self,response):
    item = response.meta['item']
    level = response.xpath('/html/body/div[1]/div[1]/div[1]/div[1]/div[2]/@title').extract_first()
    stars_num = response.xpath('//div[1]/div[2]/div[1]/a[2]/span/text()').extract_first()
    #爆料者等級(jí)
    item['level'] = level
    #粉絲數(shù)量
    item['stars_num'] = stars_num
    return item  # ps：yield 修改為了 return``

ps

xpath
"/" 表示絕對(duì)路徑如何獲取xpath路徑（chrome / 360 同理铐拐、其他沒(méi)試過(guò)）
"http://" 表示相對(duì)路徑（直接定位到元素級(jí)別）
遞歸爬取
yield scrapy.Request(recommender_url[0], meta={'item': item}, callback=self.recommender_info)
parm1 = 遞歸地址（如詳情頁(yè)面/爆料人頁(yè)面）
param2 = 對(duì)象（item 對(duì)象頁(yè)面間的傳遞）
（item = response.meta['item'] 接收）
param3 = 調(diào)用方法

此處是兩級(jí)遞歸

主頁(yè)面>>詳細(xì)頁(yè)面>>爆料者頁(yè)面

item 類（對(duì)象概念）

Paste_Image.png

pipelines 管道 (數(shù)據(jù)出口處理\流出)

    def __init__(self):
        # 鏈接數(shù)據(jù)庫(kù)
        self.client = pymongo.MongoClient(host=settings['MONGO_HOST'], port=settings['MONGO_PORT'])
        # 數(shù)據(jù)庫(kù)登錄需要帳號(hào)密碼的話
        # self.client.admin.authenticate(settings['MINGO_USER'], settings['MONGO_PSW'])
        self.db = self.client[settings['MONGO_DB']]  # 獲得數(shù)據(jù)庫(kù)的句柄
        self.coll = self.db[settings['MONGO_COLL']]  # 獲得collection的句柄
        print(self.coll)

    def process_item(self, item, smzdm):
        postItem = dict(item)  # 把item轉(zhuǎn)化成字典形式
        self.coll.insert(postItem)  # 向數(shù)據(jù)庫(kù)插入一條記錄
        return item  # 會(huì)在控制臺(tái)輸出原item數(shù)據(jù)，可以選擇不寫

settings (全局配置)

配置 headers (request 404)
配置管道等

BOT_NAME = 'first_project'

SPIDER_MODULES = ['first_project.spiders']
NEWSPIDER_MODULE = 'first_project.spiders'

USER_AGENT = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_8_3) AppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084.54 Safari/536.5'

#mongoDB settings
ITEM_PIPELINES = {
    'first_project.pipelines.smzdmPipeline': 300,
}
MONGO_HOST = "127.0.0.1"  # 主機(jī)IP
MONGO_PORT = 27017  # 端口號(hào)
MONGO_DB = "lyx"  # 庫(kù)名
MONGO_COLL = "smzdm"  # collection名
# MONGO_USER = "zhangsan"
# MONGO_PSW = "123456"

控制臺(tái) 執(zhí)行

scrapy crawl smzdm -o smzdm.json -a pageNumFrom = 1 - a pageNumTo = 100 -s FEED_EXPORT_ENCODING=utf-8'''

-o 存儲(chǔ)本地 json文件
-a 參數(shù)傳遞從第一頁(yè) 到一百頁(yè)
-s 指定編碼
--nolog 不顯示日志

Paste_Image.png

spider 代碼處做了修改 ps 已標(biāo)注（python yield 一定要系統(tǒng)的學(xué)習(xí)练对，由于不懂就去使用導(dǎo)致遞歸到第二層信息存不到item ,改為return修復(fù)好）

下一篇對(duì)數(shù)據(jù)進(jìn)行處理并做定時(shí)爬取任務(wù)

最后編輯于：2017.12.10 01:46:05

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末遍蟋，一起剝皮案震驚了整個(gè)濱河市，隨后出現(xiàn)的幾起案子螟凭，更是在濱河造成了極大的恐慌虚青，老刑警劉巖，帶你破解...
沈念sama閱讀 223,126評(píng)論 6贊 520
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件螺男，死亡現(xiàn)場(chǎng)離奇詭異棒厘，居然都是意外死亡纵穿，警方通過(guò)查閱死者的電腦和手機(jī)，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 95,421評(píng)論 3贊 400
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門奢人，熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)谓媒，“玉大人，你說(shuō)我怎么就攤上這事何乎【涔撸” “怎么了？”我有些...
開(kāi)封第一講書人閱讀 169,941評(píng)論 0贊 366
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵支救，是天一觀的道長(zhǎng)抢野。經(jīng)常有香客問(wèn)我，道長(zhǎng)搂妻，這世上最難降的妖魔是什么蒙保？我笑而不...
開(kāi)封第一講書人閱讀 60,294評(píng)論 1贊 300
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮欲主，結(jié)果婚禮上邓厕，老公的妹妹穿的比我還像新娘。我一直安慰自己扁瓢，他們只是感情好详恼，可當(dāng)我...
茶點(diǎn)故事閱讀 69,295評(píng)論 6贊 398
惡毒庶女頂嫁案：這布局不是一般人想出來(lái)的
文/花漫我一把揭開(kāi)白布。她就那樣靜靜地躺著引几，像睡著了一般昧互。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上伟桅，一...
開(kāi)封第一講書人閱讀 52,874評(píng)論 1贊 314
城市分裂傳說(shuō)
那天敞掘，我揣著相機(jī)與錄音，去河邊找鬼楣铁。笑死玖雁，一個(gè)胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的盖腕。我是一名探鬼主播赫冬，決...
沈念sama閱讀 41,285評(píng)論 3贊 424
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開(kāi)眼，長(zhǎng)吁一口氣：“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼溃列！你這毒婦竟也來(lái)了劲厌？” 一聲冷哼從身側(cè)響起，我...
開(kāi)封第一講書人閱讀 40,249評(píng)論 0贊 277
萬(wàn)榮殺人案實(shí)錄
序言：老撾萬(wàn)榮一對(duì)情侶失蹤听隐，失蹤者是張志新（化名）和其女友劉穎补鼻，沒(méi)想到半個(gè)月后，有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 46,760評(píng)論 1贊 321
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡辽幌，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 38,840評(píng)論 3贊 343
?白月光啟示錄
正文我和宋清朗相戀三年增淹，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片乌企。...
茶點(diǎn)故事閱讀 40,973評(píng)論 1贊 354
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡虑润，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出加酵，到底是詐尸還是另有隱情拳喻，我是刑警寧澤，帶...
沈念sama閱讀 36,631評(píng)論 5贊 351
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布猪腕，位于F島的核電站冗澈，受9級(jí)特大地震影響，放射性物質(zhì)發(fā)生泄漏陋葡。R本人自食惡果不足惜亚亲，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 42,315評(píng)論 3贊 336
男人毒藥：我在死后第九天來(lái)索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望腐缤。院中可真熱鬧捌归，春花似錦、人聲如沸岭粤。這莊子的主人今日做“春日...
開(kāi)封第一講書人閱讀 32,797評(píng)論 0贊 25
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)剃浇。三九已至巾兆，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間虎囚，已是汗流浹背角塑。一陣腳步聲響...
開(kāi)封第一講書人閱讀 33,926評(píng)論 1贊 275
情欲美人皮
我被黑心中介騙來(lái)泰國(guó)打工，沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留淘讥，地道東北人吉拳。一個(gè)月前我還...
沈念sama閱讀 49,431評(píng)論 3贊 379
代替公主和親
正文我出身青樓，卻偏偏與公主長(zhǎng)得像适揉，于是被迫代替她去往敵國(guó)和親。傳聞我的和親對(duì)象是個(gè)殘疾皇子煤惩，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 45,982評(píng)論 2贊 361

scrapy入門之【什么值得買】（1）

什么值得買：大型比價(jià) / 推送網(wǎng)站

現(xiàn)狀

目標(biāo)：

一墩崩、首頁(yè)

二、詳情頁(yè)面

三侯勉、爆料人頁(yè)面

代碼

初始化方法

自動(dòng)調(diào)用parse() 接收每個(gè)初始url完成下載后生成的 response

遞歸爬取 產(chǎn)品詳細(xì)頁(yè)面

遞歸爬取 爆料者頁(yè)面

ps

此處是 兩級(jí)遞歸

settings (全局配置)

推薦閱讀更多精彩內(nèi)容

遞歸爬取產(chǎn)品詳細(xì)頁(yè)面

遞歸爬取爆料者頁(yè)面

此處是兩級(jí)遞歸