什么值得買:大型比價(jià) / 推送網(wǎng)站
現(xiàn)狀
- 網(wǎng)站內(nèi)信息雜亂,很多商家自薦信息 并無(wú)用
- 水軍
目標(biāo):
爬取數(shù)據(jù)
存入mongoDB
數(shù)據(jù)分析
數(shù)據(jù)挖掘
可視化
構(gòu)思一個(gè)精準(zhǔn)定位特價(jià)產(chǎn)品的程序
不廢話 直接開(kāi)扒,跳過(guò)安裝 肆良,網(wǎng)上很多 教程坏瞄,這里使用的 windows 安裝 scrapy, pycharm IDE
頁(yè)面:
- 首頁(yè): url 管理器 (存放url 遍歷用)
- 商品詳情頁(yè):商品結(jié)構(gòu)化信息,如 (發(fā)布時(shí)間,產(chǎn)品標(biāo)簽译柏、評(píng)論等)
- 爆料者信息頁(yè)面:爆料者等級(jí) 酗失,是否商家自薦,粉絲數(shù)量等 來(lái)確定此發(fā)布是否有價(jià)值
分頁(yè)規(guī)則:http://www.smzdm.com/p + pageNum(頁(yè)碼數(shù))
一墩崩、首頁(yè)
二、詳情頁(yè)面
三侯勉、爆料人頁(yè)面
代碼
1.新建一個(gè)spider (爬蟲(chóng)引擎)
import scrapy
from scrapy.selector import Selector
from first_project.items import smzdmItem
class mySpider(scrapy.Spider): # 繼承 spider
name = "smzdm" #名稱
初始化方法
def __init__(self,pageNumFrom=1,pageNumTo=None,*args,**kwargs):
start_urls = []
for i in range(int(pageNumFrom),int(pageNumTo)):
start_urls.append('http://www.smzdm.com/p'+ str(i))
self.start_urls = start_urls ## 參數(shù) 控制頁(yè)碼
自動(dòng)調(diào)用parse() 接收每個(gè)初始url完成下載后生成的 response
def parse(self, response):
selector = Selector(response)
goods = selector.xpath('//ul[@id="feed-main-list"]/li[@class="feed-row-wide "]/h5/a/@href').extract()
num = 0
item_list = []
for href in goods:
num += 1
item = smzdmItem()
#頁(yè)面規(guī)則 li[序列數(shù)] 廣告位要剔除p谐铩!址貌! (元素[@屬性名稱 = ""][索引值] 并列條件 剔除廣告位)
#發(fā)布時(shí)間
pub_time = selector.xpath('//*[@id="feed-main-list"]/li[@class="feed-row-wide "]['+str(num)+']/div/div[2]/div[3]/div[2]/span/text()').extract_first()
#來(lái)源網(wǎng)站
from_web = selector.xpath('//*[@id="feed-main-list"]/li[@class="feed-row-wide "]['+str(num)+']/div/div[2]/div[3]/div[2]/span/a/text()').extract_first()
#購(gòu)買網(wǎng)址
purchase_url = selector.xpath('//*[@id="feed-main-list"]/li[@class="feed-row-wide "]['+str(num)+']/div/div[2]/div[3]/div[2]/span/a/@href').extract_first()
if self.crawl_today:
if "-" in pub_time:
self.start_urls = []
break
dt = time.strftime('%m-%d', time.localtime(time.time()))
item['pub_time'] = str(dt) + str(pub_time)
item['from_web'] = from_web
item['purchase_url'] = purchase_url
item = scrapy.Request(href, meta={'item': item}, callback=self.parse_dir_cotents) # 遞歸查詢
item_list.append(item)
for a in item_list:
yield a
遞歸爬取 產(chǎn)品詳細(xì)頁(yè)面
def parse_dir_cotents(self,response):
item = response.meta['item']
#標(biāo)題組成
title = response.xpath('//div[1]/article/div[1]/div[2]/h1/em[1]/text()').extract_first()
price = response.xpath('//div[1]/article/div[1]/div[2]/h1/em[2]/em/text()').extract_first()
title_detail = response.xpath('//div[1]/article/div[1]/div[2]/h1/em[2]/span/text()').extract()
recommender = response.xpath('//div[1]/article/div[1]/div[2]/div/div[1]/span[1]/a/text()').extract()
update_time = response.xpath('//div[1]/div[2]/div/div[1]/span[2]/text()').extract_first()
if update_time is not None:
update_time = update_time.replace("更新時(shí)間:","")
# 產(chǎn)品描述 detail_info_
detail_info = response.xpath('//*/p[@itemprop="description"]')
detail_info_text = detail_info.xpath('string(.)').extract()[0] # 獲取元素下所有文本
# 商品標(biāo)簽
label = response.xpath('//*/div[@class="meta-tags"]/a/text()').extract()
# 購(gòu)買鏈接
purchase_url = response.xpath('//div[1]/article/div[1]/div[2]/div/div[3]/div/a/@href').extract_first()
#評(píng)論數(shù)量
comment_num = response.xpath('//*[@id="panelTitle"]/span/em/text()').extract_first()
#最新評(píng)論 // id = commentTabBlockHot 最熱評(píng)論
comment_info = response.xpath('//div[@id="commentTabBlockNew"]//span[@itemprop="description"]/text()').extract()
#值不值
worth = response.xpath('// *[ @ id = "rating_worthy_num"]/text()').extract_first()
unworth = response.xpath('//*[@id="rating_unworthy_num"]/text()').extract_first()
#位置導(dǎo)航
position = response.xpath('//div[@class="crumbsCate"]/a/span/text()').extract();
if len(position) > 0:
del position[0]
item['title'] = str(title).strip()
item['price'] = str(price)
item['title_detail'] = str(title_detail[0]).strip()
item['update_time'] = str(update_time)
item['detail_info'] = str(detail_info_text)
item['label'] = str(label)
item['purchase_url'] = str(purchase_url)
item['comment_num'] = comment_num
item['comment_info'] = str(comment_info)
item['worth'] = str(worth).strip()
item['unworth'] = str(unworth).strip()
item['position'] = str(position)
recommender_url = ''
if len(recommender) == 0:
recommender = '商家自薦'
item['recommender'] = recommender
else:
# 通過(guò)爆料人 遞歸到爆料人頁(yè)面 獲取信息
item['recommender'] = recommender[0]
recommender_url = response.xpath('//div[1]/article/div[1]/div[2]/div/div[1]/span[1]/a/@href').extract()
item = scrapy.Request(recommender_url[0], meta={'item': item}, callback=self.recommender_info)
return item
遞歸爬取 爆料者頁(yè)面
def recommender_info(self,response):
item = response.meta['item']
level = response.xpath('/html/body/div[1]/div[1]/div[1]/div[1]/div[2]/@title').extract_first()
stars_num = response.xpath('//div[1]/div[2]/div[1]/a[2]/span/text()').extract_first()
#爆料者等級(jí)
item['level'] = level
#粉絲數(shù)量
item['stars_num'] = stars_num
return item # ps:yield 修改為了 return``
ps
-
xpath
"/" 表示絕對(duì)路徑 如何獲取xpath路徑 (chrome / 360 同理 铐拐、其他沒(méi)試過(guò))
"http://" 表示相對(duì)路徑 (直接定位到元素級(jí)別) - 遞歸爬取
yield scrapy.Request(recommender_url[0], meta={'item': item}, callback=self.recommender_info)
parm1 = 遞歸地址 (如詳情頁(yè)面/爆料人頁(yè)面)
param2 = 對(duì)象 (item 對(duì)象 頁(yè)面間的傳遞)
(item = response.meta['item'] 接收)
param3 = 調(diào)用方法
此處是 兩級(jí)遞歸
主頁(yè)面>>詳細(xì)頁(yè)面>>爆料者頁(yè)面
item 類 (對(duì)象概念)
pipelines 管道 (數(shù)據(jù)出口處理\流出)
def __init__(self):
# 鏈接數(shù)據(jù)庫(kù)
self.client = pymongo.MongoClient(host=settings['MONGO_HOST'], port=settings['MONGO_PORT'])
# 數(shù)據(jù)庫(kù)登錄需要帳號(hào)密碼的話
# self.client.admin.authenticate(settings['MINGO_USER'], settings['MONGO_PSW'])
self.db = self.client[settings['MONGO_DB']] # 獲得數(shù)據(jù)庫(kù)的句柄
self.coll = self.db[settings['MONGO_COLL']] # 獲得collection的句柄
print(self.coll)
def process_item(self, item, smzdm):
postItem = dict(item) # 把item轉(zhuǎn)化成字典形式
self.coll.insert(postItem) # 向數(shù)據(jù)庫(kù)插入一條記錄
return item # 會(huì)在控制臺(tái)輸出原item數(shù)據(jù),可以選擇不寫
settings (全局配置)
配置 headers (request 404)
配置 管道 等
BOT_NAME = 'first_project'
SPIDER_MODULES = ['first_project.spiders']
NEWSPIDER_MODULE = 'first_project.spiders'
USER_AGENT = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_8_3) AppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084.54 Safari/536.5'
#mongoDB settings
ITEM_PIPELINES = {
'first_project.pipelines.smzdmPipeline': 300,
}
MONGO_HOST = "127.0.0.1" # 主機(jī)IP
MONGO_PORT = 27017 # 端口號(hào)
MONGO_DB = "lyx" # 庫(kù)名
MONGO_COLL = "smzdm" # collection名
# MONGO_USER = "zhangsan"
# MONGO_PSW = "123456"
控制臺(tái) 執(zhí)行
scrapy crawl smzdm -o smzdm.json -a pageNumFrom = 1 - a pageNumTo = 100 -s FEED_EXPORT_ENCODING=utf-8'''
-o 存儲(chǔ)本地 json文件
-a 參數(shù)傳遞 從第一頁(yè) 到 一百頁(yè)
-s 指定編碼
--nolog 不顯示日志
spider 代碼處做了修改 ps 已標(biāo)注(python yield 一定要系統(tǒng)的學(xué)習(xí)练对,由于不懂就去使用 導(dǎo)致 遞歸到第二層 信息存不到item ,改為return修復(fù)好)
下一篇 對(duì)數(shù)據(jù)進(jìn)行處理 并做定時(shí)爬取任務(wù)