1.scrapy開始start_url為post請(qǐng)求:
以前的做法:在spider里面定義好start_urls趁蕊,會(huì)調(diào)用父類scrapy.Spider的start_requests次员,這樣只適用get請(qǐng)求,當(dāng)遇到post請(qǐng)求的時(shí)候該怎么辦呢捏境?
現(xiàn)在的做法:重寫父類的start_requests方法
# 當(dāng)請(qǐng)求參數(shù)是json格式
def start_requests(self):
data = {"request": {"body": {"page": 1, "row": 10}}}
# FormRequest 是Scrapy發(fā)送POST請(qǐng)求的方法
yield scrapy.Request(self.start_url, method="POST",
body=json.dumps(data),
headers={'Content-Type': 'application/json'})
# 當(dāng)請(qǐng)求參數(shù)是form表單
def start_requests(self):
form_data = {'account':'jack123@gmail.com', 'password':'123456'} # 表單數(shù)據(jù),字典格式雷厂,注意數(shù)字也要用引號(hào)引起來借笙,否則報(bào)錯(cuò)。
yield scrapy.FormRequest(url, formdata=form_data)
??form請(qǐng)求時(shí)必須是字符串格式的對(duì)象疗认,否則會(huì)出現(xiàn)以下問題:
??form請(qǐng)求時(shí)遇到多個(gè)相同的參數(shù)時(shí),會(huì)出現(xiàn)覆蓋伏钠,scrapy.FormRequest傳入的參數(shù)必須是鍵值對(duì),這個(gè)時(shí)候要把相同key的數(shù)據(jù)保存在列表中横漏,源碼中是這樣的:
這里顯示是遍歷鍵值對(duì),所以修改為:
2.scrapy爬取時(shí)熟掂,parse必須返回的是scrapy.request或者dict:
def parse(self, response):
# 解析具體的產(chǎn)品
selector = Selector(response)
for product_item in selector.xpath("http://tbody/tr"):
item = BankproductItem()
item['bankCode'] = 'cib'
item['channel'] = 'web'
item['proCode'] = re.search('lccp(.*?).png', product_item.xpath('td[9]/img/@src').extract()[0]).group(1)
# 判斷屬否有超鏈接
proName = re.search('<a[\S\s]*>(.*?)</a>', product_item.xpath('td[1]').extract()[0])
item['proName'] = proName.group(1) if (proName != None) else product_item.xpath('td[1]/text()').extract()[0]
item['incomeRate'] = product_item.xpath('td[7]/text()').extract()[0]
item['currency'] = product_item.xpath('td[4]/text()').extract()[0]
item['startDate'] = product_item.xpath('td[2]/text()').extract()[0]
item['endDate'] = product_item.xpath('td[3]/text()').extract()[0]
# 大額客戶參考凈收益率(客戶要求放在next_income_rate)
item['nextIncomeRate'] = product_item.xpath('td[8]/text()').extract()[0]
# 判斷是否含有超鏈接
href_num = len(product_item.xpath('td[1]/a/@href').extract())
if href_num > 0:
next_page_url = "{}{}".format(self.base_url, product_item.xpath('td[1]/a/@href').extract()[0])
yield scrapy.Request(next_page_url, meta={'item': item}, callback=self.parse_product_detail,
dont_filter=True)
else:
yield item
pass
3.獲取response對(duì)象的中的request屬性中的參數(shù):
#獲取body屬性缎浇,字節(jié)轉(zhuǎn)化為字符
str(response.request.body,encoding="utf-8")
4.解析table表格中遇到多行合并的情況(遇到:xpath helper插件和python xpath有區(qū)別):
# 判斷是否是購(gòu)買渠道
title = title_item.xpath("td[13]/text()").extract()[0]
if title == '購(gòu)買渠道':
# 兼容有的情況下多行合并的情況
if title_num == child_num:
item['sellChannel'] = product_item.xpath("td[13]/text()").extract()[0]
else:
siblings = len(product_item.xpath("preceding-sibling::tr"))
for i in range(1, siblings):
# 依次向上尋找兄弟節(jié)點(diǎn)
sibling = product_item.xpath("preceding-sibling::tr["+str(i)+"]")
if len(sibling.css("td")) == title_num:
item['sellChannel'] = sibling.xpath("td[13]/text()").extract()[0]
break
else:
if title_num == child_num:
item['sellChannel'] = product_item.xpath("td[15]/text()").extract()[0]
else:
# 兄弟節(jié)點(diǎn)的個(gè)數(shù)
siblings = len(product_item.xpath("preceding-sibling::tr"))
for i in range(1, siblings):
# 依次向上尋找兄弟節(jié)點(diǎn)
sibling = product_item.xpath("preceding-sibling::tr["+str(i)+"]")
if len(sibling.css("td")) == title_num:
item['sellChannel'] = sibling.xpath("td[15]/text()").extract()[0]
break
5.python中定義靜態(tài)的方法:
@staticmethod
,可以通過類名直接調(diào)用
6.遍歷一個(gè)list集合,怎么可以得到索引下標(biāo)
# enumerate將一個(gè)可遍歷的數(shù)據(jù)對(duì)象(如列表赴肚、元組或字符串)組合為一個(gè)索引序列
for index, product_item in enumerate(table_selector.xpath("tr[not(contains(td,'產(chǎn)品名稱'))]")):
7.python使用pymongo操作mongodb素跺,設(shè)置不返回_id
8.字符串分割
使用python內(nèi)部字符串的split方法,只能支持單個(gè)分隔str.split('/')
,要使用多個(gè)分隔符誉券,可以使用re庫(kù),re.split('/|=')
,不同的分割符號(hào)之間必須使用|分割開來指厌。
9.多個(gè)xpath可以一起使用,中間用|分割
# 多個(gè)xpath路徑可以一起使用
item['incomeRate'] = self.__get_xpath_value(product_item,"td[9]/strong/text()|td[9]/text()").strip()
8.scrapy自動(dòng)限速擴(kuò)展
在settings.py配置文件中設(shè)置:
啟用AutoThrottle擴(kuò)展(默認(rèn)是False):AUTOTHROTTLE_ENABLED=True
起用AutoThrottle調(diào)試(debug)模式(默認(rèn)是False):AUTOTHROTTLE_DEBUG=True
9.scrapy爬取的頁(yè)數(shù)過多踊跟,漏掉了很多數(shù)據(jù)
scrapy中默認(rèn)的頁(yè)面請(qǐng)求速度與數(shù)據(jù)下載速度過快踩验,造成服務(wù)器返回的數(shù)據(jù)為空,所以商玫,只要修改配置文件settings.py,將其中的訪問速度與下載速度調(diào)整一下:
#遵守robots協(xié)議
ROBOTSTXT_OBEY = True
#并發(fā)請(qǐng)求個(gè)數(shù)(越小越慢)
CONCURRENT_REQUESTS = 1
#下載延遲時(shí)間(越大請(qǐng)求越慢)
DOWNLOAD_DELAY = 5
#默認(rèn)False;為True表示啟用AUTOTHROTTLE擴(kuò)展
AUTOTHROTTLE_ENABLED = True
#默認(rèn)3秒;初始下載延遲時(shí)間
AUTOTHROTTLE_START_DELAY = 1
#默認(rèn)60秒箕憾;在高延遲情況下最大的下載延遲
AUTOTHROTTLE_MAX_DELAY = 3
#使用httpscatch緩存
HTTPCACHE_ENABLED = True
HTTPCACHE_EXPIRATION_SECS = 1
HTTPCACHE_DIR = 'httpcache'
HTTPCACHE_IGNORE_HTTP_CODES = []
HTTPCACHE_STORAGE = 'scrapy.extensions.httpcache.FilesystemCacheStorage'