python+scrapy爬蟲總結(jié)

1.scrapy開始start_url為post請(qǐng)求：

以前的做法：在spider里面定義好start_urls趁蕊，會(huì)調(diào)用父類scrapy.Spider的start_requests次员，這樣只適用get請(qǐng)求，當(dāng)遇到post請(qǐng)求的時(shí)候該怎么辦呢捏境？
現(xiàn)在的做法：重寫父類的start_requests方法

# 當(dāng)請(qǐng)求參數(shù)是json格式
def start_requests(self):

        data = {"request": {"body": {"page": 1, "row": 10}}}

        # FormRequest 是Scrapy發(fā)送POST請(qǐng)求的方法
        yield scrapy.Request(self.start_url, method="POST",
                             body=json.dumps(data),
                             headers={'Content-Type': 'application/json'})

# 當(dāng)請(qǐng)求參數(shù)是form表單
def start_requests(self):
    form_data = {'account':'jack123@gmail.com', 'password':'123456'}  # 表單數(shù)據(jù)，字典格式雷厂，注意數(shù)字也要用引號(hào)引起來借笙，否則報(bào)錯(cuò)。
    yield scrapy.FormRequest(url, formdata=form_data)

??form請(qǐng)求時(shí)必須是字符串格式的對(duì)象疗认，否則會(huì)出現(xiàn)以下問題：

對(duì)象中含有int類型

整數(shù)類型.png

??form請(qǐng)求時(shí)遇到多個(gè)相同的參數(shù)時(shí)，會(huì)出現(xiàn)覆蓋伏钠，scrapy.FormRequest傳入的參數(shù)必須是鍵值對(duì),這個(gè)時(shí)候要把相同key的數(shù)據(jù)保存在列表中横漏，源碼中是這樣的：

FormRequest類

對(duì)參數(shù)進(jìn)行編碼

這里顯示是遍歷鍵值對(duì)，所以修改為：

修改傳遞參數(shù)

2.scrapy爬取時(shí)熟掂，parse必須返回的是scrapy.request或者dict：

def parse(self, response):
        # 解析具體的產(chǎn)品
        selector = Selector(response)
        for product_item in selector.xpath("http://tbody/tr"):
            item = BankproductItem()
            item['bankCode'] = 'cib'
            item['channel'] = 'web'
            item['proCode'] = re.search('lccp(.*?).png', product_item.xpath('td[9]/img/@src').extract()[0]).group(1)

            # 判斷屬否有超鏈接
            proName = re.search('<a[\S\s]*>(.*?)</a>', product_item.xpath('td[1]').extract()[0])
            item['proName'] = proName.group(1) if (proName != None) else product_item.xpath('td[1]/text()').extract()[0]

            item['incomeRate'] = product_item.xpath('td[7]/text()').extract()[0]
            item['currency'] = product_item.xpath('td[4]/text()').extract()[0]
            item['startDate'] = product_item.xpath('td[2]/text()').extract()[0]
            item['endDate'] = product_item.xpath('td[3]/text()').extract()[0]
            # 大額客戶參考凈收益率(客戶要求放在next_income_rate）
            item['nextIncomeRate'] = product_item.xpath('td[8]/text()').extract()[0]

            # 判斷是否含有超鏈接
            href_num = len(product_item.xpath('td[1]/a/@href').extract())
            if href_num > 0:
                next_page_url = "{}{}".format(self.base_url, product_item.xpath('td[1]/a/@href').extract()[0])
                yield scrapy.Request(next_page_url, meta={'item': item}, callback=self.parse_product_detail,
                                     dont_filter=True)
            else:
                yield item
        pass

3.獲取response對(duì)象的中的request屬性中的參數(shù)：

#獲取body屬性缎浇，字節(jié)轉(zhuǎn)化為字符
str(response.request.body,encoding="utf-8")

4.解析table表格中遇到多行合并的情況(遇到：xpath helper插件和python xpath有區(qū)別）：

 # 判斷是否是購(gòu)買渠道
        title = title_item.xpath("td[13]/text()").extract()[0]
        if title == '購(gòu)買渠道':
            # 兼容有的情況下多行合并的情況
            if title_num == child_num:
                item['sellChannel'] = product_item.xpath("td[13]/text()").extract()[0]
            else:
                siblings = len(product_item.xpath("preceding-sibling::tr"))
                for i in range(1, siblings):
                    #  依次向上尋找兄弟節(jié)點(diǎn)
                    sibling = product_item.xpath("preceding-sibling::tr["+str(i)+"]")
                    if len(sibling.css("td")) == title_num:
                        item['sellChannel'] = sibling.xpath("td[13]/text()").extract()[0]
                        break
        else:
            if title_num == child_num:
                item['sellChannel'] = product_item.xpath("td[15]/text()").extract()[0]
            else:
                # 兄弟節(jié)點(diǎn)的個(gè)數(shù)
                siblings = len(product_item.xpath("preceding-sibling::tr"))
                for i in range(1, siblings):
                    # 依次向上尋找兄弟節(jié)點(diǎn)
                    sibling = product_item.xpath("preceding-sibling::tr["+str(i)+"]")
                    if len(sibling.css("td")) == title_num:
                        item['sellChannel'] = sibling.xpath("td[15]/text()").extract()[0]
                        break

5.python中定義靜態(tài)的方法：

@staticmethod,可以通過類名直接調(diào)用

6.遍歷一個(gè)list集合，怎么可以得到索引下標(biāo)

# enumerate將一個(gè)可遍歷的數(shù)據(jù)對(duì)象(如列表赴肚、元組或字符串)組合為一個(gè)索引序列
for index, product_item in enumerate(table_selector.xpath("tr[not(contains(td,'產(chǎn)品名稱'))]")):

7.python使用pymongo操作mongodb素跺，設(shè)置不返回_id

字段的狀態(tài)設(shè)置為0

8.字符串分割

使用python內(nèi)部字符串的split方法，只能支持單個(gè)分隔str.split('/'),要使用多個(gè)分隔符誉券，可以使用re庫(kù),re.split('/|='),不同的分割符號(hào)之間必須使用|分割開來指厌。

9.多個(gè)xpath可以一起使用，中間用|分割

# 多個(gè)xpath路徑可以一起使用
item['incomeRate'] = self.__get_xpath_value(product_item,"td[9]/strong/text()|td[9]/text()").strip()

8.scrapy自動(dòng)限速擴(kuò)展

在settings.py配置文件中設(shè)置：
啟用AutoThrottle擴(kuò)展(默認(rèn)是False)：AUTOTHROTTLE_ENABLED=True
起用AutoThrottle調(diào)試(debug)模式(默認(rèn)是False):AUTOTHROTTLE_DEBUG=True

9.scrapy爬取的頁(yè)數(shù)過多踊跟，漏掉了很多數(shù)據(jù)

scrapy中默認(rèn)的頁(yè)面請(qǐng)求速度與數(shù)據(jù)下載速度過快踩验，造成服務(wù)器返回的數(shù)據(jù)為空，所以商玫，只要修改配置文件settings.py,將其中的訪問速度與下載速度調(diào)整一下:

#遵守robots協(xié)議
ROBOTSTXT_OBEY = True
#并發(fā)請(qǐng)求個(gè)數(shù)（越小越慢）
CONCURRENT_REQUESTS = 1
#下載延遲時(shí)間（越大請(qǐng)求越慢）
DOWNLOAD_DELAY = 5
#默認(rèn)False;為True表示啟用AUTOTHROTTLE擴(kuò)展
AUTOTHROTTLE_ENABLED = True
#默認(rèn)3秒;初始下載延遲時(shí)間
AUTOTHROTTLE_START_DELAY = 1
#默認(rèn)60秒箕憾；在高延遲情況下最大的下載延遲
AUTOTHROTTLE_MAX_DELAY = 3
#使用httpscatch緩存
HTTPCACHE_ENABLED = True
HTTPCACHE_EXPIRATION_SECS = 1
HTTPCACHE_DIR = 'httpcache'
HTTPCACHE_IGNORE_HTTP_CODES = []
HTTPCACHE_STORAGE = 'scrapy.extensions.httpcache.FilesystemCacheStorage'

最后編輯于：2019.04.11 15:08:00

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個(gè)濱河市拳昌，隨后出現(xiàn)的幾起案子袭异，更是在濱河造成了極大的恐慌，老刑警劉巖炬藤，帶你破解...
沈念sama閱讀 218,525評(píng)論 6贊 507
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件御铃，死亡現(xiàn)場(chǎng)離奇詭異碴里，居然都是意外死亡，警方通過查閱死者的電腦和手機(jī)畅买，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 93,203評(píng)論 3贊 395
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門苫亦，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人勤揩，你說我怎么就攤上這事痕貌。” “怎么了湃缎？”我有些...
開封第一講書人閱讀 164,862評(píng)論 0贊 354
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵犀填，是天一觀的道長(zhǎng)。經(jīng)常有香客問我嗓违，道長(zhǎng)九巡，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 58,728評(píng)論 1贊 294
?港島之戀（遺憾婚禮）
正文為了忘掉前任蹂季，我火速辦了婚禮冕广，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘偿洁。我一直安慰自己撒汉，他們只是感情好，可當(dāng)我...
茶點(diǎn)故事閱讀 67,743評(píng)論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布涕滋。她就那樣靜靜地躺著睬辐，像睡著了一般。火紅的嫁衣襯著肌膚如雪宾肺。梳的紋絲不亂的頭發(fā)上溯饵，一...
開封第一講書人閱讀 51,590評(píng)論 1贊 305
城市分裂傳說
那天，我揣著相機(jī)與錄音锨用，去河邊找鬼丰刊。笑死，一個(gè)胖子當(dāng)著我的面吹牛增拥，可吹牛的內(nèi)容都是我干的藻三。我是一名探鬼主播，決...
沈念sama閱讀 40,330評(píng)論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼跪者，長(zhǎng)吁一口氣：“原來是場(chǎng)噩夢(mèng)啊……” “哼棵帽！你這毒婦竟也來了？” 一聲冷哼從身側(cè)響起渣玲，我...
開封第一講書人閱讀 39,244評(píng)論 0贊 276
萬榮殺人案實(shí)錄
序言：老撾萬榮一對(duì)情侶失蹤逗概，失蹤者是張志新（化名）和其女友劉穎，沒想到半個(gè)月后忘衍，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體逾苫，經(jīng)...
沈念sama閱讀 45,693評(píng)論 1贊 314
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡卿城，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,885評(píng)論 3贊 336
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了铅搓。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片瑟押。...
茶點(diǎn)故事閱讀 40,001評(píng)論 1贊 348
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡，死狀恐怖星掰，靈堂內(nèi)的尸體忽然破棺而出多望，到底是詐尸還是另有隱情，我是刑警寧澤氢烘，帶...
沈念sama閱讀 35,723評(píng)論 5贊 346
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布怀偷，位于F島的核電站，受9級(jí)特大地震影響播玖，放射性物質(zhì)發(fā)生泄漏椎工。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,343評(píng)論 3贊 330
男人毒藥：我在死后第九天來索命
文/蒙蒙一蜀踏、第九天我趴在偏房一處隱蔽的房頂上張望维蒙。院中可真熱鬧，春花似錦果覆、人聲如沸颅痊。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,919評(píng)論 0贊 22
一樁弒父案随静，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽八千。三九已至吗讶，卻和暖如春燎猛，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背照皆。一陣腳步聲響...
開封第一講書人閱讀 33,042評(píng)論 1贊 270
情欲美人皮
我被黑心中介騙來泰國(guó)打工重绷，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留，地道東北人膜毁。一個(gè)月前我還...
沈念sama閱讀 48,191評(píng)論 3贊 370
代替公主和親
正文我出身青樓昭卓，卻偏偏與公主長(zhǎng)得像，于是被迫代替她去往敵國(guó)和親瘟滨。傳聞我的和親對(duì)象是個(gè)殘疾皇子候醒，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 44,955評(píng)論 2贊 355