Scrapy 如何用Requst進(jìn)行遞歸網(wǎng)址爬取

這里用到Python的scapy 框架中的basic 模板

因?yàn)橛胋asic模板不會(huì)自動(dòng)跟進(jìn)link丙号，所以要用Request進(jìn)行遞歸爬取網(wǎng)頁(yè)

在爬取網(wǎng)頁(yè)時(shí)會(huì)遇到一些小問題需要處理：

1须眷，url帶有中文字符

需求分析：

頂級(jí)url：需要爬取0-10的url

https://www.xxxcf.com/htm/girllist10/2.htm（2.htm-10.htm）

次級(jí)url：

進(jìn)入頂級(jí)url后是這樣的頁(yè)面：

image

然后每一個(gè)url需要繼續(xù)跟進(jìn) 啦鸣，獲得其底級(jí)url：

進(jìn)入底級(jí)url：

image

這個(gè)底級(jí)的jpg圖片的url才是我們需要retrive的數(shù)據(jù):

import scrapy
from first.items import FirstItem
import urllib
'''
add browser head
'''
from scrapy.http import Request

class SkySpider(scrapy.Spider):
name = "name"
allowed_domains = ["xxxcf.com"]
#反扒機(jī)制--request
def start_requests(self):
ua={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like GeChrome/63.0.3239.84 Safari/537.36'}
yield Request('https://www.xxxcf.com/htm/girllist10/0.htm',headers=ua)

這里第一個(gè)parse是吧頂級(jí)url壓入request棧谈飒，全部入棧后艰额，對(duì)棧內(nèi)的url調(diào)用pars2方法

def parse(self, response):
    for i in range(1,8):
        url = 'https://www.xxxcf.com/htm/girllist10/'+str(i)+'.htm'
        yield Request(url,self.parse2)

image.png

在parse2中臂港，response里有所有的頂級(jí)url對(duì)應(yīng)的頁(yè)面，所以對(duì)每個(gè)url對(duì)應(yīng)頁(yè)面進(jìn)行再次獲取次級(jí)url

def parse2(self, response):
    for sel in response.xpath('//li'):
        url2 = sel.xpath("a[@target='_blank']/@href").extract()
        for i in url2:
            #https://www.xxxcf.com/htm/girl10/2200.htm
            yield Request('https://www.xxxcf.com'+i, self.parse3)

image.png

在parse3的response中有次級(jí)url對(duì)應(yīng)的頁(yè)面配紫，所以對(duì)每個(gè)次級(jí)url對(duì)應(yīng)的底級(jí)頁(yè)面抓取jpg的url

def parse3(self, response):
    for sel2 in response.xpath('//div'):
        item = FirstItem()
        #<div class ="content" > < br / > < img src="https://com/girl/TuiGirl/110/01.jpg" / > < br >
        item['link'] = sel2.xpath("img/@src").extract()
        yield item

這樣就進(jìn)行了對(duì)url的連續(xù)深層爬取径密。

最后編輯于：2018.02.23 09:39:11

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個(gè)濱河市躺孝，隨后出現(xiàn)的幾起案子享扔，更是在濱河造成了極大的恐慌底桂，老刑警劉巖，帶你破解...
沈念sama閱讀 219,270評(píng)論 6贊 508
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件惧眠，死亡現(xiàn)場(chǎng)離奇詭異籽懦，居然都是意外死亡，警方通過查閱死者的電腦和手機(jī)氛魁，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 93,489評(píng)論 3贊 395
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門暮顺，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人呆盖，你說我怎么就攤上這事拖云。” “怎么了应又？”我有些...
開封第一講書人閱讀 165,630評(píng)論 0贊 356
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長(zhǎng)乏苦。經(jīng)常有香客問我株扛，道長(zhǎng)，這世上最難降的妖魔是什么汇荐？我笑而不...
開封第一講書人閱讀 58,906評(píng)論 1贊 295
?港島之戀（遺憾婚禮）
正文為了忘掉前任洞就，我火速辦了婚禮，結(jié)果婚禮上掀淘，老公的妹妹穿的比我還像新娘旬蟋。我一直安慰自己，他們只是感情好革娄，可當(dāng)我...
茶點(diǎn)故事閱讀 67,928評(píng)論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布倾贰。她就那樣靜靜地躺著，像睡著了一般拦惋。火紅的嫁衣襯著肌膚如雪匆浙。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 51,718評(píng)論 1贊 305
城市分裂傳說
那天厕妖，我揣著相機(jī)與錄音首尼，去河邊找鬼。笑死言秸，一個(gè)胖子當(dāng)著我的面吹牛软能，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播举畸，決...
沈念sama閱讀 40,442評(píng)論 3贊 420
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼查排，長(zhǎng)吁一口氣：“原來是場(chǎng)噩夢(mèng)啊……” “哼！你這毒婦竟也來了俱恶？” 一聲冷哼從身側(cè)響起雹嗦，我...
開封第一講書人閱讀 39,345評(píng)論 0贊 276
萬(wàn)榮殺人案實(shí)錄
序言：老撾萬(wàn)榮一對(duì)情侶失蹤范舀，失蹤者是張志新（化名）和其女友劉穎，沒想到半個(gè)月后了罪，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體锭环，經(jīng)...
沈念sama閱讀 45,802評(píng)論 1贊 317
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,984評(píng)論 3贊 337
?白月光啟示錄
正文我和宋清朗相戀三年泊藕，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了辅辩。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點(diǎn)故事閱讀 40,117評(píng)論 1贊 351
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡娃圆，死狀恐怖玫锋，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情讼呢，我是刑警寧澤撩鹿，帶...
沈念sama閱讀 35,810評(píng)論 5贊 346
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站悦屏，受9級(jí)特大地震影響节沦，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜础爬，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,462評(píng)論 3贊 331
男人毒藥：我在死后第九天來索命
文/蒙蒙一甫贯、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧看蚜，春花似錦叫搁、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 32,011評(píng)論 0贊 22
一樁弒父案渴逻，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)。三九已至碱茁，卻和暖如春裸卫，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背纽竣。一陣腳步聲響...
開封第一講書人閱讀 33,139評(píng)論 1贊 272
情欲美人皮
我被黑心中介騙來泰國(guó)打工墓贿，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留，地道東北人蜓氨。一個(gè)月前我還...
沈念sama閱讀 48,377評(píng)論 3贊 373
代替公主和親
正文我出身青樓聋袋，卻偏偏與公主長(zhǎng)得像，于是被迫代替她去往敵國(guó)和親穴吹。傳聞我的和親對(duì)象是個(gè)殘疾皇子幽勒，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 45,060評(píng)論 2贊 355

Scrapy 如何用Requst進(jìn)行遞歸網(wǎng)址爬取

這里第一個(gè)parse是吧頂級(jí)url壓入request棧谈飒，全部入棧后艰额，對(duì)棧內(nèi)的url調(diào)用pars2方法

在parse2中臂港，response里有所有的頂級(jí)url對(duì)應(yīng)的頁(yè)面，所以對(duì)每個(gè)url對(duì)應(yīng)頁(yè)面進(jìn)行再次獲取次級(jí)url

在parse3的response中有次級(jí)url對(duì)應(yīng)的頁(yè)面配紫，所以對(duì)每個(gè)次級(jí)url對(duì)應(yīng)的底級(jí)頁(yè)面抓取jpg的url

推薦閱讀更多精彩內(nèi)容