scrapy爬蟲登陸后爬取

直接上代碼例子:

import scrapy
import requests
from scrapy.spiders import CrawlSpider, Rule
from scrapy.linkextractors import LinkExtractor
from scrapy.http import Request, FormRequest, HtmlResponse
from spiderman.items import SpidermanItem

class ItjuziWebSpider(CrawlSpider):
    name = "itjuziweb"
    allowed_domains = ["itjuzi.com"]

    start_urls =["https://www.itjuzi.com/user/login"]

    rules = (
        Rule(LinkExtractor(allow=('http://www.itjuzi.com/company\?page=\d+', ))),

        Rule(LinkExtractor(allow=('http://www.itjuzi.com/company/\d+', )), callback='parse_item'),
    )

    def __init__(self, *a, **kw):
        super(ItjuziWebSpider, self).__init__(*a, **kw)

        self.cookie = ''
        self.resp = requests.Session()
        self.request_headers = {
            "User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64; Trident/7.0; rv:11.0) like Gecko",
            "Referer": "https://www.itjuzi.com",
        }

        self.post_headers = {
            "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8",
            "Accept-Encoding": "gzip, deflate",
            "Accept-Language": "zh-CN,zh;q=0.8,en;q=0.6",
            "Cache-Control": "no-cache",
            "Connection": "keep-alive",
            "Content-Type": "application/x-www-form-urlencoded",
            "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.115 Safari/537.36",
            "Referer": "https://www.itjuzi.com/",
        }



    def parse_start_url(self, response):
        # 登陸成功后, 會(huì)調(diào)用after_login回調(diào)函數(shù)
        print('Preparing login')
        url = 'https://www.itjuzi.com/user/login'
        post_data = {
              'identity':'linzikristy@qq.com',
              'password':'a761177953z',
              'remember':'1',
              'page':'',
              'url':'',
          }
        r = self.resp.post(url, headers=self.post_headers, data=post_data)
        cookie_dict = {}
        for x in r.cookies:
            cookie_dict[x.name] = x.value
        self.cookie = cookie_dict

        # self.after_login()
        yield Request('http://www.itjuzi.com/company?page=1',headers=self.post_headers, cookies=self.cookie)


    def parse_item(self, response):
        self.log('Hi, this is an item page! %s' % response.url)

        item = SpidermanItem()
        item['item_id'] = response.xpath("http://*[@id='modal_myinc']/div/div/div[2]/div/form/input/@value").extract()[0]
        item['item_name'] = response.xpath("http://input[contains(@name,'com_name')]/@value").extract()[0]
        item_logo = response.xpath("http://div[contains(@class,'rowhead')]/div[contains(@class,'pic')]/img/@src").extract()
        if item_logo is None:
            item['item_logo'] = ''
        else:
            item['item_logo'] = ','.join(item_logo)
        item['item_brief'] = response.xpath("http://meta[@name='Description']/@content").extract()[0]
        item_area = response.xpath("http://div[contains(@class,'tagset dbi c-gray-aset')]/a/span/text()").extract()
        if item_area is None:
            item['item_area'] = ''
        else:
            item['item_area'] = ','.join(item_area)
        item_CEO = response.xpath("http://a[contains(@class,'title')]//span[contains(@class,'c')][1]/text()").extract()
        if item_CEO is None:
            item['item_CEO'] = ''
        else:
            item['item_CEO'] = ','.join(item_CEO)
        item_round = response.xpath("http://span[contains(@class,'t-small c-green')]/text()").extract()
        if item_round is None:
            item['item_round'] = ''
        else:
            item['item_round'] = ','.join(item_round).strip(',').strip('\n').strip('\t').strip('\n').strip('(').strip(')');

        item_website = response.xpath("http://input[contains(@name,'com_url')]/@value").extract()
        if item_website is None:
            item['item_website'] = ''
        else:
            item['item_website'] = ','.join(item_website).strip(',')

        item['item_from'] = 'IT桔子'
        item['item_phone'] = ''
        item['item_email'] = ''
        item_weixin = response.xpath("http://li[@class='wx-text']/a/text()").extract()
        if item_weixin is None:
            item['item_weixin'] = ''
        else:
            item['item_weixin'] = ','.join(item_weixin).strip(',').strip(' ')

        item_weibo = response.xpath("http://div[@class='link-line']/a[1]/@href").extract()
        if item_weibo is None:
            item['item_weibo'] = ''
        else:
            item['item_weibo'] = ','.join(item_weibo).strip(',').strip(' ')

        item['item_from_website'] = response.url
        item_address = response.xpath("http://span[contains(@class,'loca c-gray-aset')]/a/text()").extract()
        if item_address is None:
            item['item_address'] = ''
        else:
            item['item_address'] = ','.join(item_address).strip(',').strip(' ')
        return item
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子府怯,更是在濱河造成了極大的恐慌怀读,老刑警劉巖渤早,帶你破解...
    沈念sama閱讀 219,366評(píng)論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件钧汹,死亡現(xiàn)場(chǎng)離奇詭異抠藕,居然都是意外死亡墩朦,警方通過(guò)查閱死者的電腦和手機(jī)烟号,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,521評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門绊谭,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人汪拥,你說(shuō)我怎么就攤上這事达传。” “怎么了?”我有些...
    開封第一講書人閱讀 165,689評(píng)論 0 356
  • 文/不壞的土叔 我叫張陵宪赶,是天一觀的道長(zhǎng)宗弯。 經(jīng)常有香客問(wèn)我,道長(zhǎng)搂妻,這世上最難降的妖魔是什么蒙保? 我笑而不...
    開封第一講書人閱讀 58,925評(píng)論 1 295
  • 正文 為了忘掉前任,我火速辦了婚禮欲主,結(jié)果婚禮上邓厕,老公的妹妹穿的比我還像新娘。我一直安慰自己扁瓢,他們只是感情好详恼,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,942評(píng)論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著引几,像睡著了一般昧互。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上她紫,一...
    開封第一講書人閱讀 51,727評(píng)論 1 305
  • 那天硅堆,我揣著相機(jī)與錄音,去河邊找鬼贿讹。 笑死渐逃,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的民褂。 我是一名探鬼主播茄菊,決...
    沈念sama閱讀 40,447評(píng)論 3 420
  • 文/蒼蘭香墨 我猛地睜開眼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼赊堪!你這毒婦竟也來(lái)了面殖?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,349評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤哭廉,失蹤者是張志新(化名)和其女友劉穎脊僚,沒(méi)想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體遵绰,經(jīng)...
    沈念sama閱讀 45,820評(píng)論 1 317
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡辽幌,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,990評(píng)論 3 337
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了椿访。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片乌企。...
    茶點(diǎn)故事閱讀 40,127評(píng)論 1 351
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖成玫,靈堂內(nèi)的尸體忽然破棺而出加酵,到底是詐尸還是另有隱情拳喻,我是刑警寧澤,帶...
    沈念sama閱讀 35,812評(píng)論 5 346
  • 正文 年R本政府宣布猪腕,位于F島的核電站冗澈,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏码撰。R本人自食惡果不足惜渗柿,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,471評(píng)論 3 331
  • 文/蒙蒙 一个盆、第九天 我趴在偏房一處隱蔽的房頂上張望脖岛。 院中可真熱鬧,春花似錦颊亮、人聲如沸柴梆。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,017評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)绍在。三九已至,卻和暖如春雹有,著一層夾襖步出監(jiān)牢的瞬間偿渡,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,142評(píng)論 1 272
  • 我被黑心中介騙來(lái)泰國(guó)打工霸奕, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留溜宽,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 48,388評(píng)論 3 373
  • 正文 我出身青樓质帅,卻偏偏與公主長(zhǎng)得像适揉,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子煤惩,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,066評(píng)論 2 355

推薦閱讀更多精彩內(nèi)容