python爬取企查查江蘇企業(yè)信息生成excel表格

1.前期準(zhǔn)備

具體請(qǐng)查看上一篇

2.準(zhǔn)備庫(kù)requests,BeautifulSoup,xlwt,lxml

1.BeautifulSoup:是專業(yè)的網(wǎng)頁(yè)爬取庫(kù),方便抓取網(wǎng)頁(yè)信息
2.xlwt:生成excel表格  
3.lxml:xml解析庫(kù)

3.具體思路

企查查網(wǎng)站具有一定的反爬機(jī)制党饮,直接爬取會(huì)受到網(wǎng)站阻攔劝评,所以我們需要模擬瀏覽器請(qǐng)求络拌,繞過(guò)反爬機(jī)制研侣,打開企查查網(wǎng)站矢劲,獲取cookie及一系列請(qǐng)求頭文件蒲拉,然后使用BeautifulSoup分析網(wǎng)頁(yè)節(jié)點(diǎn)捕捉需要的信息

4.源碼

# encoding: utf-8
import requests
from bs4 import BeautifulSoup
import lxml
import xlwt
import re

def craw():
    file = xlwt.Workbook()
    table = file.add_sheet('sheet1', cell_overwrite_ok=True)
    print('正在爬取潭苞,請(qǐng)稍等....')
    for n in range(1,500):
        print('第'+ str(n) + '頁(yè)......')
        url = 'https://www.qichacha.com/g_JS_' + str(n) + '.html'
        user_agent = 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36'
        headers = {
            'Host': 'www.qichacha.com',
            'User-Agent': r'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36',
            'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8',
            'Accept-Language': 'zh-CN,zh;q=0.9',
            'Accept-Encoding': 'gzip, deflate, br',
            'Referer': 'http://www.qichacha.com/',
            'Cookie': r'zg_did=%7B%22did%22%3A%20%22166870cd07f60d-0c80294526eac7-36664c08-1fa400-166870cd0801af%22%7D; acw_tc=3af3b59815398640670163813ec3ddf30042b9b31607691a7b8d249c27; UM_distinctid=166870d292d85-016e1a972f471f-36664c08-1fa400-166870d292f349; _uab_collina=153986407973326937715323; QCCSESSID=g0gqbq7t1r8ksn94j8ii1qpbq1; CNZZDATA1254842228=364260894-1539860390-https%253A%252F%252Fwww.qichacha.com%252F%7C1540383468; Hm_lvt_3456bee468c83cc63fb5147f119f1075=1539864081,1540384169; zg_de1d1a35bfa24ce29bbf2c7eb17e6c4f=%7B%22sid%22%3A%201540384168992%2C%22updated%22%3A%201540384533698%2C%22info%22%3A%201539864055943%2C%22superProperty%22%3A%20%22%7B%7D%22%2C%22platform%22%3A%20%22%7B%7D%22%2C%22utm%22%3A%20%22%7B%7D%22%2C%22referrerDomain%22%3A%20%22%22%7D; Hm_lpvt_3456bee468c83cc63fb5147f119f1075=1540384534',
            'Connection': 'keep-alive',
            'If-Modified-Since': 'Wed, 24 Oct 2018 12:35:27 GMT',
            'If-None-Match': '"59*******"',
            'Cache-Control': 'private',
        }

        response = requests.get(url, headers=headers)
        if response.status_code != 200:
            response.encoding = 'utf-8'
            print(response.status_code)
            print('ERROR')
        # soup = BeautifulSoup(response.text, 'lxml')
        html_str = response.text
        soup = BeautifulSoup(html_str, 'html.parser')
        list = []
        # list = soup.findAll(class_='panel panel-default')
        list = soup.findAll(class_='panel panel-default')
        for i in range(len(list)):
            text = list[i]
            soup2 = BeautifulSoup(str(text), 'lxml')
            icon = soup2.find('img').attrs['src']
            table.write((n - 1) * 10 + i, 1, str(icon))
            name = soup2.find(class_='name').text
            table.write((n - 1) * 10 + i, 2, name)
            try:
                content = soup2.findAll(class_='text-muted clear text-ellipsis m-t-xs')[0].text
                address = soup2.findAll(class_='text-muted clear text-ellipsis m-t-xs')[1].text
                table.write((n - 1) * 10 + i, 3, content)
                table.write((n - 1) * 10 + i, 4, address)
            except:
                print('第'+str(n)+'頁(yè)第'+str(i)+'行錯(cuò)誤')


    file.save('D:/qcc.xls')






if __name__ == '__main__':
    craw()


5.結(jié)果

image.png

****6.申明

本次代碼僅供學(xué)習(xí)使用忽冻,不應(yīng)用于任何商業(yè)用途,若被查處此疹,概不負(fù)責(zé)僧诚。

--完成

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市蝗碎,隨后出現(xiàn)的幾起案子湖笨,更是在濱河造成了極大的恐慌,老刑警劉巖蹦骑,帶你破解...
    沈念sama閱讀 212,454評(píng)論 6 493
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件慈省,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡眠菇,警方通過(guò)查閱死者的電腦和手機(jī)边败,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,553評(píng)論 3 385
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)捎废,“玉大人笑窜,你說(shuō)我怎么就攤上這事〉橇疲” “怎么了排截?”我有些...
    開封第一講書人閱讀 157,921評(píng)論 0 348
  • 文/不壞的土叔 我叫張陵嫌蚤,是天一觀的道長(zhǎng)。 經(jīng)常有香客問(wèn)我断傲,道長(zhǎng)脱吱,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 56,648評(píng)論 1 284
  • 正文 為了忘掉前任认罩,我火速辦了婚禮急凰,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘猜年。我一直安慰自己,他們只是感情好疾忍,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,770評(píng)論 6 386
  • 文/花漫 我一把揭開白布乔外。 她就那樣靜靜地躺著,像睡著了一般一罩。 火紅的嫁衣襯著肌膚如雪杨幼。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,950評(píng)論 1 291
  • 那天聂渊,我揣著相機(jī)與錄音差购,去河邊找鬼。 笑死汉嗽,一個(gè)胖子當(dāng)著我的面吹牛欲逃,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播饼暑,決...
    沈念sama閱讀 39,090評(píng)論 3 410
  • 文/蒼蘭香墨 我猛地睜開眼稳析,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了弓叛?” 一聲冷哼從身側(cè)響起彰居,我...
    開封第一講書人閱讀 37,817評(píng)論 0 268
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎撰筷,沒(méi)想到半個(gè)月后陈惰,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 44,275評(píng)論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡毕籽,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,592評(píng)論 2 327
  • 正文 我和宋清朗相戀三年抬闯,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片关筒。...
    茶點(diǎn)故事閱讀 38,724評(píng)論 1 341
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡画髓,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出平委,到底是詐尸還是另有隱情奈虾,我是刑警寧澤,帶...
    沈念sama閱讀 34,409評(píng)論 4 333
  • 正文 年R本政府宣布,位于F島的核電站肉微,受9級(jí)特大地震影響匾鸥,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜碉纳,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 40,052評(píng)論 3 316
  • 文/蒙蒙 一勿负、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧劳曹,春花似錦奴愉、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,815評(píng)論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至蜕劝,卻和暖如春檀头,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背岖沛。 一陣腳步聲響...
    開封第一講書人閱讀 32,043評(píng)論 1 266
  • 我被黑心中介騙來(lái)泰國(guó)打工暑始, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人婴削。 一個(gè)月前我還...
    沈念sama閱讀 46,503評(píng)論 2 361
  • 正文 我出身青樓廊镜,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親唉俗。 傳聞我的和親對(duì)象是個(gè)殘疾皇子期升,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,627評(píng)論 2 350

推薦閱讀更多精彩內(nèi)容