[Python 爬蟲(chóng)] 多進(jìn)程爬取動(dòng)態(tài)加載數(shù)據(jù)的一種思路

1.對(duì)于爬取靜態(tài)網(wǎng)頁(yè):
思路就是直接拼接每個(gè)頁(yè)面的url,得到一個(gè)超大的url 的list,然后一個(gè)一個(gè)的request.get(url),然后xpath解析內(nèi)容,存入mongo或者用logger.info(json.dumps(data)) 存為csv文件

對(duì)于動(dòng)態(tài)加載的網(wǎng)頁(yè),一個(gè)思路就是用抓包工具分析其數(shù)據(jù)接口:我是用的fiddler,利用fiddler查看打開(kāi)網(wǎng)頁(yè)時(shí)數(shù)據(jù)加載的接口,一般是 {JSON} 格式,找到接口的地址,分析其接口中參數(shù)的規(guī)律,然后又是老操作(拼接出所有頁(yè)面的數(shù)據(jù)的請(qǐng)求接口,然后再一個(gè)一個(gè)的遍歷請(qǐng)求接口,得到j(luò)son格式的數(shù)據(jù)),這個(gè)其實(shí)對(duì)于數(shù)據(jù)清洗來(lái)說(shuō)很方便,不用做什么格式解析.
3.Fiddler 突然不能抓取請(qǐng)求了怎么辦
3.1 Fiddler 打開(kāi)后,瀏覽器不能打開(kāi)網(wǎng)頁(yè),我的辦法是卸載Fiddler ,重裝,簡(jiǎn)單粗暴(因?yàn)镕iddler 只有6m大小,方便快捷)
迅雷下載: https://dl.softmgr.qq.com/original/Development/FiddlerSetup_5.0.20202.18177.exe
4.源代碼:

import json
import multiprocessing
import os
import random
import time

import requests
from pprint import pprint

from fake_useragent import UserAgent
from loguru import logger
from motor.motor_asyncio import AsyncIOMotorClient
# from redis import Redis
from redis import Redis


class ETh():
    def redis_connect(self):
        # myredis=Redis(db=6)
        myredis=Redis(db=6)
        return myredis

    def get_all_url(self):
        for i in range(1, 62):
            url=f"https://explorer-web.api.btc.com/v1/eth/txns/0?page={i}&size=150"
            self.redis_connect().lpush("redis_connect_urls", url)
            print(f'push 第{i}頁(yè) to redis')
        self.redis_connect().close()

    def read_page(self, url):
        # 獲取頁(yè)面信息,發(fā)起請(qǐng)求
        # headers 代理,避免ip被封
        headers={
            "Host": "explorer-web.api.btc.com",
            "Connection": "keep-alive",
            "Accept": "application/json",
            "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.61 Safari/537.36",
            "Content-Type": "application/x-www-form-urlencoded;charset=UTF-8",
            "Origin": "https://eth.btc.com",
            "Sec-Fetch-Site": "same-site",
            "Sec-Fetch-Mode": "cors",
            "Sec-Fetch-Dest": "empty",
            "Referer": "https://eth.btc.com/blockinfo/0",
            "Accept-Encoding": "gzip, deflate, br",
            "Accept-Language": "zh-CN,zh;q=0.9"}
        ua=UserAgent()
        headers["User-Agent"]=ua.random

        time.sleep(random.randint(0, 4))
        res=requests.get(url, headers=headers)
        s=requests.session()
        s.keep_alive=False
        requests.adapters.DEFAULT_RETRIES=5
        # 得到整個(gè)網(wǎng)頁(yè)頁(yè)面
        page_text=json.loads(res.text)  # type: str
        data_list=page_text["data"]["list"]  # type: list
        # pprint(data_list)
        return data_list

    # 字符串轉(zhuǎn)時(shí)間戳
    def str_to_timestamp(self, str_time):
        timeArray=time.strptime(str_time, "%Y-%m-%d %H:%M:%S")
        timeStamp=int(time.mktime(timeArray))
        return timeStamp

    # 清洗數(shù)據(jù)
    def clean_data(self, url):

        eth_datas=[]
        data_list=self.read_page(url)
        time="2015-07-30 23:26:13"
        blocktime=self.str_to_timestamp(time)

        for data in data_list:
            """
            {'amount': '800.000000000000000000',
              'created_ts': 1435634773,
              'fee': '0',
              'gas_price': '0',
              'gas_used': 0,
              'id': 1,
              'internal_tx': [],
              'receiver_hash': '0x1cfcf7517f0c08459720942b647ad192aa9c8828',
              'receiver_type': 0,
              'sender_hash': '0xGENESIS000000000000000000000000000000000',
              'sender_type': 0,
              'status': '',
              'tx_hash': 'GENESIS_1cfcf7517f0c08459720942b647ad192aa9c8828',
              'tx_type': ''},
            """
            # todo
            """
            {
            "_id" : "0xfffffffead5f0ed224bf9ef7019599e9bf00c1a0fa726f316125570c5787f2a3",
            "blockHash" : "0xc88ff379a6b6e85aa15fb5f0dbeb4606db191d5870920c804732a91fd9f0881f",
            "blockNumber" : 6694829,
            "contractAddress" : null,
            "cumulativeGasUsed" : 4225411,
            "from" : "0x52bc44d5378309ee2abf1539bf71de1b7d7be3b5",
            "gasUsed" : 21000,
            "logs" : [ ],
            "status" : "0x1",
            "to" : "0x7c20f2d7f49e5f4ade906d439d0e32240d32fc71",
            "transactionIndex" : 68,
            "gas" : 50000,
            "gasPrice" : 3000000000,
            "input" : "0x",
            "nonce" : "0x9b602d",
            "value" : 1000767082999010048,
            "blockTime" : 1542083404
            },
            """
            data_dic={
                "_id": data["tx_hash"],
                "blockHash": "0xd4e56740f876aef8c010b86a40d5f56745a118d0906a34e69aec8c0db1cb8fa3",
                "blockNumber": 0,
                "contractAddress": "null",
                "cumulativeGasUsed": 0,
                "gasUsed": data['gas_used'],
                "gasPrice": data['gas_price'],
                "logs": [],
                "status": data["status"],
                "value": data["amount"],
                "nonce": "0x0000000000000042",
                "from": data["sender_hash"],
                "to": data["receiver_hash"],
                "blockTime": blocktime
            }
            # pprint(data_dic)
            eth_datas.append(data_dic)
        # pprint(eth_datas)
        # pprint(len(eth_datas))   # 150
        return eth_datas

    # 存入mongo庫(kù)
    def save_to_mongo(self, eth_datas):
        # 保存到mongo數(shù)據(jù)庫(kù)中
        db_url='localhost'
        db_port=27017
        db_name="eth"
        db_collection="eth_0"
        # 建立連接
        client=AsyncIOMotorClient(db_url, db_port)

        # 連接某個(gè)庫(kù)名字
        db=client[db_name][db_collection]

        db.insert_many([i for i in eth_datas])
        print('inserted %d docs' % (len(eth_datas)))

    # 存入csv文件
    def save_to_json(self, eth_datas):

        process_id=os.getpid()
        logger.add(
            # f"/backup/etc/receipt/receipts.json",
            # 加入進(jìn)程號(hào),避免數(shù)據(jù)存儲(chǔ)時(shí)候錯(cuò)亂
            f"D:/etc_check_data/receipt34555/receipt_{process_id}.json",
            level="INFO",
            format="{message}",
            rotation="1024 MB",
            enqueue=True
        )
        for data in eth_datas:
            logger.info(json.dumps(data))


# 獲取所有eth_block_0 tx數(shù)據(jù)
def get_all_eth_data(n):
    eth=ETh()
    while True:
        try:
            net=eth.redis_connect().rpop('redis_connect_urls')
            if net is None:
                break
            url=bytes.decode(net)

            eth_datas=eth.clean_data(url)
            logger.debug(f" process {n + 1} 開(kāi)始爬取第 {url.split('page=')[1].split('&size')[0]} 頁(yè) {url}")
            # 存mongo
            eth.save_to_mongo(eth_datas)
            # 存為json
            # eth.save_to_json(eth_datas)

        except Exception as e:
            logger.debug(e)


if __name__ == '__main__':
    # ETh().get_all_eth_data()

    # 多進(jìn)程
    # 生成url連接存入redis
    ETh().get_all_url()
    # 爬取并存入
    process_count=16
    pool=multiprocessing.Pool(process_count)
    for i in range(process_count):
        pool.apply_async(get_all_eth_data, (i,))

    pool.close()
    pool.join()

最后編輯于：2020.07.03 17:37:22

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末靴姿，一起剝皮案震驚了整個(gè)濱河市滓玖，隨后出現(xiàn)的幾起案子驮配，更是在濱河造成了極大的恐慌，老刑警劉巖，帶你破解...
沈念sama閱讀 218,122評(píng)論 6贊 505
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件立镶，死亡現(xiàn)場(chǎng)離奇詭異，居然都是意外死亡，警方通過(guò)查閱死者的電腦和手機(jī)椭坚，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 93,070評(píng)論 3贊 395
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門(mén)，熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)搏色，“玉大人善茎，你說(shuō)我怎么就攤上這事∑到危” “怎么了垂涯？”我有些...
開(kāi)封第一講書(shū)人閱讀 164,491評(píng)論 0贊 354
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長(zhǎng)航邢。經(jīng)常有香客問(wèn)我耕赘，道長(zhǎng)，這世上最難降的妖魔是什么膳殷？我笑而不...
開(kāi)封第一講書(shū)人閱讀 58,636評(píng)論 1贊 293
?港島之戀（遺憾婚禮）
正文為了忘掉前任操骡，我火速辦了婚禮，結(jié)果婚禮上秽之，老公的妹妹穿的比我還像新娘当娱。我一直安慰自己，他們只是感情好考榨，可當(dāng)我...
茶點(diǎn)故事閱讀 67,676評(píng)論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來(lái)的
文/花漫我一把揭開(kāi)白布跨细。她就那樣靜靜地躺著，像睡著了一般河质。火紅的嫁衣襯著肌膚如雪冀惭。梳的紋絲不亂的頭發(fā)上震叙，一...
開(kāi)封第一講書(shū)人閱讀 51,541評(píng)論 1贊 305
城市分裂傳說(shuō)
那天，我揣著相機(jī)與錄音散休，去河邊找鬼媒楼。笑死，一個(gè)胖子當(dāng)著我的面吹牛戚丸，可吹牛的內(nèi)容都是我干的划址。我是一名探鬼主播，決...
沈念sama閱讀 40,292評(píng)論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開(kāi)眼限府，長(zhǎng)吁一口氣：“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼夺颤！你這毒婦竟也來(lái)了？” 一聲冷哼從身側(cè)響起胁勺，我...
開(kāi)封第一講書(shū)人閱讀 39,211評(píng)論 0贊 276
萬(wàn)榮殺人案實(shí)錄
序言：老撾萬(wàn)榮一對(duì)情侶失蹤世澜，失蹤者是張志新（化名）和其女友劉穎，沒(méi)想到半個(gè)月后署穗，有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體寥裂，經(jīng)...
沈念sama閱讀 45,655評(píng)論 1贊 314
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,846評(píng)論 3贊 336
?白月光啟示錄
正文我和宋清朗相戀三年案疲，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了封恰。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點(diǎn)故事閱讀 39,965評(píng)論 1贊 348
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡络拌，死狀恐怖俭驮，靈堂內(nèi)的尸體忽然破棺而出回溺，到底是詐尸還是另有隱情春贸，我是刑警寧澤，帶...
沈念sama閱讀 35,684評(píng)論 5贊 347
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布遗遵，位于F島的核電站萍恕，受9級(jí)特大地震影響，放射性物質(zhì)發(fā)生泄漏车要。R本人自食惡果不足惜允粤，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,295評(píng)論 3贊 329
男人毒藥：我在死后第九天來(lái)索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望翼岁。院中可真熱鬧类垫，春花似錦、人聲如沸琅坡。這莊子的主人今日做“春日...
開(kāi)封第一講書(shū)人閱讀 31,894評(píng)論 0贊 22
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)榆俺。三九已至售躁，卻和暖如春坞淮，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背陪捷。一陣腳步聲響...
開(kāi)封第一講書(shū)人閱讀 33,012評(píng)論 1贊 269
情欲美人皮
我被黑心中介騙來(lái)泰國(guó)打工回窘，沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留，地道東北人市袖。一個(gè)月前我還...
沈念sama閱讀 48,126評(píng)論 3贊 370
代替公主和親
正文我出身青樓啡直，卻偏偏與公主長(zhǎng)得像，于是被迫代替她去往敵國(guó)和親苍碟。傳聞我的和親對(duì)象是個(gè)殘疾皇子付枫，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 44,914評(píng)論 2贊 355