requests_utils.py
文件目錄:
call_history_crawler/worker/crawler
proxy_config.py
文件目錄:
call_history_crawler/setting
log.py
文件目錄:
call_history_crawler/worker
log_config.py
文件目錄:
call_history_crawler/setting
功能實(shí)現(xiàn):
- Requests proxy pool‘s IP 可用
- 相對(duì)目標(biāo)URL proxy pool's IP 可用
- 對(duì)于不可用的pool's IP 持久化處理
- 增加log日志功能及分級(jí)處理
- 以上所用功能參數(shù)可配置
Requests proxy pool‘s IP 可用
相關(guān)配置項(xiàng):
`PROXIES_IP_POOLS`
`IS_IP_AVAILABLE_URL`
`TRY_TIMES`
從PROXIES_IP_POOLS
獲取ip后,經(jīng)過IS_IP_AVAILABLE_URL
(例 如:www.baidu.com
)測(cè)試ip是否可用
如果ip可用則繼續(xù)
如果ip不可用則重試TRY_TIMES
(例如: 3)次驾诈,如果TRY_TIMES
次都不可用則從可用ip列表中移除目標(biāo)ip并重新獲取ip
相對(duì)目標(biāo)URL proxy pool's IP 可用
從可用PROXIES_IP_POOLS
獲取ip后,經(jīng)過請(qǐng)求url測(cè)試ip是否可用
如果ip可用則繼續(xù)
如果ip不可用則從可用ip列表中移除目標(biāo)ip并重新獲取ip
對(duì)于不可用的pool's IP 持久化處理
借助log日志功能ERROR
級(jí)別持久化pools中不可用的ip
LEVEL 級(jí)別:
10 : 不可用ip
20 : 目標(biāo)url不可用ip
級(jí)別輸出格式:
10: "LEVEL: 10 IP: %s"
20: "LEVEL: 20 IP: %s URL: %s METHOD: %s PARAMS: %s DATA: %s JSON: %s"
增加log日志功能及分級(jí)處理
log日志級(jí)別:
DEBUG
INFO
WREAING
ERROR
通過IS_LOGFILE
來控制是否持久化log output
通過LOG_DIR
來控制輸出目錄
通過LEVEL
來控制打印級(jí)別