IPProxyPool
爬蟲的問題上IP問題算是比較重要的,解決這個問題又不想花錢買IP唯有通過技術(shù)這條道路呻粹,雖然現(xiàn)在網(wǎng)絡(luò)爬蟲有一定的規(guī)范,但是希望提高速度而又不打破規(guī)則的前提下腮郊,個人認(rèn)為變換IP是一個比較能接受的辦法筹燕。
避免重復(fù)造輪轧飞,充分利用Github上的資源很重要。其實這個項目很早就已經(jīng)有了大渤,但是覺得很有用掸绞,有必要記錄下來。將項目Git clone 到本地
-
問題一:使用的是Python3還是Python2
- 個人建議使用python3集漾,畢竟python2是要淘汰了。
-
問題二:下載好需要用的包具篇、軟件、設(shè)置環(huán)境變量
- 包:pip install requests chardet web.py sqlalchemy gevent
- 軟件:sqlite诗芜,路徑添加到環(huán)境變量
-
問題三:出現(xiàn)特殊情況
-
問題四:在cmd運(yùn)行IPPorxy.py出錯,需要修改web.py包下的utils.py源代碼
- 將D:\Application\Compile\Anaconda3\Lib\site-packages\web\utils.py文件中的yield next(seq)換成
def take(seq, n):
for i in range(n):
yield next(seq)
↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓
def take(seq, n):
for i in range(n):
try:
yield next(seq)
except StopIteration:
return
# yield next(seq)
最后销凑,項目主頁本來就很詳盡仅炊,這里整理了個人容易出現(xiàn)的問題。