BirdNet 爬蟲
特性
- 跨平臺
- 命令行工具
- 只需用戶鍵入要獲取的鳥類名稱,即可自動下載圖片到本機
環(huán)境需求:
- python3
- pip3包管理器
- chrome瀏覽器
- 爬蟲程序包
準(zhǔn)備工作
安裝依賴包
pip3 install -r requirements.txt
下載瀏覽器接口驅(qū)動chromedriver
所有chromedriver都可以在這里找到,下載對應(yīng)自己瀏覽器(Chrome版本可以在設(shè)置->關(guān)于chrome里面查看
)和操作系統(tǒng)的版本:
備用鏡像站點
本人測試版本:
chrome 65.0.3325.181
chromedriver 2.36
Linux平臺(推薦):
下載完成解壓縮后:
cp ./chromedriver /usr/local/bin
cd /usr/local/bin
chmod +x ./chromedriver
Windows平臺
解壓縮后,復(fù)制整個目錄到c盤下,將該目錄添加進環(huán)境變量
附錄:
ChromeDriver與Chrome版本映射表:
使用方法:
python3 master.py
按照提示符輸入要爬取的鳥類的中文名(用于搜索)與英文名稱(用于保存時候文件命名)即可,下載的文件會在與master.py所在的同一目錄下建立/pic/$name 進行保存;
ps.
關(guān)于/pic/$name 目錄下的page.txt文件:
該文件保存的是獲取到的圖片的總張數(shù)n,當(dāng)下一次繼續(xù)獲取相同鳥類圖片時,會以n+1的命名方式繼續(xù)保存;
可能遇到的問題:
問題1 這是由于沒有成功加載chromedriver,請檢查環(huán)境變量是否配置正確;
問題2 這是由于chromedriver和chrome的版本不對應(yīng)所導(dǎo)致,請重新下載適配的版本;
ps.啟動程序后,chrome瀏覽器被自動打開,可能也是由于版本不適配的原因