爬蟲開發(fā)的路很多,這里僅記錄一條適合我的路驮肉。
一個(gè)文件,100多行代碼已骇,就完成了一個(gè)帶定時(shí)器的每天自動(dòng)爬取的爬蟲開發(fā)离钝,每次爬取時(shí)自動(dòng)登錄賬號(hào),能對(duì)網(wǎng)站的二層瀏覽結(jié)構(gòu)實(shí)現(xiàn)隨意爬取慧域,能控制有頭無頭模式昔榴,能控制是否加載網(wǎng)頁圖片等互订。
操作系統(tǒng):windows
軟件下載
python環(huán)境:我用的是Anaconda(下載地址:https://www.anaconda.com/distribution/#download-section)
需要注意:裝完Anaconda后將相關(guān)路徑放到環(huán)境變量的Path里屁奏,例如:
D:\Anaconda\
D:\Anaconda\Scripts
D:\Anaconda\Library\bin
D:\Anaconda\Library\mingw-w64\bin(可選)
瀏覽器:chrome(下載地址:https://www.google.cn/intl/zh-CN/chrome/)
瀏覽器驅(qū)動(dòng):chrome-dirver(下載地址:http://npm.taobao.org/mirrors/chromedriver/)
需要注意:主機(jī)要安裝瀏覽器涛酗,瀏覽器和瀏覽器的驅(qū)動(dòng)需要保持版本一致踩窖,以便程序控制瀏覽器
PowerShell內(nèi)輸入命令行來安裝程序
pip install selenium
pip install?psycopg2
pip install?apscheduler
提示:
【selenium】用來控制瀏覽器操作頁面暴心,模擬人對(duì)瀏覽器的各種操作揪惦,很強(qiáng)大祥款;
【psycopg2】是我用來操作?postgresql?數(shù)據(jù)庫(kù)的插件抠艾,以便將爬取到的數(shù)據(jù)放入數(shù)據(jù)庫(kù)检号;
【apscheduler】是用來做定時(shí)任務(wù)的蛙酪,很強(qiáng)大,比如每天定時(shí)爬劝挤洹玛痊;
業(yè)務(wù)代碼
略
提示:先學(xué)會(huì)python卿啡,再找文檔學(xué)習(xí)?selenium颈娜、psycopg2官辽、apscheduler 三者的使用萤捆,寫一些業(yè)務(wù)代碼就能開心的讓爬蟲工作了俗或。