由于公司需求精盅,需要爬取某招聘網(wǎng)站的簡歷,這些招聘網(wǎng)站的簡歷需要登錄企業(yè)賬號才能查看簡歷,由于驗證碼比較特殊加上頁面中有一些加密的js渔嚷,導(dǎo)致直接用http請求實現(xiàn)起來難度較大。為了繞過頁面中js對cookie的操作稠曼,所以采用selenium模擬登錄并爬取簡歷形病。
首先先感受一下這些招聘網(wǎng)站的驗證碼:
從后臺返回的圖片是這樣子的
這樣子的
然后在頁面上再利用js重新拼接成我們看到的樣子,簡直是喪心病狂跋挤D恰!司恳!
這種類型的驗證碼應(yīng)該算是比較難的途乃,靠自己去破解顯然不太現(xiàn)實,所以我們的做法是利用selenium+Ashot進行截圖扔傅,然后把圖片傳到打碼平臺耍共,那邊會返回點擊的坐標(biāo)烫饼,再利用selenium的Action根據(jù)坐標(biāo)模擬點擊,部分代碼如下:
gradle依賴的jar包
compile("org.seleniumhq.selenium:selenium-java:3.3.1")
compile("org.seleniumhq.selenium:selenium-support:3.3.1")
compile("ru.yandex.qatools.ashot:ashot:1.5.2")
對驗證碼進行截圖:
WebDriver webDriver = new ChromeDriver();
WebElement divVImage = webDriver.findElement(By.id("divVImage"));
WebElement divVPhrase = webDriver.findElement(By.id("divVPhrase"));
Screenshot myScreenshot =newAShot().takeScreenshot(webDriver,divVImage);
Screenshot smallShot =newAShot().takeScreenshot(webDriver,divVPhrase);
BufferedImage contentImage = myScreenshot.getImage();//屏幕上截取驗證碼圖片
BufferedImage headImage = smallShot.getImage();//屏幕上截取驗證碼頭部文字圖片
//合成圖片后獲取最終圖片的字節(jié)數(shù)組
BufferedImage finalImg = new BufferedImage(contentImage.getWidth(),
contentImage.getHeight() + headImage.getHeight(), contentImage.getType());
finalImg.createGraphics().drawImage(contentImage, 0, 0, null);
finalImg.createGraphics().drawImage(headImage, 0, contentImage.getHeight(), null);
// 對最后的圖片寫入字節(jié)數(shù)組并返回
ByteArrayOutputStream byteOutputStream = new ByteArrayOutputStream();
//這里formatName采用的是PNG试读,剛開始我們用的是JPEG杠纵,但是在docker環(huán)境下面截取的圖片會出現(xiàn)色差,導(dǎo)致打碼平臺無法識別钩骇,所以換成了PNG淡诗,如果遇到類似問題的同學(xué)注意一下
ImageIO.write(finalImg, "png", byteOutputStream);
byte[] finalImageByte = byteOutputStream.toByteArray();
//把合成的圖片傳入打碼平臺,返回每次點擊的坐標(biāo)
下圖分別是在docker中出現(xiàn)的顏色異常和正常的驗證碼圖片:
主要難點就在于登錄驗證碼伊履,剩下的就是處理一些反爬蟲的策略韩容,包括采用代理、調(diào)整爬取時間等等唐瀑,這些就需要看官根據(jù)需求不同自己去調(diào)整了群凶,下面是selenium+chrome的docker的構(gòu)建文件:
# Pull base image
FROM airdock/oracle-jdk:1.8
MAINTAINER chenjun "chenjun@lt51.cn"
# 更新
RUN apt-get update
# 復(fù)制chromedriver,根據(jù)自己需要配合不同的版本,連接如下
# https://sites.google.com/a/chromium.org/chromedriver/
COPY config/chromedriver /chromedriver
RUN chmod +x /chromedriver
# 復(fù)制chrome
COPY config/google-chrome-stable_current_amd64.deb /rencaijia/server/spider/google-chrome-stable_current_amd64.deb
# 安裝chrome相關(guān)依賴
RUN apt-get -y install libpango1.0-0
RUN apt-get -y install libxss1
RUN apt-get -y install fonts-liberation
RUN apt-get -y install libappindicator1
RUN apt-get -y install xdg-utils
RUN apt-get -y install libasound2
RUN apt-get -y install libgconf-2-4
RUN apt-get -y install libnspr4
RUN apt-get -y install libnss3
RUN apt-get -y install wget
# 安裝chrome,根據(jù)不同版本哄辣,安裝chrome
RUN cd /rencaijia/server/spider/ && dpkg -i google-chrome-stable_current_amd64.deb
# 安裝虛擬屏幕xvfb
RUN apt-get -y install xvfb
# 虛擬顯示屏的編號設(shè)置成10
RUN export DISPLAY=:10
# 1440x900x24 表示分辨率是1440*900请梢,這個根據(jù)自己需要去調(diào)整,24表示顏色的深度力穗,如果考慮性能可以調(diào)低一點
RUN Xvfb :10 -ac -screen 0 1440x900x24 &