使用selenium+chrome+docker在linux無界面模擬登錄

由于公司需求精盅,需要爬取某招聘網(wǎng)站的簡歷,這些招聘網(wǎng)站的簡歷需要登錄企業(yè)賬號才能查看簡歷,由于驗證碼比較特殊加上頁面中有一些加密的js渔嚷,導(dǎo)致直接用http請求實現(xiàn)起來難度較大。為了繞過頁面中js對cookie的操作稠曼,所以采用selenium模擬登錄并爬取簡歷形病。

首先先感受一下這些招聘網(wǎng)站的驗證碼:

從后臺返回的圖片是這樣子的



這樣子的


然后在頁面上再利用js重新拼接成我們看到的樣子,簡直是喪心病狂跋挤D恰!司恳!


這種類型的驗證碼應(yīng)該算是比較難的途乃,靠自己去破解顯然不太現(xiàn)實,所以我們的做法是利用selenium+Ashot進行截圖扔傅,然后把圖片傳到打碼平臺耍共,那邊會返回點擊的坐標(biāo)烫饼,再利用selenium的Action根據(jù)坐標(biāo)模擬點擊,部分代碼如下:

gradle依賴的jar包

compile("org.seleniumhq.selenium:selenium-java:3.3.1")
compile("org.seleniumhq.selenium:selenium-support:3.3.1")
compile("ru.yandex.qatools.ashot:ashot:1.5.2")

對驗證碼進行截圖:

WebDriver webDriver = new ChromeDriver();
WebElement divVImage = webDriver.findElement(By.id("divVImage"));
WebElement divVPhrase = webDriver.findElement(By.id("divVPhrase"));
Screenshot myScreenshot =newAShot().takeScreenshot(webDriver,divVImage);
Screenshot smallShot =newAShot().takeScreenshot(webDriver,divVPhrase);
BufferedImage contentImage = myScreenshot.getImage();//屏幕上截取驗證碼圖片
BufferedImage headImage = smallShot.getImage();//屏幕上截取驗證碼頭部文字圖片
//合成圖片后獲取最終圖片的字節(jié)數(shù)組
BufferedImage finalImg = new BufferedImage(contentImage.getWidth(),
        contentImage.getHeight() + headImage.getHeight(), contentImage.getType());
finalImg.createGraphics().drawImage(contentImage, 0, 0, null);
finalImg.createGraphics().drawImage(headImage, 0, contentImage.getHeight(), null);
// 對最后的圖片寫入字節(jié)數(shù)組并返回
ByteArrayOutputStream byteOutputStream = new ByteArrayOutputStream();
//這里formatName采用的是PNG试读,剛開始我們用的是JPEG杠纵,但是在docker環(huán)境下面截取的圖片會出現(xiàn)色差,導(dǎo)致打碼平臺無法識別钩骇,所以換成了PNG淡诗,如果遇到類似問題的同學(xué)注意一下
ImageIO.write(finalImg, "png", byteOutputStream);
byte[] finalImageByte = byteOutputStream.toByteArray();
//把合成的圖片傳入打碼平臺,返回每次點擊的坐標(biāo)

下圖分別是在docker中出現(xiàn)的顏色異常和正常的驗證碼圖片:

image.png
image.png

主要難點就在于登錄驗證碼伊履,剩下的就是處理一些反爬蟲的策略韩容,包括采用代理、調(diào)整爬取時間等等唐瀑,這些就需要看官根據(jù)需求不同自己去調(diào)整了群凶,下面是selenium+chrome的docker的構(gòu)建文件:

# Pull base image
FROM airdock/oracle-jdk:1.8

MAINTAINER chenjun "chenjun@lt51.cn"

# 更新
RUN apt-get update

# 復(fù)制chromedriver,根據(jù)自己需要配合不同的版本,連接如下
# https://sites.google.com/a/chromium.org/chromedriver/
COPY config/chromedriver /chromedriver
RUN chmod +x /chromedriver

# 復(fù)制chrome
COPY config/google-chrome-stable_current_amd64.deb /rencaijia/server/spider/google-chrome-stable_current_amd64.deb

# 安裝chrome相關(guān)依賴
RUN apt-get -y install libpango1.0-0
RUN apt-get -y install libxss1
RUN apt-get -y install fonts-liberation
RUN apt-get -y install libappindicator1
RUN apt-get -y install xdg-utils
RUN apt-get -y install libasound2
RUN apt-get -y install libgconf-2-4
RUN apt-get -y install libnspr4
RUN apt-get -y install libnss3
RUN apt-get -y install wget

# 安裝chrome,根據(jù)不同版本哄辣,安裝chrome
RUN cd /rencaijia/server/spider/ && dpkg -i google-chrome-stable_current_amd64.deb

# 安裝虛擬屏幕xvfb
RUN apt-get -y install xvfb
# 虛擬顯示屏的編號設(shè)置成10
RUN export DISPLAY=:10
# 1440x900x24 表示分辨率是1440*900请梢,這個根據(jù)自己需要去調(diào)整,24表示顏色的深度力穗,如果考慮性能可以調(diào)低一點
RUN Xvfb :10 -ac -screen 0 1440x900x24 &
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末毅弧,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子当窗,更是在濱河造成了極大的恐慌够坐,老刑警劉巖,帶你破解...
    沈念sama閱讀 211,743評論 6 492
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件崖面,死亡現(xiàn)場離奇詭異元咙,居然都是意外死亡,警方通過查閱死者的電腦和手機巫员,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,296評論 3 385
  • 文/潘曉璐 我一進店門庶香,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人简识,你說我怎么就攤上這事赶掖。” “怎么了七扰?”我有些...
    開封第一講書人閱讀 157,285評論 0 348
  • 文/不壞的土叔 我叫張陵奢赂,是天一觀的道長。 經(jīng)常有香客問我戳寸,道長呈驶,這世上最難降的妖魔是什么拷泽? 我笑而不...
    開封第一講書人閱讀 56,485評論 1 283
  • 正文 為了忘掉前任疫鹊,我火速辦了婚禮袖瞻,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘拆吆。我一直安慰自己聋迎,他們只是感情好,可當(dāng)我...
    茶點故事閱讀 65,581評論 6 386
  • 文/花漫 我一把揭開白布枣耀。 她就那樣靜靜地躺著霉晕,像睡著了一般。 火紅的嫁衣襯著肌膚如雪捞奕。 梳的紋絲不亂的頭發(fā)上牺堰,一...
    開封第一講書人閱讀 49,821評論 1 290
  • 那天,我揣著相機與錄音颅围,去河邊找鬼伟葫。 笑死,一個胖子當(dāng)著我的面吹牛院促,可吹牛的內(nèi)容都是我干的筏养。 我是一名探鬼主播,決...
    沈念sama閱讀 38,960評論 3 408
  • 文/蒼蘭香墨 我猛地睜開眼常拓,長吁一口氣:“原來是場噩夢啊……” “哼渐溶!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起弄抬,我...
    開封第一講書人閱讀 37,719評論 0 266
  • 序言:老撾萬榮一對情侶失蹤茎辐,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后掂恕,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體荔茬,經(jīng)...
    沈念sama閱讀 44,186評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,516評論 2 327
  • 正文 我和宋清朗相戀三年竹海,在試婚紗的時候發(fā)現(xiàn)自己被綠了慕蔚。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 38,650評論 1 340
  • 序言:一個原本活蹦亂跳的男人離奇死亡斋配,死狀恐怖孔飒,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情艰争,我是刑警寧澤坏瞄,帶...
    沈念sama閱讀 34,329評論 4 330
  • 正文 年R本政府宣布,位于F島的核電站甩卓,受9級特大地震影響鸠匀,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜逾柿,卻給世界環(huán)境...
    茶點故事閱讀 39,936評論 3 313
  • 文/蒙蒙 一缀棍、第九天 我趴在偏房一處隱蔽的房頂上張望宅此。 院中可真熱鬧,春花似錦爬范、人聲如沸父腕。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,757評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽璧亮。三九已至,卻和暖如春斥难,著一層夾襖步出監(jiān)牢的瞬間枝嘶,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,991評論 1 266
  • 我被黑心中介騙來泰國打工哑诊, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留躬络,地道東北人。 一個月前我還...
    沈念sama閱讀 46,370評論 2 360
  • 正文 我出身青樓搭儒,卻偏偏與公主長得像穷当,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子淹禾,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 43,527評論 2 349

推薦閱讀更多精彩內(nèi)容