前言
作為小白的我而言,對(duì)于各種網(wǎng)絡(luò)數(shù)據(jù)抓取也不少了,但是在抓取過程之中坑點(diǎn)也不少的,這里就分享一下對(duì)于需要登陸的網(wǎng)頁的處理,我們整體思路是這樣的,我們通過對(duì)該網(wǎng)站的登錄之后拿到該網(wǎng)站的Cookie,然后拿著獲取到的Cookie再去我們想要爬取的地址進(jìn)行數(shù)據(jù)爬取.
Selenium簡(jiǎn)介
Selenium是一個(gè)用于Web應(yīng)用程序測(cè)試的工具杯拐。Selenium測(cè)試直接運(yùn)行在瀏覽器中堪澎,就像真正的用戶在操作一樣卢肃。支持的瀏覽器包括IE(7, 8, 9, 10, 11)轩端,Mozilla Firefox蝙寨,Safari冈爹,Google Chrome,Opera等逛绵。
而我用到的HtmlUnitDriver是Selenium眾多工具中一個(gè)基于HtmlUnit的無界面實(shí)現(xiàn),即使用HtmlUnit時(shí)并不會(huì)打開真實(shí)的瀏覽器怀各,而是在內(nèi)存中執(zhí)行代碼,因此運(yùn)行速度很快暑脆,但是對(duì)JavaScript的支持不夠好渠啤,當(dāng)頁面上有復(fù)雜的JavaScript元素時(shí)狐肢,經(jīng)常捕捉不到添吗。
當(dāng)我們需要Selenium的時(shí)候,我們可以添加Maven依賴.如下所示.
<dependency>
<groupId>org.seleniumhq.selenium</groupId>
<artifactId>selenium-java</artifactId>
<version>3.4.0</version>
</dependency>
HtmlUnitDriver的鼠標(biāo)和鍵盤事件
我們平常在普通一個(gè)網(wǎng)站登錄的時(shí)候都會(huì)使用到我們的鍵盤和鼠標(biāo)來進(jìn)行一系列的用戶交互操作.那么我們?cè)?strong>HtmlUnitDriver該如何實(shí)現(xiàn)鍵盤的輸入和鼠標(biāo)的點(diǎn)擊呢?在其實(shí)現(xiàn)的接口類WebDeriver中有一個(gè)專門的類來負(fù)責(zé)實(shí)現(xiàn)這些測(cè)試場(chǎng)景,那就是 Actions 類份名,在使用該類的過程中會(huì)配合使用到 Keys 枚舉以及 Mouse碟联、 Keyboard、CompositeAction 等類僵腺。下面我就分別簡(jiǎn)單介紹鼠標(biāo)事件和鍵盤事件的實(shí)現(xiàn).
鼠標(biāo)事件
- 鼠標(biāo)左鍵點(diǎn)擊
Actions action = new Actions(driver);
action.click();// 鼠標(biāo)左鍵在當(dāng)前停留的位置做單擊操作
action.click(driver.findElement(By.name(element)))// 鼠標(biāo)左鍵點(diǎn)擊指定的元素
- 鼠標(biāo)右鍵點(diǎn)擊
Actions action = new Actions(driver);
action.contextClick();// 鼠標(biāo)右鍵在當(dāng)前停留的位置做單擊操作
action.contextClick(driver.findElement(By.name(element)))// 鼠標(biāo)右鍵點(diǎn)擊指定的元素
- 鼠標(biāo)雙擊操作
Actions action = new Actions(driver);
action.doubleClick();// 鼠標(biāo)在當(dāng)前停留的位置做雙擊操作
action.doubleClick(driver.findElement(By.name(element)))// 鼠標(biāo)雙擊指定的元素
- 鼠標(biāo)拖拽動(dòng)作
Actions action = new Actions(driver);
// 鼠標(biāo)拖拽動(dòng)作鲤孵,將 source 元素拖放到 target 元素的位置。
action.dragAndDrop(source,target);
// 鼠標(biāo)拖拽動(dòng)作辰如,將 source 元素拖放到 (xOffset, yOffset) 位置普监,其中 xOffset 為橫坐標(biāo),yOffset 為縱坐標(biāo)琉兜。
action.dragAndDrop(source,xOffset,yOffset);
- 釋放鼠標(biāo)
Actions action = new Actions(driver);
action.release();// 釋放鼠標(biāo)
鍵盤事件
對(duì)于鍵盤的模擬操作凯正,Actions 類中有提供 keyUp(theKey)、keyDown(theKey)豌蟋、sendKeys(keysToSend) 等方法來實(shí)現(xiàn)廊散。鍵盤的操作有普通鍵盤和修飾鍵盤(Modifier Keys, 下面的章節(jié)將講到修飾鍵的概念)兩種 :
- 普通鍵盤模擬 sendKeys(keysToSend)
Actions action = new Actions(driver);
action.sendKeys(Keys.TAB);// 模擬按下并釋放 TAB 鍵
action.sendKeys(Keys.SPACE);// 模擬按下并釋放空格鍵
/***
針對(duì)某個(gè)元素發(fā)出某個(gè)鍵盤的按鍵操作,或者是輸入操作梧疲,
比如在 input 框中輸入某個(gè)字符也可以使用這個(gè)方法允睹。這個(gè)方法也可以拆分成:
action.click(element).sendKeys(keysToSend)运准。
*/
action.sendKeys(element,keysToSend);
- 對(duì)于修飾鍵(Modifier keys),一般都是跟普通鍵組合使用的缭受。比如 Ctrl+a胁澳、Alt+F4、 Shift+Ctrl+F 等等贯涎。
Actions action = new Actions(driver);
action.keyDown(Keys.CONTROL);// 按下 Ctrl 鍵
action.keyDown(Keys.SHIFT);// 按下 Shift 鍵
action.keyDown(Key.ALT);// 按下 Alt 鍵
action.keyUp(Keys.CONTROL);// 釋放 Ctrl 鍵
action.keyUp(Keys.SHIFT);// 釋放 Shift 鍵
action.keyUp(Keys.ALT);// 釋放 Alt 鍵
示例:通過 Alt+F4 來關(guān)閉當(dāng)前的活動(dòng)窗口听哭,可以通過下面語句來實(shí)現(xiàn).
action.keyDown(Keys.ALT).keyDown(Keys.F4).keyUp(Keys.ALT).perform();`
使用 HtmlUnitDriver 模擬登錄微博賬號(hào)(基于Selenium:3.4.0實(shí)現(xiàn))
上面我們對(duì)HtmlUnitDriver的使用有了初步的了解,下面我們就要模擬登錄微博賬號(hào).由于數(shù)據(jù)抓取是通過www.weibo.cn而不是www.weibo.com.所以我們要通過https://passport.weibo.cn/signin/login這個(gè)登錄地址來登錄.我們首先要打開這個(gè)網(wǎng)站地址,分析這個(gè)網(wǎng)站有什么是我們需要.網(wǎng)站上的元素很少.我們需要賬號(hào)輸入框、密碼輸入框和登錄按鈕的點(diǎn)擊事件.
然后我們通過控制臺(tái)來獲取這個(gè)三個(gè)元素.如下所示.(因?yàn)槲蚁惹暗顷戇^,所以Cookie里面會(huì)有我的信息)
好了,準(zhǔn)備工作已經(jīng)做完了,那么接下來我們就需要搞我們的代碼了.代碼比較簡(jiǎn)單,這里就不過多解釋了.
//初始化一個(gè)HtmlUnitDriver對(duì)象
HtmlUnitDriver driver = new HtmlUnitDriver(BrowserVersion.FIREFOX_52);
driver.setJavascriptEnabled(true);//允許JS操作
driver.get("https://passport.weibo.cn/signin/login");
driver.executeScript("document.getElementById('loginWrapper').style.display = 'block'");//隱藏新浪微博登錄的驗(yàn)證碼
//找到賬號(hào)輸入框,輸入用戶賬號(hào)
WebElement mobile = driver.findElementByCssSelector("input#loginName");
mobile.sendKeys(username);
//找到密碼輸入框,輸入用戶密碼
WebElement pass = driver.findElementByCssSelector("input#loginPassword");
pass.sendKeys(password);
//輸入完成之后,點(diǎn)擊登錄按鈕
WebElement submit = driver.findElementByCssSelector("a#loginAction");
submit.click();
driver.close();//關(guān)閉瀏覽器
那么我們?cè)撊绾文玫紺ookie字符串呢?這里登錄完成之后,HtmlUnitDriver就存儲(chǔ)了Cookie信息,我們直接拿出來就行,代碼如下所示.
Set<Cookie> cookieSet = driver.manage().getCookies();
StringBuilder sb = new StringBuilder();
for (Cookie cookie : cookieSet) {
sb.append(cookie.getName() + "=" + cookie.getValue() + ";");
}
String result = sb.toString();//拼接好的Cookie信息
整體代碼如下所示.
public static String getSinaCookie(String username, String password) throws Exception {
//初始化一個(gè)HtmlUnitDriver對(duì)象
HtmlUnitDriver driver = new HtmlUnitDriver(BrowserVersion.FIREFOX_52);
driver.setJavascriptEnabled(true);//允許JS操作
driver.get("https://passport.weibo.cn/signin/login");
driver.executeScript("document.getElementById('loginWrapper').style.display = 'block'");//隱藏新浪微博登錄的驗(yàn)證碼
//找到賬號(hào)輸入框,輸入用戶賬號(hào)
WebElement mobile = driver.findElementByCssSelector("input#loginName");
mobile.sendKeys(username);
//找到密碼輸入框,輸入用戶密碼
WebElement pass = driver.findElementByCssSelector("input#loginPassword");
pass.sendKeys(password);
//輸入完成之后,點(diǎn)擊登錄按鈕
WebElement submit = driver.findElementByCssSelector("a#loginAction");
submit.click();
String result = concatCookie(driver);
System.out.println("Get Cookie: " + result);
driver.close();//關(guān)閉瀏覽器
if (result.contains("SUB")) {
return result;
} else {
throw new Exception("weibo login failed");
}
}
public static String concatCookie(HtmlUnitDriver driver) {
Set<Cookie> cookieSet = driver.manage().getCookies();
StringBuilder sb = new StringBuilder();
for (Cookie cookie : cookieSet) {
sb.append(cookie.getName() + "=" + cookie.getValue() + ";");
}
String result = sb.toString();
return result;
}
通過控制臺(tái)的打印,我們就能獲得我們所需要的Cookie字符串了.如下所示.
總結(jié)
這篇博客寫到這就到了尾聲了,有一點(diǎn)要注意,那就是使用HtmlUnitDriver時(shí)候,可能會(huì)鏈接失敗,現(xiàn)在未找到原因,希望有知道的大佬能提點(diǎn)下.文章很多點(diǎn)都可能模糊不清,所以如果有錯(cuò)誤,歡迎指導(dǎo)批評(píng),非常感謝各位大佬.
本文參考文章:
Selenium WebDriver 中鼠標(biāo)和鍵盤事件分析及擴(kuò)展
Java開源爬蟲框架WebCollector教程——爬取新浪微博