抓取微博數(shù)據(jù):使用HtmlUnitDriver實(shí)現(xiàn)模擬登陸


前言

作為小白的我而言,對(duì)于各種網(wǎng)絡(luò)數(shù)據(jù)抓取也不少了,但是在抓取過程之中坑點(diǎn)也不少的,這里就分享一下對(duì)于需要登陸的網(wǎng)頁的處理,我們整體思路是這樣的,我們通過對(duì)該網(wǎng)站的登錄之后拿到該網(wǎng)站的Cookie,然后拿著獲取到的Cookie再去我們想要爬取的地址進(jìn)行數(shù)據(jù)爬取.


Selenium簡(jiǎn)介

Selenium是一個(gè)用于Web應(yīng)用程序測(cè)試的工具杯拐。Selenium測(cè)試直接運(yùn)行在瀏覽器中堪澎,就像真正的用戶在操作一樣卢肃。支持的瀏覽器包括IE(7, 8, 9, 10, 11)轩端,Mozilla Firefox蝙寨,Safari冈爹,Google Chrome,Opera等逛绵。

而我用到的HtmlUnitDriverSelenium眾多工具中一個(gè)基于HtmlUnit的無界面實(shí)現(xiàn),即使用HtmlUnit時(shí)并不會(huì)打開真實(shí)的瀏覽器怀各,而是在內(nèi)存中執(zhí)行代碼,因此運(yùn)行速度很快暑脆,但是對(duì)JavaScript的支持不夠好渠啤,當(dāng)頁面上有復(fù)雜的JavaScript元素時(shí)狐肢,經(jīng)常捕捉不到添吗。

當(dāng)我們需要Selenium的時(shí)候,我們可以添加Maven依賴.如下所示.

<dependency>
    <groupId>org.seleniumhq.selenium</groupId>
    <artifactId>selenium-java</artifactId>
    <version>3.4.0</version>
</dependency>


HtmlUnitDriver的鼠標(biāo)和鍵盤事件

我們平常在普通一個(gè)網(wǎng)站登錄的時(shí)候都會(huì)使用到我們的鍵盤和鼠標(biāo)來進(jìn)行一系列的用戶交互操作.那么我們?cè)?strong>HtmlUnitDriver該如何實(shí)現(xiàn)鍵盤的輸入和鼠標(biāo)的點(diǎn)擊呢?在其實(shí)現(xiàn)的接口類WebDeriver中有一個(gè)專門的類來負(fù)責(zé)實(shí)現(xiàn)這些測(cè)試場(chǎng)景,那就是 Actions 類份名,在使用該類的過程中會(huì)配合使用到 Keys 枚舉以及 Mouse碟联、 Keyboard、CompositeAction 等類僵腺。下面我就分別簡(jiǎn)單介紹鼠標(biāo)事件和鍵盤事件的實(shí)現(xiàn).


鼠標(biāo)事件

  • 鼠標(biāo)左鍵點(diǎn)擊
Actions action = new Actions(driver);
action.click();// 鼠標(biāo)左鍵在當(dāng)前停留的位置做單擊操作 
action.click(driver.findElement(By.name(element)))// 鼠標(biāo)左鍵點(diǎn)擊指定的元素
  • 鼠標(biāo)右鍵點(diǎn)擊
Actions action = new Actions(driver); 
action.contextClick();// 鼠標(biāo)右鍵在當(dāng)前停留的位置做單擊操作 
action.contextClick(driver.findElement(By.name(element)))// 鼠標(biāo)右鍵點(diǎn)擊指定的元素
  • 鼠標(biāo)雙擊操作
Actions action = new Actions(driver); 
action.doubleClick();// 鼠標(biāo)在當(dāng)前停留的位置做雙擊操作 
action.doubleClick(driver.findElement(By.name(element)))// 鼠標(biāo)雙擊指定的元素
  • 鼠標(biāo)拖拽動(dòng)作
Actions action = new Actions(driver); 
// 鼠標(biāo)拖拽動(dòng)作鲤孵,將 source 元素拖放到 target 元素的位置。
action.dragAndDrop(source,target);
// 鼠標(biāo)拖拽動(dòng)作辰如,將 source 元素拖放到 (xOffset, yOffset) 位置普监,其中 xOffset 為橫坐標(biāo),yOffset 為縱坐標(biāo)琉兜。
action.dragAndDrop(source,xOffset,yOffset);
  • 釋放鼠標(biāo)
Actions action = new Actions(driver); 
action.release();// 釋放鼠標(biāo)


鍵盤事件

對(duì)于鍵盤的模擬操作凯正,Actions 類中有提供 keyUp(theKey)、keyDown(theKey)豌蟋、sendKeys(keysToSend) 等方法來實(shí)現(xiàn)廊散。鍵盤的操作有普通鍵盤和修飾鍵盤(Modifier Keys, 下面的章節(jié)將講到修飾鍵的概念)兩種 :

  • 普通鍵盤模擬 sendKeys(keysToSend)
Actions action = new Actions(driver); 
action.sendKeys(Keys.TAB);// 模擬按下并釋放 TAB 鍵
action.sendKeys(Keys.SPACE);// 模擬按下并釋放空格鍵
/***
針對(duì)某個(gè)元素發(fā)出某個(gè)鍵盤的按鍵操作,或者是輸入操作梧疲,
比如在 input 框中輸入某個(gè)字符也可以使用這個(gè)方法允睹。這個(gè)方法也可以拆分成:
action.click(element).sendKeys(keysToSend)运准。
*/
action.sendKeys(element,keysToSend);
  • 對(duì)于修飾鍵(Modifier keys),一般都是跟普通鍵組合使用的缭受。比如 Ctrl+a胁澳、Alt+F4、 Shift+Ctrl+F 等等贯涎。
Actions action = new Actions(driver); 
action.keyDown(Keys.CONTROL);// 按下 Ctrl 鍵
action.keyDown(Keys.SHIFT);// 按下 Shift 鍵
action.keyDown(Key.ALT);// 按下 Alt 鍵
action.keyUp(Keys.CONTROL);// 釋放 Ctrl 鍵
action.keyUp(Keys.SHIFT);// 釋放 Shift 鍵
action.keyUp(Keys.ALT);// 釋放 Alt 鍵

示例:通過 Alt+F4 來關(guān)閉當(dāng)前的活動(dòng)窗口听哭,可以通過下面語句來實(shí)現(xiàn).

action.keyDown(Keys.ALT).keyDown(Keys.F4).keyUp(Keys.ALT).perform();`


使用 HtmlUnitDriver 模擬登錄微博賬號(hào)(基于Selenium:3.4.0實(shí)現(xiàn))

上面我們對(duì)HtmlUnitDriver的使用有了初步的了解,下面我們就要模擬登錄微博賬號(hào).由于數(shù)據(jù)抓取是通過www.weibo.cn而不是www.weibo.com.所以我們要通過https://passport.weibo.cn/signin/login這個(gè)登錄地址來登錄.我們首先要打開這個(gè)網(wǎng)站地址,分析這個(gè)網(wǎng)站有什么是我們需要.網(wǎng)站上的元素很少.我們需要賬號(hào)輸入框密碼輸入框登錄按鈕的點(diǎn)擊事件.

然后我們通過控制臺(tái)來獲取這個(gè)三個(gè)元素.如下所示.(因?yàn)槲蚁惹暗顷戇^,所以Cookie里面會(huì)有我的信息)

好了,準(zhǔn)備工作已經(jīng)做完了,那么接下來我們就需要搞我們的代碼了.代碼比較簡(jiǎn)單,這里就不過多解釋了.

            //初始化一個(gè)HtmlUnitDriver對(duì)象
            HtmlUnitDriver driver = new HtmlUnitDriver(BrowserVersion.FIREFOX_52);
            driver.setJavascriptEnabled(true);//允許JS操作
            driver.get("https://passport.weibo.cn/signin/login");
            driver.executeScript("document.getElementById('loginWrapper').style.display = 'block'");//隱藏新浪微博登錄的驗(yàn)證碼
            //找到賬號(hào)輸入框,輸入用戶賬號(hào)
            WebElement mobile = driver.findElementByCssSelector("input#loginName");
            mobile.sendKeys(username);
            //找到密碼輸入框,輸入用戶密碼
            WebElement pass = driver.findElementByCssSelector("input#loginPassword");
            pass.sendKeys(password);
            //輸入完成之后,點(diǎn)擊登錄按鈕
            WebElement submit = driver.findElementByCssSelector("a#loginAction");
            submit.click();
            driver.close();//關(guān)閉瀏覽器

那么我們?cè)撊绾文玫紺ookie字符串呢?這里登錄完成之后,HtmlUnitDriver就存儲(chǔ)了Cookie信息,我們直接拿出來就行,代碼如下所示.

            Set<Cookie> cookieSet = driver.manage().getCookies();
            StringBuilder sb = new StringBuilder();
            for (Cookie cookie : cookieSet) {
                sb.append(cookie.getName() + "=" + cookie.getValue() + ";");
            }
            String result = sb.toString();//拼接好的Cookie信息

整體代碼如下所示.

     public static String getSinaCookie(String username, String password) throws Exception {
            //初始化一個(gè)HtmlUnitDriver對(duì)象
            HtmlUnitDriver driver = new HtmlUnitDriver(BrowserVersion.FIREFOX_52);
            driver.setJavascriptEnabled(true);//允許JS操作
            driver.get("https://passport.weibo.cn/signin/login");
            driver.executeScript("document.getElementById('loginWrapper').style.display = 'block'");//隱藏新浪微博登錄的驗(yàn)證碼
            //找到賬號(hào)輸入框,輸入用戶賬號(hào)
            WebElement mobile = driver.findElementByCssSelector("input#loginName");
            mobile.sendKeys(username);
            //找到密碼輸入框,輸入用戶密碼
            WebElement pass = driver.findElementByCssSelector("input#loginPassword");
            pass.sendKeys(password);
            //輸入完成之后,點(diǎn)擊登錄按鈕
            WebElement submit = driver.findElementByCssSelector("a#loginAction");
            submit.click();
            String result = concatCookie(driver);
            System.out.println("Get Cookie: " + result);
            driver.close();//關(guān)閉瀏覽器

            if (result.contains("SUB")) {
                return result;
            } else {
                throw new Exception("weibo login failed");
            }
        }

        public static String concatCookie(HtmlUnitDriver driver) {
            Set<Cookie> cookieSet = driver.manage().getCookies();
            StringBuilder sb = new StringBuilder();
            for (Cookie cookie : cookieSet) {
                sb.append(cookie.getName() + "=" + cookie.getValue() + ";");
            }
            String result = sb.toString();
            return result;
        }

通過控制臺(tái)的打印,我們就能獲得我們所需要的Cookie字符串了.如下所示.


總結(jié)

這篇博客寫到這就到了尾聲了,有一點(diǎn)要注意,那就是使用HtmlUnitDriver時(shí)候,可能會(huì)鏈接失敗,現(xiàn)在未找到原因,希望有知道的大佬能提點(diǎn)下.文章很多點(diǎn)都可能模糊不清,所以如果有錯(cuò)誤,歡迎指導(dǎo)批評(píng),非常感謝各位大佬.

本文參考文章:
Selenium WebDriver 中鼠標(biāo)和鍵盤事件分析及擴(kuò)展
Java開源爬蟲框架WebCollector教程——爬取新浪微博



最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末塘雳,一起剝皮案震驚了整個(gè)濱河市陆盘,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌败明,老刑警劉巖隘马,帶你破解...
    沈念sama閱讀 218,546評(píng)論 6 507
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異妻顶,居然都是意外死亡酸员,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,224評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門讳嘱,熙熙樓的掌柜王于貴愁眉苦臉地迎上來幔嗦,“玉大人,你說我怎么就攤上這事沥潭⊙” “怎么了?”我有些...
    開封第一講書人閱讀 164,911評(píng)論 0 354
  • 文/不壞的土叔 我叫張陵钝鸽,是天一觀的道長(zhǎng)汇恤。 經(jīng)常有香客問我,道長(zhǎng)拔恰,這世上最難降的妖魔是什么因谎? 我笑而不...
    開封第一講書人閱讀 58,737評(píng)論 1 294
  • 正文 為了忘掉前任,我火速辦了婚禮颜懊,結(jié)果婚禮上财岔,老公的妹妹穿的比我還像新娘。我一直安慰自己河爹,他們只是感情好匠璧,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,753評(píng)論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著昌抠,像睡著了一般患朱。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上炊苫,一...
    開封第一講書人閱讀 51,598評(píng)論 1 305
  • 那天裁厅,我揣著相機(jī)與錄音冰沙,去河邊找鬼。 笑死执虹,一個(gè)胖子當(dāng)著我的面吹牛拓挥,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播袋励,決...
    沈念sama閱讀 40,338評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼侥啤,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來了茬故?” 一聲冷哼從身側(cè)響起盖灸,我...
    開封第一講書人閱讀 39,249評(píng)論 0 276
  • 序言:老撾萬榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎磺芭,沒想到半個(gè)月后赁炎,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,696評(píng)論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡钾腺,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,888評(píng)論 3 336
  • 正文 我和宋清朗相戀三年徙垫,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片放棒。...
    茶點(diǎn)故事閱讀 40,013評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡姻报,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出间螟,到底是詐尸還是另有隱情吴旋,我是刑警寧澤,帶...
    沈念sama閱讀 35,731評(píng)論 5 346
  • 正文 年R本政府宣布寒亥,位于F島的核電站邮府,受9級(jí)特大地震影響荧关,放射性物質(zhì)發(fā)生泄漏溉奕。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,348評(píng)論 3 330
  • 文/蒙蒙 一忍啤、第九天 我趴在偏房一處隱蔽的房頂上張望加勤。 院中可真熱鬧,春花似錦同波、人聲如沸鳄梅。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,929評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽戴尸。三九已至,卻和暖如春冤狡,著一層夾襖步出監(jiān)牢的瞬間孙蒙,已是汗流浹背项棠。 一陣腳步聲響...
    開封第一講書人閱讀 33,048評(píng)論 1 270
  • 我被黑心中介騙來泰國(guó)打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留挎峦,地道東北人香追。 一個(gè)月前我還...
    沈念sama閱讀 48,203評(píng)論 3 370
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像坦胶,于是被迫代替她去往敵國(guó)和親透典。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,960評(píng)論 2 355

推薦閱讀更多精彩內(nèi)容