Java爬蟲入門篇(二)Java 8 Nashorn 動態(tài)執(zhí)行js腳本

  • 場景描述:一些網(wǎng)站的 response 信息是加密數(shù)據(jù)队他,頁面顯示的時候通過調(diào)用js函數(shù)進(jìn)行解密开缎,我們爬到這些加密數(shù)據(jù)是毫無用處的
  • 分析:如果我們用 Java 去模擬解密腳本難度系數(shù)極大,那么如果我們可以在 Java 端運行js腳本呢?
  • 解決方案:可以可利用 Java 8 中的 Nashorn 引擎解決协怒。

Nashorn通過在JVM上,以原生方式運行動態(tài)的JavaScript代碼來擴(kuò)展Java的功能卑笨。
可以通過 Java 8 Nashorn 教程 來簡單了解一下
Nashorn 的使用
下面看Nashorn 使用實例:

import java.io.FileReader;

import javax.script.Invocable;
import javax.script.ScriptEngine;
import javax.script.ScriptEngineManager;
import javax.script.ScriptException;

import org.apache.commons.lang3.StringUtils;
import org.springframework.core.io.ClassPathResource;
import org.springframework.core.io.Resource;


public class JavaScriptEngine {

    private static JavaScriptEngine instance = null;
    
    private ScriptEngine engine;
    
    /**
     * 調(diào)用js函數(shù)所需
     */
    private static final String DECODE_KEY = "abc"; 
    
    /**
     * 返回單例
     * 
     * @return
     */
    public static JavaScriptEngine getInstance() {
        if (instance == null)
            instance = new JavaScriptEngine();
        return instance;
    }
    
    /**
     * 無參構(gòu)造器 初始化需要的js引擎
     * 
     */
    private JavaScriptEngine() {
        try {
            //調(diào)用Java8 nashorn 運行JavaScript腳本
            this.engine = new ScriptEngineManager().getEngineByName("nashorn");
            //讀取文件對象
            Resource aesJs = new ClassPathResource("js/aes.js");
            Resource modeEcbJs = new ClassPathResource("js/ecb.js");
            Resource rnavJs = new ClassPathResource("js/nav.js");
            //執(zhí)行腳本
            this.engine.eval(new FileReader(aesJs.getFile()));
            this.engine.eval(new FileReader(modeEcbJs.getFile()));
            this.engine.eval(new FileReader(rnavJs.getFile()));
        } catch (Exception e) {
            e.printStackTrace();
            throw new RuntimeException("js腳本初始化失敗");
        }
    }
    
    /**
     * 調(diào)用JavaScript的解密函數(shù)
     * 
     * @param word
     * @return
     * @throws NoSuchMethodException
     * @throws ScriptException
     */
    public String decodeData(String word) throws NoSuchMethodException, ScriptException {
        if (StringUtils.isBlank(word)) {
            throw new RuntimeException();
        }
        Invocable invocable = (Invocable) engine;
        //Decrypt是js函數(shù)名, word, DECODE_KEY是參數(shù)
        return (String) invocable.invokeFunction("Decrypt", word, DECODE_KEY);
    }
    
}

執(zhí)行engine.eval()讀取文件后孕暇,就可以用invocable.invokeFunction()來調(diào)用js腳本中的function
注意:Nashorn無法執(zhí)行 包含window等瀏覽器對象的js腳本,例如jquery
下面是爬蟲代碼:

import java.io.IOException;

import javax.script.ScriptException;

import org.apache.commons.lang3.StringUtils;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.slf4j.Logger;
import org.slf4j.LoggerFactory;

import com.taven.web.hy88crawler.config.Constant;
import com.taven.web.hy88crawler.entity.Shop99Company;
import com.taven.web.hy88crawler.utils.RegularUtils;

public class Shop99Converter {

    private static Shop99Converter instance = null;
    
    private final static String USER_AGENT = "Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.119 Safari/537.36";  

    private Logger log = LoggerFactory.getLogger(this.getClass());
    
    /**
     * 返回單例
     * 
     * @return
     */
    public static Shop99Converter getInstance() {
        if (instance == null)
            instance = new Shop99Converter();
        return instance;
    }
    
    /**
     * 將抓取到的html信息轉(zhuǎn)為公司實體
     * 
     * @param url
     * @throws Exception 
     */
    public Shop99Company html2Company(String url, Integer currentPage) throws Exception {
        try {
            Document doc = Jsoup.connect(url).userAgent(USER_AGENT).get();
            //根據(jù)html結(jié)構(gòu)赤兴,抓取有效數(shù)據(jù)
            String companyName = doc.getElementsByAttributeValue("class", "companyname").text();
            String contacts = doc.select("div.contxt p").eq(0).text();
            String encodePhone = doc.getElementsByAttributeValue("class", "phoneNumber").text();
            String area = doc.getElementById("detialAddr").text();
            //使用js引擎妖滔,調(diào)用js函數(shù)解密
            JavaScriptEngine jsEngine = JavaScriptEngine.getInstance();
            String mobile = jsEngine.decodeData(encodePhone);
            if (StringUtils.isBlank(companyName) || !RegularUtils.isValidMobile(mobile) 
                    || StringUtils.isBlank(contacts)) {
                return null;
            } else {
                Shop99Company shop99 = new Shop99Company();
                shop99.setMobile(mobile);
                shop99.setCompanyName(companyName);
                shop99.setContacts(contacts);
                return shop99;
            }
        } catch (NoSuchMethodException | ScriptException | IOException e) {
            e.printStackTrace();
            log.error(e.getMessage());
            return null;
        }
        
    }
    
}

通過Document doc = Jsoup.connect(url).userAgent(USER_AGENT).get();請求url返回Document(即頁面response響應(yīng)的html,這樣似乎也挺方便的)桶良。

Jsoup語法和jquery選擇器類似

  • doc.getElementsByAttributeValue("class", "companyname").text();
    根據(jù)class屬性值獲取元素座舍,.text()轉(zhuǎn)換為字符串
  • doc.select("div.contxt p") 獲取所有class='contxt '下的<p>
  • doc.getElementById("detialAddr");根據(jù)id獲取元素
  • 更多使用參考 jsoup 中文api

轉(zhuǎn)載請注明出處,原文作者:殷天文

系列教程
Java爬蟲入門篇(一)HttpClient+jsoup陨帆,以及防盜鏈簡述

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末曲秉,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子疲牵,更是在濱河造成了極大的恐慌承二,老刑警劉巖,帶你破解...
    沈念sama閱讀 212,718評論 6 492
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件纲爸,死亡現(xiàn)場離奇詭異迈套,居然都是意外死亡缆巧,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,683評論 3 385
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來懂衩,“玉大人决帖,你說我怎么就攤上這事憨奸×闾В” “怎么了?”我有些...
    開封第一講書人閱讀 158,207評論 0 348
  • 文/不壞的土叔 我叫張陵题翻,是天一觀的道長揩徊。 經(jīng)常有香客問我腰鬼,道長,這世上最難降的妖魔是什么塑荒? 我笑而不...
    開封第一講書人閱讀 56,755評論 1 284
  • 正文 為了忘掉前任熄赡,我火速辦了婚禮,結(jié)果婚禮上齿税,老公的妹妹穿的比我還像新娘彼硫。我一直安慰自己,他們只是感情好凌箕,可當(dāng)我...
    茶點故事閱讀 65,862評論 6 386
  • 文/花漫 我一把揭開白布拧篮。 她就那樣靜靜地躺著,像睡著了一般牵舱。 火紅的嫁衣襯著肌膚如雪串绩。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 50,050評論 1 291
  • 那天芜壁,我揣著相機(jī)與錄音礁凡,去河邊找鬼。 笑死慧妄,一個胖子當(dāng)著我的面吹牛顷牌,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播腰涧,決...
    沈念sama閱讀 39,136評論 3 410
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼紊浩!你這毒婦竟也來了窖铡?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 37,882評論 0 268
  • 序言:老撾萬榮一對情侶失蹤坊谁,失蹤者是張志新(化名)和其女友劉穎费彼,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體口芍,經(jīng)...
    沈念sama閱讀 44,330評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡箍铲,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,651評論 2 327
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了鬓椭。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片颠猴。...
    茶點故事閱讀 38,789評論 1 341
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖小染,靈堂內(nèi)的尸體忽然破棺而出翘瓮,到底是詐尸還是另有隱情,我是刑警寧澤裤翩,帶...
    沈念sama閱讀 34,477評論 4 333
  • 正文 年R本政府宣布资盅,位于F島的核電站,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏呵扛。R本人自食惡果不足惜每庆,卻給世界環(huán)境...
    茶點故事閱讀 40,135評論 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望今穿。 院中可真熱鬧缤灵,春花似錦、人聲如沸荣赶。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,864評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽拔创。三九已至利诺,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間剩燥,已是汗流浹背慢逾。 一陣腳步聲響...
    開封第一講書人閱讀 32,099評論 1 267
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留灭红,地道東北人侣滩。 一個月前我還...
    沈念sama閱讀 46,598評論 2 362
  • 正文 我出身青樓,卻偏偏與公主長得像变擒,于是被迫代替她去往敵國和親君珠。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 43,697評論 2 351

推薦閱讀更多精彩內(nèi)容

  • Spring Cloud為開發(fā)人員提供了快速構(gòu)建分布式系統(tǒng)中一些常見模式的工具(例如配置管理娇斑,服務(wù)發(fā)現(xiàn)策添,斷路器,智...
    卡卡羅2017閱讀 134,638評論 18 139
  • 1. Java基礎(chǔ)部分 基礎(chǔ)部分的順序:基本語法毫缆,類相關(guān)的語法唯竹,內(nèi)部類的語法,繼承相關(guān)的語法苦丁,異常的語法浸颓,線程的語...
    子非魚_t_閱讀 31,602評論 18 399
  • 文/陳安若 來到簡書兩個月,收獲多多旺拉,學(xué)到很多好習(xí)慣产上,感受到濃厚的學(xué)習(xí)、積極向上的氛圍蛾狗,讓我也不覺跟著成長蒂秘。 在此...
    陳安若閱讀 380評論 6 5
  • 記錄一段真實生活中人物的語言或者是兩三個人物的對話。建議大家先錄音淘太,然后逐字打出來姻僧。 大學(xué)老師授課內(nèi)容也算是真實生...
    一個文字狗閱讀 222評論 1 0
  • 文/熟格 我想规丽, 最美好的生活方式, 不是躺在床上每天睡到自然醒撇贺, 也不是坐在辦公室里無所事事赌莺, 更不是四海云游、...
    是舒格閱讀 191評論 0 2