Java網(wǎng)絡(luò)爬蟲實操(2)

上一篇: Java網(wǎng)絡(luò)爬蟲實操(1)

本篇文章繼續(xù)介紹爬蟲框架NetDiscovery的使用:如何發(fā)重復(fù)請求涧狮、如何用爬蟲容器引擎驅(qū)動爬蟲程序

1 )重復(fù)請求的場景舉例

從2017年下半年開始,比特幣、數(shù)字貨幣般卑、虛擬幣擒贸、區(qū)塊鏈技術(shù)干旁、去中心化等等新名詞頻頻出現(xiàn)在媒體上盖喷,讓人不想看到都很難
(本篇文章不研究數(shù)字貨幣是不是未來的發(fā)展方向)
風(fēng)險提示:炒幣有風(fēng)險,入市需謹(jǐn)慎

數(shù)據(jù)貨幣信息平臺

找了一個數(shù)字貨幣的聚合信息平臺雷绢,上面會定時刷新每種貨幣的價格泛烙。如果要寫一個有實際價值的抓數(shù)據(jù)程序,那肯定希望這個程序能重復(fù)執(zhí)行抓數(shù)據(jù)的動作吧翘紊。

目標(biāo)任務(wù):每隔一段時間去獲取這個頁面上的數(shù)字貨幣【EOS】的價格信息

一種數(shù)字貨幣的價格信息

2 )代碼實現(xiàn)

  • 解析類
package com.sinkinka.parser;

import com.cv4j.netdiscovery.core.domain.Page;
import com.cv4j.netdiscovery.core.parser.Parser;

public class EosParser implements Parser {

   @Override
   public void process(Page page) {

       String xpathStr = "http://div[@class='coinprice']/text()";
       String marketPrice = page.getHtml().xpath(xpathStr).get();
       System.out.println("marketPrice=" + marketPrice);

   }
}

  • 執(zhí)行方法
package com.sinkinka;

import com.cv4j.netdiscovery.core.Spider;
import com.cv4j.netdiscovery.extra.downloader.httpclient.HttpClientDownloader;
import com.sinkinka.parser.EosParser;

public class EosSpider {

    public static void main(String[] args) {

        String eosUrl = "https://www.feixiaohao.com/currencies/eos/";

        long periodTime = 1000 * 600;

        Spider.create()
                .name("EOS")
                .repeatRequest(periodTime, eosUrl)胶惰、
 //下面這行代碼要注意,要設(shè)置>=periodTime霞溪,想了解具體作用孵滞,可以去分析源代碼
                .initialDelay(periodTime) 
                .parser(new EosParser())
                .downloader(new HttpClientDownloader())
                .run();
    }
}
  • 執(zhí)行結(jié)果


    演示數(shù)據(jù)

3 )爬蟲容器引擎

數(shù)字貨幣有幾百上千種,每種貨幣信息都在單獨的頁面上鸯匹,如果要同時獲取多種數(shù)字貨幣的信息坊饶,怎么處理?

依賴框架殴蓬,有一種實現(xiàn)方法是:給每種數(shù)字貨幣定義一個爬蟲程序匿级,然后把爬蟲程序放到容器里,統(tǒng)一交給爬蟲引擎去驅(qū)動染厅。

代碼示例:

package com.sinkinka;

import com.cv4j.netdiscovery.core.Spider;
import com.cv4j.netdiscovery.core.SpiderEngine;
import com.cv4j.netdiscovery.extra.downloader.httpclient.HttpClientDownloader;
import com.sinkinka.parser.EosParser;

public class TestSpiderEngine {

    public static void main(String[] args) {
        //爬蟲容器引擎
        SpiderEngine engine = SpiderEngine.create();

        //爬蟲程序1
        String eosUrl = "https://www.feixiaohao.com/currencies/eos/";
        long periodTime1 = 1000 * 5;
        Spider spider1 = Spider.create()
                .name("EOS")
                .repeatRequest(periodTime1, eosUrl)
                .parser(new EosParser())
                .downloader(new HttpClientDownloader())
                .initialDelay(periodTime1);

        engine.addSpider(spider1);

        //可以增加多個爬蟲到容器中,
//        engine.addSpider(spider2);
//        ......

        engine.httpd(8088);     //這一行要注意痘绎,通過接口可以獲取訪問爬蟲容器內(nèi)的狀態(tài)
        engine.runWithRepeat();
    }
}

訪問容器狀態(tài):
接口地址:http://127.0.0.1:8088/netdiscovery/spiders
返回的內(nèi)容:

{
    "code":200,
    "data":[
        {
            "downloaderType":"HttpClientDownloader",   //用的哪個下載器
            "leftRequestSize":0,                       //隊列中還剩的request數(shù)量
            "queueType":"DefaultQueue",                //隊列類型:jdk(DefaultQueue)、redis肖粮、kafka
            "spiderName":"EOS",                        //爬蟲的名字孤页,在引擎里唯一
            "spiderStatus":1,                          //1:運行  2:暫停  4:停止
            "totalRequestSize":1                       //加入到隊列中的request總數(shù)量,減去上面的leftRequestSize涩馆,等于該爬蟲已經(jīng)完成的重復(fù)請求次數(shù)
        }
    ],
    "message":"success"
}

4 )總結(jié)

本篇簡單介紹了NetDiscovery發(fā)重復(fù)請求這個功能行施。這就是框架的價值,如果不用框架魂那,自己再去實現(xiàn)的話蛾号,要多寫一些代碼的。
爬蟲引擎還有很多功能涯雅,敬請期待鲜结。


今天是西方情人節(jié),祝天下有情人節(jié)日快樂!
祝大家身體健康精刷、家庭和睦拗胜、工作順利!

下一篇:Java網(wǎng)絡(luò)爬蟲實操(3)

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末贬养,一起剝皮案震驚了整個濱河市挤土,隨后出現(xiàn)的幾起案子琴庵,更是在濱河造成了極大的恐慌误算,老刑警劉巖,帶你破解...
    沈念sama閱讀 216,919評論 6 502
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件迷殿,死亡現(xiàn)場離奇詭異儿礼,居然都是意外死亡,警方通過查閱死者的電腦和手機庆寺,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,567評論 3 392
  • 文/潘曉璐 我一進店門蚊夫,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人懦尝,你說我怎么就攤上這事知纷。” “怎么了陵霉?”我有些...
    開封第一講書人閱讀 163,316評論 0 353
  • 文/不壞的土叔 我叫張陵琅轧,是天一觀的道長。 經(jīng)常有香客問我踊挠,道長乍桂,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,294評論 1 292
  • 正文 為了忘掉前任效床,我火速辦了婚禮睹酌,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘剩檀。我一直安慰自己憋沿,他們只是感情好,可當(dāng)我...
    茶點故事閱讀 67,318評論 6 390
  • 文/花漫 我一把揭開白布沪猴。 她就那樣靜靜地躺著卤妒,像睡著了一般。 火紅的嫁衣襯著肌膚如雪字币。 梳的紋絲不亂的頭發(fā)上则披,一...
    開封第一講書人閱讀 51,245評論 1 299
  • 那天挨约,我揣著相機與錄音桐磁,去河邊找鬼。 笑死票渠,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的阱洪。 我是一名探鬼主播便贵,決...
    沈念sama閱讀 40,120評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼冗荸!你這毒婦竟也來了承璃?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 38,964評論 0 275
  • 序言:老撾萬榮一對情侶失蹤蚌本,失蹤者是張志新(化名)和其女友劉穎盔粹,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體程癌,經(jīng)...
    沈念sama閱讀 45,376評論 1 313
  • 正文 獨居荒郊野嶺守林人離奇死亡舷嗡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,592評論 2 333
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了嵌莉。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片进萄。...
    茶點故事閱讀 39,764評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖锐峭,靈堂內(nèi)的尸體忽然破棺而出中鼠,到底是詐尸還是另有隱情,我是刑警寧澤沿癞,帶...
    沈念sama閱讀 35,460評論 5 344
  • 正文 年R本政府宣布援雇,位于F島的核電站,受9級特大地震影響抛寝,放射性物質(zhì)發(fā)生泄漏熊杨。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 41,070評論 3 327
  • 文/蒙蒙 一盗舰、第九天 我趴在偏房一處隱蔽的房頂上張望晶府。 院中可真熱鬧,春花似錦钻趋、人聲如沸川陆。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,697評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽较沪。三九已至,卻和暖如春失仁,著一層夾襖步出監(jiān)牢的瞬間尸曼,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 32,846評論 1 269
  • 我被黑心中介騙來泰國打工萄焦, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留控轿,地道東北人冤竹。 一個月前我還...
    沈念sama閱讀 47,819評論 2 370
  • 正文 我出身青樓,卻偏偏與公主長得像茬射,于是被迫代替她去往敵國和親鹦蠕。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 44,665評論 2 354

推薦閱讀更多精彩內(nèi)容