Java網(wǎng)絡(luò)爬蟲實(shí)操(1)

大家好日川,說起爬蟲相信很多程序員都聽到過,簡(jiǎn)單來講就是自動(dòng)批量抓網(wǎng)絡(luò)上信息的程序譬圣。接下來我結(jié)合github上一個(gè)爬蟲框架NetDiscovery進(jìn)行演示腹纳。

NetDiscovery

1 )為什么要用框架?

框架能夠幫助我們處理一些基礎(chǔ)的诗越、與目標(biāo)任務(wù)沒直接聯(lián)系的工作砖瞧,讓我們專注在目標(biāo)任務(wù)上。尤其對(duì)于爬蟲初學(xué)者來說嚷狞,很快就能體會(huì)到操作爬蟲帶來的效果與成就感块促,而不必去操心額外的事情。等入了門感耙,再嘗試不依賴框架獨(dú)立從零寫一個(gè)爬蟲程序褂乍,然后再去研究別人已經(jīng)搭建好的爬蟲框架,等到能閱讀爬蟲框架源代碼以后即硼,相信您已經(jīng)對(duì)網(wǎng)絡(luò)爬蟲有一定的研究了逃片。

2 )演示環(huán)境

Java JDK8、IntelliJ IDEA只酥、Google Chrome
爬蟲框架NetDiscovery:https://github.com/fengzhizi715/NetDiscovery/

3 )確定爬蟲任務(wù)

從某人才招聘網(wǎng)上獲取指定的崗位信息:公司名稱褥实、崗位名稱

4 )人肉分析網(wǎng)頁

用chrome瀏覽器打開目標(biāo)網(wǎng)頁,輸入查詢條件裂允,找到展示崗位信息的網(wǎng)頁:


網(wǎng)頁信息

紅框位置里的文字是我們計(jì)劃要寫程序去自動(dòng)獲取的信息损离。

這個(gè)環(huán)節(jié)的分析工作很重要,我們要對(duì)抓取的目標(biāo)網(wǎng)頁绝编、目標(biāo)數(shù)據(jù)有明確的了解僻澎。人眼已經(jīng)能看到這些信息了貌踏,接下來就是寫程序教電腦去幫我們抓取。

5 )創(chuàng)建Java工程

創(chuàng)建一個(gè)gradle的java工程:

創(chuàng)建Java工程
build.gradle

在項(xiàng)目中添加爬蟲框架NetDiscovery的兩個(gè)jar包窟勃,目前版本是0.0.9.3祖乳,版本不高,但版本的更新迭代很快秉氧,相信是一個(gè)有成長(zhǎng)力的框架眷昆。

group 'com.sinkinka'
version '1.0-SNAPSHOT'

apply plugin: 'java'

sourceCompatibility = 1.8

repositories {
    maven{url 'http://maven.aliyun.com/nexus/content/groups/public/'}
    mavenCentral()
    jcenter();
}

dependencies {
    testCompile group: 'junit', name: 'junit', version: '4.12'

    implementation 'com.cv4j.netdiscovery:netdiscovery-core:0.0.9.3'
    implementation 'com.cv4j.netdiscovery:netdiscovery-extra:0.0.9.3'
}

如果下載不了,請(qǐng)配上阿里云鏡像地址:

http://maven.aliyun.com/nexus/content/groups/public/

6 )代碼實(shí)現(xiàn)

參考框架中example模塊下的示例代碼汁咏,以及另一個(gè)實(shí)例項(xiàng)目:
https://github.com/fengzhizi715/user-agent-list

  • 創(chuàng)建main方法的入口類亚斋,在main里啟動(dòng)爬蟲
  • 針對(duì)目標(biāo)網(wǎng)頁的解析,需要?jiǎng)?chuàng)建實(shí)現(xiàn)parser接口的類
  • 從html字符串中抓取目標(biāo)內(nèi)容有多種方法攘滩,比如xpath帅刊、jsoup、正則表達(dá)式等

在java的main方法里編寫如下代碼:

package com.sinkinka;

import com.cv4j.netdiscovery.core.Spider;
import com.sinkinka.parser.TestParser;

public class TestSpider {
    public static void main(String[] args) {

        //目標(biāo)任務(wù)的網(wǎng)頁地址轰驳,可以拷貝到瀏覽器去查看
        String url = "http://www.szrc.cn/HrMarket/WLZP/ZP/0/%E6%95%B0%E6%8D%AE";

        //依靠NetDiscovery厚掷,我們只需要寫一個(gè)parser類就可以實(shí)現(xiàn)基本的爬蟲功能了
        Spider.create()
                .name("spider-1")         //名字隨便起
                .url(url)
                .parser(new TestParser())  //parser類
                .run();
    }
}

TestParser類的代碼:

package com.sinkinka.parser;

import com.cv4j.netdiscovery.core.domain.Page;
import com.cv4j.netdiscovery.core.parser.Parser;
import com.cv4j.netdiscovery.core.parser.selector.Selectable;
import java.util.List;

/**
 * 針對(duì)目標(biāo)網(wǎng)頁的解析類
 */
public class TestParser implements Parser {

    @Override
    public void process(Page page) {

        String xpathStr = "http://*[@id=\"grid\"]/div/div[1]/table/tbody/tr";
        List<Selectable> trList = page.getHtml().xpath(xpathStr).nodes();

        for(Selectable tr : trList) {
            String companyName = tr.xpath("http://td[@class='td_companyName']/text()").get();
            String positionName = tr.xpath("http://td[@class='td_positionName']/a/text()").get();

            if(null != companyName && null != positionName) {
                System.out.println(companyName+"------"+positionName);
            }
        }
   }
}

運(yùn)行結(jié)果:


運(yùn)行結(jié)果

7 )總結(jié)

本文依賴爬蟲框架,用盡量簡(jiǎn)單的代碼演示了抓取網(wǎng)頁信息的一種方法级解。后續(xù)會(huì)發(fā)布更多實(shí)操性的內(nèi)容供大家參考冒黑。


NetDiscovery爬蟲框架的基本原理圖


NetDiscovery

下一篇:Java網(wǎng)絡(luò)爬蟲實(shí)操(2)

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市勤哗,隨后出現(xiàn)的幾起案子抡爹,更是在濱河造成了極大的恐慌,老刑警劉巖芒划,帶你破解...
    沈念sama閱讀 216,997評(píng)論 6 502
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件冬竟,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡民逼,警方通過查閱死者的電腦和手機(jī)泵殴,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,603評(píng)論 3 392
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來拼苍,“玉大人笑诅,你說我怎么就攤上這事〈辏” “怎么了吆你?”我有些...
    開封第一講書人閱讀 163,359評(píng)論 0 353
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)俊犯。 經(jīng)常有香客問我妇多,道長(zhǎng),這世上最難降的妖魔是什么燕侠? 我笑而不...
    開封第一講書人閱讀 58,309評(píng)論 1 292
  • 正文 為了忘掉前任者祖,我火速辦了婚禮立莉,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘七问。我一直安慰自己桃序,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,346評(píng)論 6 390
  • 文/花漫 我一把揭開白布烂瘫。 她就那樣靜靜地躺著,像睡著了一般奇适。 火紅的嫁衣襯著肌膚如雪坟比。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,258評(píng)論 1 300
  • 那天嚷往,我揣著相機(jī)與錄音葛账,去河邊找鬼。 笑死皮仁,一個(gè)胖子當(dāng)著我的面吹牛籍琳,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播贷祈,決...
    沈念sama閱讀 40,122評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼趋急,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來了势誊?” 一聲冷哼從身側(cè)響起呜达,我...
    開封第一講書人閱讀 38,970評(píng)論 0 275
  • 序言:老撾萬榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎粟耻,沒想到半個(gè)月后查近,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,403評(píng)論 1 313
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡挤忙,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,596評(píng)論 3 334
  • 正文 我和宋清朗相戀三年霜威,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片册烈。...
    茶點(diǎn)故事閱讀 39,769評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡戈泼,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出茄厘,到底是詐尸還是另有隱情矮冬,我是刑警寧澤,帶...
    沈念sama閱讀 35,464評(píng)論 5 344
  • 正文 年R本政府宣布次哈,位于F島的核電站胎署,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏窑滞。R本人自食惡果不足惜琼牧,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,075評(píng)論 3 327
  • 文/蒙蒙 一恢筝、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧巨坊,春花似錦撬槽、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,705評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至占调,卻和暖如春暂题,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背究珊。 一陣腳步聲響...
    開封第一講書人閱讀 32,848評(píng)論 1 269
  • 我被黑心中介騙來泰國打工薪者, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人剿涮。 一個(gè)月前我還...
    沈念sama閱讀 47,831評(píng)論 2 370
  • 正文 我出身青樓言津,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國和親取试。 傳聞我的和親對(duì)象是個(gè)殘疾皇子悬槽,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,678評(píng)論 2 354

推薦閱讀更多精彩內(nèi)容

  • Android 自定義View的各種姿勢(shì)1 Activity的顯示之ViewRootImpl詳解 Activity...
    passiontim閱讀 172,091評(píng)論 25 707
  • “失敗陷谱,不是世界末日,放棄才是瑟蜈⊙萄罚” 看到阿信這條微博的前一秒我才剛被計(jì)算機(jī)的實(shí)驗(yàn)報(bào)告逼到崩潰,復(fù)雜的excel表格...
    chen儀閱讀 504評(píng)論 0 4
  • 一铺根、初始化方法 1宪躯、- initWithFrame: UIView *view = [[UIView alloc]...
    默默_David閱讀 2,510評(píng)論 1 3
  • 一行繼續(xù)向東前行,我們來到了此行要探訪的一位朋友---一個(gè)美麗的苗族妹子的家鄉(xiāng)貴州省松桃縣。 松桃是一...
    淘子11閱讀 533評(píng)論 2 1
  • 吃和減位迂,是一對(duì)對(duì)立統(tǒng)一的矛盾體 不吃哪兒來的力氣減肥 可吃太多又會(huì)長(zhǎng)肥 然后進(jìn)入一個(gè)不斷重復(fù)的死循環(huán) 避免不了的要...
    橙大暖閱讀 263評(píng)論 0 0