webmagic小試牛刀

webmagic是java里頭比較優(yōu)秀的一個爬蟲框架:

  • 使用Jsoup作為HTML解析工具膳叨,并基于其開發(fā)了解析XPath的工具Xsoup间景。
  • 默認使用了Apache HttpClient作為下載工具。

這里展示一下入門級使用偷霉。

maven

        <dependency>
            <groupId>us.codecraft</groupId>
            <artifactId>webmagic-core</artifactId>
            <version>0.7.3</version>
        </dependency>
        <dependency>
            <groupId>us.codecraft</groupId>
            <artifactId>webmagic-extension</artifactId>
            <version>0.7.3</version>
        </dependency>

啟動類

public static void main(String[] args) {
    Spider.create(new GithubRepoPageProcessor())
            //從https://github.com/code4craft開始抓    
            .addUrl("https://github.com/code4craft")
            //設置Scheduler迄委,使用Redis來管理URL隊列
            .setScheduler(new RedisScheduler("localhost"))
            //設置Pipeline,將結果以json方式保存到文件
            .addPipeline(new JsonFilePipeline("D:\\data\\webmagic"))
            //開啟5個線程同時執(zhí)行
            .thread(5)
            //啟動爬蟲
            .run();
}

PageProcessor

核心的工作主要是自定義PageProcessor类少,比如

new PageProcessor() {

            @Override
            public void process(Page page) {
                List<String> links = page.getHtml()
                        .xpath("http://table[@id='jrjthreadtable']//td/a/@href")
                        .regex("/msg,\\d+.*.html")
                        .all();
                System.out.println(links);
            }

            @Override
            public Site getSite() {
                return Site.me()
                        .setRetryTimes(3)
                        .setSleepTime(1000)
                        .setTimeOut(10000);
            }

這里使用了xpath的語法來選取叙身,不熟悉xpath的話,可以使用chrome:檢查-copy-copy xpath來學習硫狞。

doc

最后編輯于
?著作權歸作者所有,轉載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末信轿,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子残吩,更是在濱河造成了極大的恐慌财忽,老刑警劉巖,帶你破解...
    沈念sama閱讀 216,744評論 6 502
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件泣侮,死亡現(xiàn)場離奇詭異即彪,居然都是意外死亡,警方通過查閱死者的電腦和手機旁瘫,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,505評論 3 392
  • 文/潘曉璐 我一進店門祖凫,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人酬凳,你說我怎么就攤上這事≡馐” “怎么了宁仔?”我有些...
    開封第一講書人閱讀 163,105評論 0 353
  • 文/不壞的土叔 我叫張陵,是天一觀的道長峦睡。 經(jīng)常有香客問我翎苫,道長权埠,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,242評論 1 292
  • 正文 為了忘掉前任煎谍,我火速辦了婚禮攘蔽,結果婚禮上,老公的妹妹穿的比我還像新娘呐粘。我一直安慰自己满俗,他們只是感情好,可當我...
    茶點故事閱讀 67,269評論 6 389
  • 文/花漫 我一把揭開白布作岖。 她就那樣靜靜地躺著唆垃,像睡著了一般。 火紅的嫁衣襯著肌膚如雪痘儡。 梳的紋絲不亂的頭發(fā)上辕万,一...
    開封第一講書人閱讀 51,215評論 1 299
  • 那天,我揣著相機與錄音沉删,去河邊找鬼渐尿。 笑死,一個胖子當著我的面吹牛矾瑰,可吹牛的內(nèi)容都是我干的涡戳。 我是一名探鬼主播,決...
    沈念sama閱讀 40,096評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼脯倚,長吁一口氣:“原來是場噩夢啊……” “哼渔彰!你這毒婦竟也來了?” 一聲冷哼從身側響起推正,我...
    開封第一講書人閱讀 38,939評論 0 274
  • 序言:老撾萬榮一對情侶失蹤恍涂,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后植榕,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體再沧,經(jīng)...
    沈念sama閱讀 45,354評論 1 311
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,573評論 2 333
  • 正文 我和宋清朗相戀三年尊残,在試婚紗的時候發(fā)現(xiàn)自己被綠了炒瘸。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 39,745評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡寝衫,死狀恐怖顷扩,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情慰毅,我是刑警寧澤隘截,帶...
    沈念sama閱讀 35,448評論 5 344
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響婶芭,放射性物質發(fā)生泄漏东臀。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 41,048評論 3 327
  • 文/蒙蒙 一犀农、第九天 我趴在偏房一處隱蔽的房頂上張望惰赋。 院中可真熱鬧,春花似錦呵哨、人聲如沸赁濒。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,683評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽流部。三九已至,卻和暖如春纹坐,著一層夾襖步出監(jiān)牢的瞬間枝冀,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 32,838評論 1 269
  • 我被黑心中介騙來泰國打工耘子, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留果漾,地道東北人。 一個月前我還...
    沈念sama閱讀 47,776評論 2 369
  • 正文 我出身青樓谷誓,卻偏偏與公主長得像绒障,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子捍歪,可洞房花燭夜當晚...
    茶點故事閱讀 44,652評論 2 354

推薦閱讀更多精彩內(nèi)容

  • Spring Cloud為開發(fā)人員提供了快速構建分布式系統(tǒng)中一些常見模式的工具(例如配置管理户辱,服務發(fā)現(xiàn),斷路器糙臼,智...
    卡卡羅2017閱讀 134,652評論 18 139
  • Android 自定義View的各種姿勢1 Activity的顯示之ViewRootImpl詳解 Activity...
    passiontim閱讀 172,082評論 25 707
  • 要玩大數(shù)據(jù)变逃,沒有數(shù)據(jù)怎么玩必逆?這里推薦一些33款開源爬蟲軟件給大家。 爬蟲揽乱,即網(wǎng)絡爬蟲名眉,是一種自動獲取網(wǎng)頁內(nèi)容的程序...
    評評分分閱讀 7,994評論 2 121
  • 1.連接通過跳板機登服務器损拢, 2.直接登錄數(shù)據(jù)庫所在服務器,選擇tcp/ip即可 3.如何導入sql文件并執(zhí)行 a...
    AlwaysBlue閱讀 596評論 0 0
  • 27/09/2017 一. 之所以發(fā)生碎片式浪費渊啰,是因為我們本來就不知道用這些碎片時間來干什么探橱,在沒有安排的時候申屹,...
    Jack_Hsin閱讀 507評論 0 0