webmagic小試牛刀

序

webmagic是java里頭比較優(yōu)秀的一個爬蟲框架：

使用Jsoup作為HTML解析工具膳叨，并基于其開發(fā)了解析XPath的工具Xsoup间景。
默認使用了Apache HttpClient作為下載工具。

這里展示一下入門級使用偷霉。

maven

        <dependency>
            <groupId>us.codecraft</groupId>
            <artifactId>webmagic-core</artifactId>
            <version>0.7.3</version>
        </dependency>
        <dependency>
            <groupId>us.codecraft</groupId>
            <artifactId>webmagic-extension</artifactId>
            <version>0.7.3</version>
        </dependency>

啟動類

public static void main(String[] args) {
    Spider.create(new GithubRepoPageProcessor())
            //從https://github.com/code4craft開始抓    
            .addUrl("https://github.com/code4craft")
            //設置Scheduler迄委，使用Redis來管理URL隊列
            .setScheduler(new RedisScheduler("localhost"))
            //設置Pipeline，將結果以json方式保存到文件
            .addPipeline(new JsonFilePipeline("D:\\data\\webmagic"))
            //開啟5個線程同時執(zhí)行
            .thread(5)
            //啟動爬蟲
            .run();
}

PageProcessor

核心的工作主要是自定義PageProcessor类少，比如

new PageProcessor() {

            @Override
            public void process(Page page) {
                List<String> links = page.getHtml()
                        .xpath("http://table[@id='jrjthreadtable']//td/a/@href")
                        .regex("/msg,\\d+.*.html")
                        .all();
                System.out.println(links);
            }

            @Override
            public Site getSite() {
                return Site.me()
                        .setRetryTimes(3)
                        .setSleepTime(1000)
                        .setTimeOut(10000);
            }

這里使用了xpath的語法來選取叙身，不熟悉xpath的話，可以使用chrome：檢查-copy-copy xpath來學習硫狞。

doc

webmagic

最后編輯于：2017.12.10 04:28:10

?著作權歸作者所有,轉載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末信轿，一起剝皮案震驚了整個濱河市，隨后出現(xiàn)的幾起案子残吩，更是在濱河造成了極大的恐慌财忽，老刑警劉巖，帶你破解...
沈念sama閱讀 216,744評論 6贊 502
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件泣侮，死亡現(xiàn)場離奇詭異即彪，居然都是意外死亡，警方通過查閱死者的電腦和手機旁瘫，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 92,505評論 3贊 392
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門祖凫，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人酬凳，你說我怎么就攤上這事≡馐” “怎么了宁仔？”我有些...
開封第一講書人閱讀 163,105評論 0贊 353
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長峦睡。經(jīng)常有香客問我翎苫，道長权埠，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 58,242評論 1贊 292
?港島之戀（遺憾婚禮）
正文為了忘掉前任煎谍，我火速辦了婚禮攘蔽，結果婚禮上，老公的妹妹穿的比我還像新娘呐粘。我一直安慰自己满俗，他們只是感情好，可當我...
茶點故事閱讀 67,269評論 6贊 389
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布作岖。她就那樣靜靜地躺著唆垃，像睡著了一般。火紅的嫁衣襯著肌膚如雪痘儡。梳的紋絲不亂的頭發(fā)上辕万，一...
開封第一講書人閱讀 51,215評論 1贊 299
城市分裂傳說
那天，我揣著相機與錄音沉删，去河邊找鬼渐尿。笑死，一個胖子當著我的面吹牛矾瑰，可吹牛的內(nèi)容都是我干的涡戳。我是一名探鬼主播，決...
沈念sama閱讀 40,096評論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼脯倚，長吁一口氣：“原來是場噩夢啊……” “哼渔彰！你這毒婦竟也來了？” 一聲冷哼從身側響起推正，我...
開封第一講書人閱讀 38,939評論 0贊 274
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤恍涂，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后植榕，有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體再沧，經(jīng)...
沈念sama閱讀 45,354評論 1贊 311
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 37,573評論 2贊 333
?白月光啟示錄
正文我和宋清朗相戀三年尊残，在試婚紗的時候發(fā)現(xiàn)自己被綠了炒瘸。大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點故事閱讀 39,745評論 1贊 348
活死人
序言：一個原本活蹦亂跳的男人離奇死亡寝衫，死狀恐怖顷扩，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情慰毅，我是刑警寧澤隘截，帶...
沈念sama閱讀 35,448評論 5贊 344
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站，受9級特大地震影響婶芭，放射性物質發(fā)生泄漏东臀。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點故事閱讀 41,048評論 3贊 327
男人毒藥：我在死后第九天來索命
文/蒙蒙一犀农、第九天我趴在偏房一處隱蔽的房頂上張望惰赋。院中可真熱鬧，春花似錦呵哨、人聲如沸赁濒。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,683評論 0贊 22
一樁弒父案仇穗，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽流部。三九已至，卻和暖如春纹坐，著一層夾襖步出監(jiān)牢的瞬間枝冀，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 32,838評論 1贊 269
情欲美人皮
我被黑心中介騙來泰國打工耘子，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留果漾，地道東北人。一個月前我還...
沈念sama閱讀 47,776評論 2贊 369
代替公主和親
正文我出身青樓谷誓，卻偏偏與公主長得像绒障，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子捍歪，可洞房花燭夜當晚...
茶點故事閱讀 44,652評論 2贊 354

webmagic小試牛刀

序

maven

啟動類

PageProcessor

doc

推薦閱讀更多精彩內(nèi)容