webmagic+Xpath實現(xiàn)簡單爬取

webmagic是一個簡單上手的爬蟲框架,提供簡單靈活的API驻龟,只需少量代碼即可實現(xiàn)一個爬蟲

一温眉、引入jar包

        <dependency>
            <groupId>us.codecraft</groupId>
            <artifactId>webmagic-core</artifactId>
            <version>0.5.2</version>
        </dependency>
        <dependency>
            <groupId>us.codecraft</groupId>
            <artifactId>webmagic-extension</artifactId>
            <version>0.5.2</version>
        </dependency>

二、創(chuàng)建爬取類實現(xiàn)PageProcessor

@Component
@Scope("prototype")
public class JcFootballResultProcessor implements PageProcessor{  
    
    private Logger logger = LoggerFactory.getLogger(this.getClass());
    
    private Gson gson = new Gson();
    
    @Autowired
    private MatchResultMapper matchResultMapper;
    
    private Site site = Site.me().setSleepTime(1).setRetryTimes(3);  //爬取時間間隔和重試次數(shù)
    
    public static final String FOOTBALL_URL = "http://info\\.sporttery\\.cn/football/match_result\\.php\\?page=\\d"; 
    private static final String FOOTBALL_URL_REUSLT_INFO = "http://i.sporttery.cn/api/fb_match_info/get_pool_rs/?f_callback=pool_prcess&mid=";
    
    @Override  
    public Site getSite() {  
        return site;  
    }  
      
    @Override
    public void process(Page page) {
        Pattern pattern = Pattern.compile(FOOTBALL_URL);
        Matcher matcher = pattern.matcher(page.getUrl().toString());
        if(!matcher.matches()) {
            return;
        }
//獲取從某個div后的所有tr的元素翁狐,自動轉(zhuǎn)為一個集合
        List<Selectable> trSelectableList = page.getHtml().xpath("http://div[@class=\"match_list\"]").xpath("http://tr").nodes();
        
        for(Selectable trSelectable:trSelectableList) {//遍歷集合类溢,拿到集合里td元素里的html,又自動轉(zhuǎn)為一個結(jié)合,進(jìn)而可以獲取自己需要的網(wǎng)站內(nèi)容文字
            List<String> contentList = trSelectable.xpath("http://td/html()").all();
            if(contentList!=null && !contentList.isEmpty() && contentList.size()>10) {
                String date = contentList.get(0);
                String matchId = contentList.get(1);
                if(!contentList.get(9).equals("已完成") && !contentList.get(9).equals("取消")){
                    logger.error("賽事"+date+":"+matchId+"非完成/取消狀態(tài)闯冷,跳過抓取");
                    continue;
                }
                String tmpid = getMatchUniqueId(matchId);
                String matchUniqueId = "FB" + DateUtil.calWeek(date,tmpid.substring(0, 1)) + tmpid;
  }
......//中間省略
  page.addTargetRequests(page.getHtml().links().regex(FOOTBALL_URL).all());//指定抓取html頁面的符合此正則表達(dá)式的所有鏈接url
}

三砂心、啟動爬取程序

//注入上面的processor
Spider.create(jcFootballResultProcessor).addUrl(FOOTBALL_URL_RESULT).thread(1).run();//addUrl是定義從哪一個頁面開始爬取

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市蛇耀,隨后出現(xiàn)的幾起案子辩诞,更是在濱河造成了極大的恐慌,老刑警劉巖纺涤,帶你破解...
    沈念sama閱讀 219,039評論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件译暂,死亡現(xiàn)場離奇詭異,居然都是意外死亡撩炊,警方通過查閱死者的電腦和手機(jī)外永,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,426評論 3 395
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來拧咳,“玉大人伯顶,你說我怎么就攤上這事÷嫦ィ” “怎么了祭衩?”我有些...
    開封第一講書人閱讀 165,417評論 0 356
  • 文/不壞的土叔 我叫張陵,是天一觀的道長阅签。 經(jīng)常有香客問我汪厨,道長,這世上最難降的妖魔是什么愉择? 我笑而不...
    開封第一講書人閱讀 58,868評論 1 295
  • 正文 為了忘掉前任劫乱,我火速辦了婚禮,結(jié)果婚禮上锥涕,老公的妹妹穿的比我還像新娘衷戈。我一直安慰自己,他們只是感情好层坠,可當(dāng)我...
    茶點故事閱讀 67,892評論 6 392
  • 文/花漫 我一把揭開白布殖妇。 她就那樣靜靜地躺著,像睡著了一般破花。 火紅的嫁衣襯著肌膚如雪谦趣。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,692評論 1 305
  • 那天座每,我揣著相機(jī)與錄音前鹅,去河邊找鬼。 笑死峭梳,一個胖子當(dāng)著我的面吹牛舰绘,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 40,416評論 3 419
  • 文/蒼蘭香墨 我猛地睜開眼捂寿,長吁一口氣:“原來是場噩夢啊……” “哼口四!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起秦陋,我...
    開封第一講書人閱讀 39,326評論 0 276
  • 序言:老撾萬榮一對情侶失蹤蔓彩,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后驳概,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體赤嚼,經(jīng)...
    沈念sama閱讀 45,782評論 1 316
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,957評論 3 337
  • 正文 我和宋清朗相戀三年抡句,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片杠愧。...
    茶點故事閱讀 40,102評論 1 350
  • 序言:一個原本活蹦亂跳的男人離奇死亡待榔,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出流济,到底是詐尸還是另有隱情锐锣,我是刑警寧澤,帶...
    沈念sama閱讀 35,790評論 5 346
  • 正文 年R本政府宣布绳瘟,位于F島的核電站雕憔,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏糖声。R本人自食惡果不足惜斤彼,卻給世界環(huán)境...
    茶點故事閱讀 41,442評論 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望蘸泻。 院中可真熱鬧琉苇,春花似錦、人聲如沸悦施。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,996評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽抡诞。三九已至穷蛹,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間昼汗,已是汗流浹背肴熏。 一陣腳步聲響...
    開封第一講書人閱讀 33,113評論 1 272
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留顷窒,地道東北人扮超。 一個月前我還...
    沈念sama閱讀 48,332評論 3 373
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親出刷。 傳聞我的和親對象是個殘疾皇子璧疗,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 45,044評論 2 355

推薦閱讀更多精彩內(nèi)容

  • Android 自定義View的各種姿勢1 Activity的顯示之ViewRootImpl詳解 Activity...
    passiontim閱讀 172,167評論 25 707
  • 自從用上 .NET Core 之后,網(wǎng)站的性能貌似有提升了馁龟,但經(jīng)潮老溃“無緣無故”的將服務(wù)器資源耗盡,網(wǎng)站死掉坷檩。最開始...
    缺水的海豚閱讀 5,063評論 0 1
  • 首先推薦大家使用小程序保存視頻却音,簡單快捷又方便 點擊查看小程序保存教程 如果小程序無法下載,可按照以下教程進(jìn)行下載...
    愛存圖閱讀 272,039評論 4 15
  • 大學(xué)時和同學(xué)討論過機(jī)會成本和沉沒成本矢炼,今天看到你的分享系瓢,收獲還是挺大的。首先句灌,對成本是想象出來的就很好奇夷陋,成本在我...
    乾小龍閱讀 120評論 0 0
  • 先給大家分享一篇在試卷上做到的文章吧。 憑什么讓你很幸福[意大利] 迪諾?布扎蒂在城郊這所專門關(guān)押無期徒刑犯人的巨...
    宋辭w閱讀 473評論 0 0