哈叨粘?試著爬一下

有些網(wǎng)頁的內(nèi)容想取到本地使用,但是一行一行復(fù)制又太麻煩,本著重復(fù)勞動均能機械化的思想升敲,那就想辦法爬一下袍镀。

注:在進行網(wǎng)頁爬取時,我們需要遵守網(wǎng)站的robots.txt協(xié)議冻晤,避免對網(wǎng)站造成過大的訪問壓力苇羡。同時,我們也需要注意數(shù)據(jù)的版權(quán)問題鼻弧,尊重原創(chuàng)作品和作者的權(quán)益设江。

爬取的思路無非就是先獲取url+參數(shù),再看返回的數(shù)據(jù)結(jié)構(gòu)(html或者json或者其他格式)攘轩,再通過解析得到自己想要的數(shù)據(jù)叉存。如果返回json就很簡單了,直接json轉(zhuǎn)換就可以了度帮,以下以爬取簡書首頁文章標題為例歼捏,提供兩種解析返回html的辦法。

  • 方式1:采用hutool的正則匹配工具類
  • 方式2:使用jsoup進行dom解析

1笨篷、依賴引入

         <dependency>
            <groupId>cn.hutool</groupId>
            <artifactId>hutool-all</artifactId>
            <version>5.8.32</version>
        </dependency>
       <dependency>
            <groupId>org.jsoup</groupId>
            <artifactId>jsoup</artifactId>
            <version>1.15.4</version>
        </dependency>

2瞳秽、爬取代碼實現(xiàn)

public class GrabDemo {

    public static void main(String[] args) {
        Logger logger = LoggerFactory.getLogger(GrabDemo.class);
        //需要爬取的url,有時候可能需要帶參數(shù)或者是post請求率翅,可以通過F12查看瀏覽器進行分析
        String grabUrl = "http://www.reibang.com/";
        String content = HttpUtil.get(grabUrl);

        //方式一练俐,通過正則直接匹配
        logger.info("開始使用第一種方式獲取title");
        String reg = "<a class=\"title\" target=\"_blank\" href=\"(.*?)\">(.*?)</a>";
        List<String> titles =  ReUtil.findAll(reg, content, 2);
        titles.forEach(System.out::println);
        logger.info("使用第一種方式獲取title結(jié)束,共獲取到{}條記錄",titles.size());


        logger.info("-----------------------我是分割線----------------");

        //方式二冕臭,通過jsoup解析dom
        logger.info("開始使用第二種方式獲取title");
        Document document = Jsoup.parse(content);
        Elements elements = document.getElementsByAttributeValue("class","title").select("a");
        List<String> titles2 = elements.stream().map(Element::text).toList();
        titles2.forEach(System.out::println);
        logger.info("使用第二種方式獲取title結(jié)束腺晾,共獲取到{}條記錄",titles2.size());
    }

}

3、爬取結(jié)果

10:40:21.139 [main] INFO com.mos.simple.http.GrabDemo -- 開始使用第一種方式獲取title
節(jié)儉
抖音增粉技巧全解析:順應(yīng)趨勢巧用抖音直播辜贵,增加有效粉絲粘性
跳水冠軍也愛古風(fēng)悯蝉?全紅嬋簪花漢服妝造引熱議!
南京之行01 | 瞻園的景色真美
10:40:21.158 [main] INFO com.mos.simple.http.GrabDemo -- 使用第一種方式獲取title結(jié)束托慨,共獲取到4條記錄
10:40:21.160 [main] INFO com.mos.simple.http.GrabDemo -- -----------------------我是分割線----------------
10:40:21.161 [main] INFO com.mos.simple.http.GrabDemo -- 開始使用第二種方式獲取title
節(jié)儉
抖音增粉技巧全解析:順應(yīng)趨勢巧用抖音直播鼻由,增加有效粉絲粘性
跳水冠軍也愛古風(fēng)?全紅嬋簪花漢服妝造引熱議榴芳!
南京之行01 | 瞻園的景色真美
10:40:21.284 [main] INFO com.mos.simple.http.GrabDemo -- 使用第二種方式獲取title結(jié)束嗡靡,共獲取到4條記錄

4、其他說明

  • 畢竟爬取別人數(shù)據(jù)可能會給別人造成困擾窟感,建議學(xué)習(xí)使用讨彼。
  • 有些網(wǎng)站有反扒機制,比如頻繁請求出驗證碼柿祈、IP限制等等哈误,見招拆招即可哩至。
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市蜜自,隨后出現(xiàn)的幾起案子菩貌,更是在濱河造成了極大的恐慌,老刑警劉巖重荠,帶你破解...
    沈念sama閱讀 218,755評論 6 507
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件箭阶,死亡現(xiàn)場離奇詭異,居然都是意外死亡戈鲁,警方通過查閱死者的電腦和手機仇参,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,305評論 3 395
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來婆殿,“玉大人诈乒,你說我怎么就攤上這事∑怕” “怎么了怕磨?”我有些...
    開封第一講書人閱讀 165,138評論 0 355
  • 文/不壞的土叔 我叫張陵,是天一觀的道長消约。 經(jīng)常有香客問我肠鲫,道長,這世上最難降的妖魔是什么荆陆? 我笑而不...
    開封第一講書人閱讀 58,791評論 1 295
  • 正文 為了忘掉前任滩届,我火速辦了婚禮,結(jié)果婚禮上被啼,老公的妹妹穿的比我還像新娘。我一直安慰自己棠枉,他們只是感情好浓体,可當(dāng)我...
    茶點故事閱讀 67,794評論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著辈讶,像睡著了一般命浴。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上贱除,一...
    開封第一講書人閱讀 51,631評論 1 305
  • 那天生闲,我揣著相機與錄音,去河邊找鬼月幌。 笑死碍讯,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的扯躺。 我是一名探鬼主播捉兴,決...
    沈念sama閱讀 40,362評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼蝎困,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了倍啥?” 一聲冷哼從身側(cè)響起禾乘,我...
    開封第一講書人閱讀 39,264評論 0 276
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎虽缕,沒想到半個月后始藕,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,724評論 1 315
  • 正文 獨居荒郊野嶺守林人離奇死亡氮趋,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,900評論 3 336
  • 正文 我和宋清朗相戀三年鳄虱,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片凭峡。...
    茶點故事閱讀 40,040評論 1 350
  • 序言:一個原本活蹦亂跳的男人離奇死亡拙已,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出摧冀,到底是詐尸還是另有隱情倍踪,我是刑警寧澤,帶...
    沈念sama閱讀 35,742評論 5 346
  • 正文 年R本政府宣布索昂,位于F島的核電站建车,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏椒惨。R本人自食惡果不足惜缤至,卻給世界環(huán)境...
    茶點故事閱讀 41,364評論 3 330
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望康谆。 院中可真熱鬧领斥,春花似錦、人聲如沸沃暗。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,944評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽孽锥。三九已至嚼黔,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間惜辑,已是汗流浹背唬涧。 一陣腳步聲響...
    開封第一講書人閱讀 33,060評論 1 270
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留盛撑,地道東北人碎节。 一個月前我還...
    沈念sama閱讀 48,247評論 3 371
  • 正文 我出身青樓,卻偏偏與公主長得像撵彻,于是被迫代替她去往敵國和親钓株。 傳聞我的和親對象是個殘疾皇子实牡,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 44,979評論 2 355

推薦閱讀更多精彩內(nèi)容