沒壁紙用了宅静?用Jsoup寫一個圖片爬蟲吧!

Jsoup

1. Jsoup

  • Jsoup 是一款Java 的HTML解析器站欺,可直接解析某個URL地址姨夹、HTML文本內(nèi)容。它提供了一套非常省力的API矾策,可通過DOM磷账,CSS以及類似于jQuery的操作方法來取出和操作數(shù)據(jù)〖炙洌—— 百度百科

2. 設計/代碼

2.1 爬取站點

爬取站點為http://www.16sucai.com/tupian/gqfj/3.html
是一個風景壁紙網(wǎng)站逃糟。

爬取站點

每個頁面有18個類似相冊一樣的鏈接,每個頁面的url不同的只有頁號

進入每個相冊之后绰咽,再下載頁面中的圖片即可菇肃。

2.2 代碼

主程序:

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
import util.Util;

import java.io.*;

public class Main {
    public static void main(String[] args) throws IOException {
        // 首先建立主目錄
        Util.makeDir(Util.picDir);
        // 連接站點
        // 測試爬去第3頁和第4頁的壁紙
        for (int i = 3; i < 5; i++) {
            // 用Jsoup連接站點
            Document doc = Jsoup.connect("http://www.16sucai.com/tupian/gqfj/" + i + ".html").get();
            // 選擇class為vector_listbox容器
            Elements elementClass = doc.select(".vector_listbox");
            // 在容器中選擇a鏈接,用于進入相冊
            Elements elements = elementClass.select("a[href~=/[0-9]{4}/[0-9]{2}/.*html]");
            System.out.println(elements.size());
            // 因為同樣的鏈接存在與圖片和文字上取募,做特殊處理
            for (int j = 0; j < elements.size() / 2; j++) {
                Element e = elements.get(2 * j);
                //取出該元素的title元素來新建文件夾
                String filePath = Util.picDir + "http://" + e.attr("title");
                Util.makeDir(filePath);
                // 然后在請求該鏈接
                System.out.println(e.attr("href"));
                Document docInner = Jsoup.connect("http://www.16sucai.com" + e.attr("href")).get();
                // 取出對應圖片的URL
                Elements elementsClass = docInner.select(".endtext");
                Elements elementsInner = elementsClass.select("img[src^=http://file]");
                System.out.println(elementsInner.size());
                // 下載圖片
                for (Element eInner : elementsInner) {
                    String picUrl = eInner.attr("src");
                    Util.downloadPic(picUrl, picUrl.substring(picUrl.lastIndexOf("/")), filePath);
                }
            }
        }
    }
}

工具類:

import java.io.*;
import java.net.MalformedURLException;
import java.net.URL;
import java.net.URLConnection;

/**
 * Created by JJS on 2016/10/23.
 */
public class Util {
    public static final String picDir = "F://imgs";

    // 新建文件目錄
    public static void makeDir(String dir) {
        File f = new File(dir);
        if (!f.exists()) {
            f.mkdirs();
        }
    }

    // 下載圖片
    public static void downloadPic(String src, String fileName, String dir) {
        // 新建URL類
        URL url = null;
        try {
            url = new URL(src);
        } catch (MalformedURLException e) {
            e.printStackTrace();
        }
        // 新建URL鏈接類
        URLConnection uri = null;
        try {
            uri = url.openConnection();
        } catch (IOException e) {
            e.printStackTrace();
        }
        //獲取數(shù)據(jù)流
        InputStream is = null;
        try {
            is = uri.getInputStream();
        } catch (IOException e) {
            e.printStackTrace();
        }
        // 需要判斷is是否為空琐谤,如果圖片URL為404時候,不判空為導致程序中止
        if (is != null) {
            //寫入數(shù)據(jù)流
            OutputStream os = null;
            try {
                os = new FileOutputStream(new File(dir, fileName));
            } catch (FileNotFoundException e) {
                e.printStackTrace();
            }
            // 下載圖片
            byte[] buf = new byte[1024];
            int l = 0;
            try {
                while ((l = is.read(buf)) != -1) {
                    os.write(buf, 0, l);
                }
            } catch (IOException e) {
                e.printStackTrace();
            } finally {
                // 下載完就關(guān)閉文件流
                if (os != null) {
                    try {
                        os.close();
                    } catch (IOException e) {
                        e.printStackTrace();
                    }
                }
            }
        }
    }
}

3. 注意事項

  • 慎用爬蟲玩敏,防止被封IP斗忌。
  • 要合理應用Jsoup選擇器,不同站點考慮不同情況旺聚。
  • 要保證下載的文件/文件夾不重名织阳。
  • 在下載完圖片之后需要及時關(guān)閉輸出流,在finally代碼塊中關(guān)閉翻屈。
  • 在執(zhí)行is = uri.getInputStream()獲取輸入流之后需要判空陈哑,可能存在圖片鏈接失效的情況,否則會導致遇到異常終止程序伸眶。

4. 爬取結(jié)果

爬取結(jié)果
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末惊窖,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子厘贼,更是在濱河造成了極大的恐慌界酒,老刑警劉巖,帶你破解...
    沈念sama閱讀 211,194評論 6 490
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件嘴秸,死亡現(xiàn)場離奇詭異毁欣,居然都是意外死亡,警方通過查閱死者的電腦和手機岳掐,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,058評論 2 385
  • 文/潘曉璐 我一進店門凭疮,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人串述,你說我怎么就攤上這事执解。” “怎么了纲酗?”我有些...
    開封第一講書人閱讀 156,780評論 0 346
  • 文/不壞的土叔 我叫張陵衰腌,是天一觀的道長。 經(jīng)常有香客問我觅赊,道長右蕊,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 56,388評論 1 283
  • 正文 為了忘掉前任吮螺,我火速辦了婚禮饶囚,結(jié)果婚禮上帕翻,老公的妹妹穿的比我還像新娘。我一直安慰自己坯约,他們只是感情好熊咽,可當我...
    茶點故事閱讀 65,430評論 5 384
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著闹丐,像睡著了一般横殴。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上卿拴,一...
    開封第一講書人閱讀 49,764評論 1 290
  • 那天衫仑,我揣著相機與錄音,去河邊找鬼堕花。 笑死文狱,一個胖子當著我的面吹牛,可吹牛的內(nèi)容都是我干的缘挽。 我是一名探鬼主播瞄崇,決...
    沈念sama閱讀 38,907評論 3 406
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼壕曼!你這毒婦竟也來了苏研?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 37,679評論 0 266
  • 序言:老撾萬榮一對情侶失蹤腮郊,失蹤者是張志新(化名)和其女友劉穎摹蘑,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體轧飞,經(jīng)...
    沈念sama閱讀 44,122評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡衅鹿,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,459評論 2 325
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了过咬。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片大渤。...
    茶點故事閱讀 38,605評論 1 340
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖掸绞,靈堂內(nèi)的尸體忽然破棺而出泵三,到底是詐尸還是另有隱情,我是刑警寧澤集漾,帶...
    沈念sama閱讀 34,270評論 4 329
  • 正文 年R本政府宣布,位于F島的核電站砸脊,受9級特大地震影響具篇,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜凌埂,卻給世界環(huán)境...
    茶點故事閱讀 39,867評論 3 312
  • 文/蒙蒙 一驱显、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦埃疫、人聲如沸伏恐。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,734評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽翠桦。三九已至,卻和暖如春胳蛮,著一層夾襖步出監(jiān)牢的瞬間销凑,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,961評論 1 265
  • 我被黑心中介騙來泰國打工仅炊, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留斗幼,地道東北人。 一個月前我還...
    沈念sama閱讀 46,297評論 2 360
  • 正文 我出身青樓抚垄,卻偏偏與公主長得像蜕窿,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子呆馁,可洞房花燭夜當晚...
    茶點故事閱讀 43,472評論 2 348

推薦閱讀更多精彩內(nèi)容

  • Android 自定義View的各種姿勢1 Activity的顯示之ViewRootImpl詳解 Activity...
    passiontim閱讀 171,744評論 25 707
  • 發(fā)現(xiàn) 關(guān)注 消息 iOS 第三方庫桐经、插件、知名博客總結(jié) 作者大灰狼的小綿羊哥哥關(guān)注 2017.06.26 09:4...
    肇東周閱讀 12,059評論 4 62
  • 聲明:本文講解的實戰(zhàn)內(nèi)容智哀,均僅用于學習交流次询,請勿用于任何商業(yè)用途! 一瓷叫、前言 強烈建議:請在電腦的陪同下屯吊,閱讀本文...
    Bruce_Szh閱讀 12,682評論 6 28
  • 彥躺在床上,盯著漆黑的天花板摹菠,腦子里一片混亂盒卸。她始終想不明白問題究竟出在哪。 一個月以前次氨,彥丟了工作蔽介。 彥的工作相...
    22號山茶花閱讀 236評論 0 0
  • 興致來了,想寫一下自己對詐金花這一社交游戲的一點感受煮寡,構(gòu)思到成文時間半小時左右虹蓄,所以有經(jīng)不起推敲的地方還請看官不要...
    常月清閱讀 862評論 3 1