沒壁紙用了宅静？用Jsoup寫一個圖片爬蟲吧！

Jsoup

1. Jsoup

Jsoup 是一款Java 的HTML解析器站欺，可直接解析某個URL地址姨夹、HTML文本內(nèi)容。它提供了一套非常省力的API矾策，可通過DOM磷账，CSS以及類似于jQuery的操作方法來取出和操作數(shù)據(jù)〖炙洌—— 百度百科

2. 設計/代碼

2.1 爬取站點

爬取站點為http://www.16sucai.com/tupian/gqfj/3.html
是一個風景壁紙網(wǎng)站逃糟。

爬取站點

每個頁面有18個類似相冊一樣的鏈接，每個頁面的url不同的只有頁號。

進入每個相冊之后绰咽，再下載頁面中的圖片即可菇肃。

2.2 代碼

主程序：

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
import util.Util;

import java.io.*;

public class Main {
    public static void main(String[] args) throws IOException {
        // 首先建立主目錄
        Util.makeDir(Util.picDir);
        // 連接站點
        // 測試爬去第3頁和第4頁的壁紙
        for (int i = 3; i < 5; i++) {
            // 用Jsoup連接站點
            Document doc = Jsoup.connect("http://www.16sucai.com/tupian/gqfj/" + i + ".html").get();
            // 選擇class為vector_listbox容器
            Elements elementClass = doc.select(".vector_listbox");
            // 在容器中選擇a鏈接，用于進入相冊
            Elements elements = elementClass.select("a[href~=/[0-9]{4}/[0-9]{2}/.*html]");
            System.out.println(elements.size());
            // 因為同樣的鏈接存在與圖片和文字上取募，做特殊處理
            for (int j = 0; j < elements.size() / 2; j++) {
                Element e = elements.get(2 * j);
                //取出該元素的title元素來新建文件夾
                String filePath = Util.picDir + "http://" + e.attr("title");
                Util.makeDir(filePath);
                // 然后在請求該鏈接
                System.out.println(e.attr("href"));
                Document docInner = Jsoup.connect("http://www.16sucai.com" + e.attr("href")).get();
                // 取出對應圖片的URL
                Elements elementsClass = docInner.select(".endtext");
                Elements elementsInner = elementsClass.select("img[src^=http://file]");
                System.out.println(elementsInner.size());
                // 下載圖片
                for (Element eInner : elementsInner) {
                    String picUrl = eInner.attr("src");
                    Util.downloadPic(picUrl, picUrl.substring(picUrl.lastIndexOf("/")), filePath);
                }
            }
        }
    }
}

工具類：

import java.io.*;
import java.net.MalformedURLException;
import java.net.URL;
import java.net.URLConnection;

/**
 * Created by JJS on 2016/10/23.
 */
public class Util {
    public static final String picDir = "F://imgs";

    // 新建文件目錄
    public static void makeDir(String dir) {
        File f = new File(dir);
        if (!f.exists()) {
            f.mkdirs();
        }
    }

    // 下載圖片
    public static void downloadPic(String src, String fileName, String dir) {
        // 新建URL類
        URL url = null;
        try {
            url = new URL(src);
        } catch (MalformedURLException e) {
            e.printStackTrace();
        }
        // 新建URL鏈接類
        URLConnection uri = null;
        try {
            uri = url.openConnection();
        } catch (IOException e) {
            e.printStackTrace();
        }
        //獲取數(shù)據(jù)流
        InputStream is = null;
        try {
            is = uri.getInputStream();
        } catch (IOException e) {
            e.printStackTrace();
        }
        // 需要判斷is是否為空琐谤，如果圖片URL為404時候，不判空為導致程序中止
        if (is != null) {
            //寫入數(shù)據(jù)流
            OutputStream os = null;
            try {
                os = new FileOutputStream(new File(dir, fileName));
            } catch (FileNotFoundException e) {
                e.printStackTrace();
            }
            // 下載圖片
            byte[] buf = new byte[1024];
            int l = 0;
            try {
                while ((l = is.read(buf)) != -1) {
                    os.write(buf, 0, l);
                }
            } catch (IOException e) {
                e.printStackTrace();
            } finally {
                // 下載完就關(guān)閉文件流
                if (os != null) {
                    try {
                        os.close();
                    } catch (IOException e) {
                        e.printStackTrace();
                    }
                }
            }
        }
    }
}

3. 注意事項

慎用爬蟲玩敏，防止被封IP斗忌。
要合理應用Jsoup選擇器，不同站點考慮不同情況旺聚。
要保證下載的文件/文件夾不重名织阳。
在下載完圖片之后需要及時關(guān)閉輸出流，在finally代碼塊中關(guān)閉翻屈。
在執(zhí)行is = uri.getInputStream()獲取輸入流之后需要判空陈哑，可能存在圖片鏈接失效的情況，否則會導致遇到異常終止程序伸眶。

4. 爬取結(jié)果

爬取結(jié)果

最后編輯于：2017.12.04 06:14:03

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末惊窖，一起剝皮案震驚了整個濱河市，隨后出現(xiàn)的幾起案子厘贼，更是在濱河造成了極大的恐慌界酒，老刑警劉巖，帶你破解...
沈念sama閱讀 211,194評論 6贊 490
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件嘴秸，死亡現(xiàn)場離奇詭異毁欣，居然都是意外死亡，警方通過查閱死者的電腦和手機岳掐，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 90,058評論 2贊 385
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門凭疮，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人串述，你說我怎么就攤上這事执解。” “怎么了纲酗？”我有些...
開封第一講書人閱讀 156,780評論 0贊 346
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵衰腌，是天一觀的道長。經(jīng)常有香客問我觅赊，道長右蕊，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 56,388評論 1贊 283
?港島之戀（遺憾婚禮）
正文為了忘掉前任吮螺，我火速辦了婚禮饶囚，結(jié)果婚禮上帕翻，老公的妹妹穿的比我還像新娘。我一直安慰自己坯约，他們只是感情好熊咽，可當我...
茶點故事閱讀 65,430評論 5贊 384
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著闹丐，像睡著了一般横殴。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上卿拴，一...
開封第一講書人閱讀 49,764評論 1贊 290
城市分裂傳說
那天衫仑，我揣著相機與錄音，去河邊找鬼堕花。笑死文狱，一個胖子當著我的面吹牛，可吹牛的內(nèi)容都是我干的缘挽。我是一名探鬼主播瞄崇，決...
沈念sama閱讀 38,907評論 3贊 406
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼壕曼！你這毒婦竟也來了苏研？” 一聲冷哼從身側(cè)響起，我...
開封第一講書人閱讀 37,679評論 0贊 266
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤腮郊，失蹤者是張志新（化名）和其女友劉穎摹蘑，沒想到半個月后，有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體轧飞，經(jīng)...
沈念sama閱讀 44,122評論 1贊 303
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡衅鹿，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 36,459評論 2贊 325
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時候發(fā)現(xiàn)自己被綠了过咬。大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片大渤。...
茶點故事閱讀 38,605評論 1贊 340
活死人
序言：一個原本活蹦亂跳的男人離奇死亡，死狀恐怖掸绞，靈堂內(nèi)的尸體忽然破棺而出泵三，到底是詐尸還是另有隱情，我是刑警寧澤集漾，帶...
沈念sama閱讀 34,270評論 4贊 329
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站砸脊，受9級特大地震影響具篇，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜凌埂，卻給世界環(huán)境...
茶點故事閱讀 39,867評論 3贊 312
男人毒藥：我在死后第九天來索命
文/蒙蒙一驱显、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧，春花似錦埃疫、人聲如沸伏恐。這莊子的主人今日做“春日...
開封第一講書人閱讀 30,734評論 0贊 21
一樁弒父案栓霜，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽翠桦。三九已至，卻和暖如春胳蛮，著一層夾襖步出監(jiān)牢的瞬間销凑，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 31,961評論 1贊 265
情欲美人皮
我被黑心中介騙來泰國打工仅炊，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留斗幼，地道東北人。一個月前我還...
沈念sama閱讀 46,297評論 2贊 360
代替公主和親
正文我出身青樓抚垄，卻偏偏與公主長得像蜕窿，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子呆馁，可洞房花燭夜當晚...
茶點故事閱讀 43,472評論 2贊 348

沒壁紙用了？用Jsoup寫一個圖片爬蟲吧迅办！