1. Jsoup
- Jsoup 是一款Java 的HTML解析器站欺,可直接解析某個URL地址姨夹、HTML文本內(nèi)容。它提供了一套非常省力的API矾策,可通過DOM磷账,CSS以及類似于jQuery的操作方法來取出和操作數(shù)據(jù)〖炙洌—— 百度百科
2. 設計/代碼
2.1 爬取站點
爬取站點為http://www.16sucai.com/tupian/gqfj/3.html
是一個風景壁紙網(wǎng)站逃糟。
每個頁面有18個類似相冊一樣的鏈接,每個頁面的url不同的只有頁號。
進入每個相冊之后绰咽,再下載頁面中的圖片即可菇肃。
2.2 代碼
主程序:
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
import util.Util;
import java.io.*;
public class Main {
public static void main(String[] args) throws IOException {
// 首先建立主目錄
Util.makeDir(Util.picDir);
// 連接站點
// 測試爬去第3頁和第4頁的壁紙
for (int i = 3; i < 5; i++) {
// 用Jsoup連接站點
Document doc = Jsoup.connect("http://www.16sucai.com/tupian/gqfj/" + i + ".html").get();
// 選擇class為vector_listbox容器
Elements elementClass = doc.select(".vector_listbox");
// 在容器中選擇a鏈接,用于進入相冊
Elements elements = elementClass.select("a[href~=/[0-9]{4}/[0-9]{2}/.*html]");
System.out.println(elements.size());
// 因為同樣的鏈接存在與圖片和文字上取募,做特殊處理
for (int j = 0; j < elements.size() / 2; j++) {
Element e = elements.get(2 * j);
//取出該元素的title元素來新建文件夾
String filePath = Util.picDir + "http://" + e.attr("title");
Util.makeDir(filePath);
// 然后在請求該鏈接
System.out.println(e.attr("href"));
Document docInner = Jsoup.connect("http://www.16sucai.com" + e.attr("href")).get();
// 取出對應圖片的URL
Elements elementsClass = docInner.select(".endtext");
Elements elementsInner = elementsClass.select("img[src^=http://file]");
System.out.println(elementsInner.size());
// 下載圖片
for (Element eInner : elementsInner) {
String picUrl = eInner.attr("src");
Util.downloadPic(picUrl, picUrl.substring(picUrl.lastIndexOf("/")), filePath);
}
}
}
}
}
工具類:
import java.io.*;
import java.net.MalformedURLException;
import java.net.URL;
import java.net.URLConnection;
/**
* Created by JJS on 2016/10/23.
*/
public class Util {
public static final String picDir = "F://imgs";
// 新建文件目錄
public static void makeDir(String dir) {
File f = new File(dir);
if (!f.exists()) {
f.mkdirs();
}
}
// 下載圖片
public static void downloadPic(String src, String fileName, String dir) {
// 新建URL類
URL url = null;
try {
url = new URL(src);
} catch (MalformedURLException e) {
e.printStackTrace();
}
// 新建URL鏈接類
URLConnection uri = null;
try {
uri = url.openConnection();
} catch (IOException e) {
e.printStackTrace();
}
//獲取數(shù)據(jù)流
InputStream is = null;
try {
is = uri.getInputStream();
} catch (IOException e) {
e.printStackTrace();
}
// 需要判斷is是否為空琐谤,如果圖片URL為404時候,不判空為導致程序中止
if (is != null) {
//寫入數(shù)據(jù)流
OutputStream os = null;
try {
os = new FileOutputStream(new File(dir, fileName));
} catch (FileNotFoundException e) {
e.printStackTrace();
}
// 下載圖片
byte[] buf = new byte[1024];
int l = 0;
try {
while ((l = is.read(buf)) != -1) {
os.write(buf, 0, l);
}
} catch (IOException e) {
e.printStackTrace();
} finally {
// 下載完就關(guān)閉文件流
if (os != null) {
try {
os.close();
} catch (IOException e) {
e.printStackTrace();
}
}
}
}
}
}
3. 注意事項
- 慎用爬蟲玩敏,防止被封IP斗忌。
- 要合理應用Jsoup選擇器,不同站點考慮不同情況旺聚。
- 要保證下載的文件/文件夾不重名织阳。
- 在下載完圖片之后需要及時關(guān)閉輸出流,在finally代碼塊中關(guān)閉翻屈。
- 在執(zhí)行is = uri.getInputStream()獲取輸入流之后需要判空陈哑,可能存在圖片鏈接失效的情況,否則會導致遇到異常終止程序伸眶。