前言
前不久拜讀了kk大神的帖子《2010年的房地產調控,我們收獲了什么岛心?寫在房價暴漲前》来破。。忘古。全程目瞪狗呆······ 觀后感就不說了徘禁,主要還是說說java。這個帖子幾百頁上萬的回復髓堪,其中不乏一些毫無營養(yǎng)的路人回復內容送朱,讓我感到不舒服。身為程序猿的我是不是可以讓自己“舒服點”呢干旁?于是決定搞一搞爬蟲(雖然我也不確定自己寫的算不算爬蟲驶沼,但至少滿足了我的需求)。嘻嘻争群,leedcode好像好久沒刷了回怜。。换薄。
準備工作
先找規(guī)律:
路徑的規(guī)律:
http://bbs.tianya.cn/post-house-252774-1.shtml
http://bbs.tianya.cn/post-house-252774-2.shtml
很容易看出帖子的url分三個部分:
前綴(http://bbs.tianya.cn/post-house-252774-) + 頁碼 + 后綴(.shtml)-
kk的回復dom 元素規(guī)律:
稍微會一點前端就可以看的出玉雾,天涯是通過自定義屬性_host來標記回復人的。如圖:
image.png
那我們可以通過獲取_host=kkndme
的div
來獲取kk的回復轻要。當然复旬,還要過濾調回復的回復,這個很簡單冲泥,我們只要取當前回復的第一個回復體就好驹碍,具體回復體有哪些特點相信我不說大家也能發(fā)現(xiàn)壁涎。 要爬取的來源和元素我們都清楚了,接下來就是找一個合適的工具志秃,java里原生jar并沒有什么對解析html支持特別好的工具怔球,我這里使用的是jsoup,在java里操作dom就像用js一樣自如洽损。
萬事具備庞溜,只差編碼革半。我們的思路是循環(huán)請求帖子的每一頁碑定,然后按上述過濾方式將每一頁的結果輸出到文件。
編碼環(huán)節(jié):
按照上述思路結合jsoup文檔又官,很快就寫出了代碼延刘,畢竟比較基礎就不粘貼了,大家請想象六敬,for each 請求寫文件碘赖。一百多頁的帖子大概爬了85秒。很慢(雖然瀏覽器直接訪問外构,加載也很慢)普泡,但還是很多地方可以優(yōu)化,比如請求頁面的時候审编,可以多個線程同時請求不同的頁面撼班。放到線程池后爬取時間大概是55秒。爬下來的帖子讀起來比較困難垒酬,這個時候就需要css的潤色砰嘁。
結論:
這次并沒有詳細的寫過程代碼,主要講解思路哈哈哈勘究,畢竟我自己的代碼我自己都嫌棄矮湘。
還是貼一下主要代碼:
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
import thread.ThreadFactoryBuilder;
import java.io.BufferedWriter;
import java.io.IOException;
import java.nio.file.Files;
import java.nio.file.Path;
import java.nio.file.Paths;
import java.util.concurrent.*;
import java.util.concurrent.atomic.AtomicInteger;
/**
* @author 尚曉瓊
* @version V1.0
* @since 2018/12/19
*/
public class RobotDom {
private static int pageStart = 1;
private static int pageEnd = 131;
private static String baseUrl = "http://bbs.tianya.cn/post-house-252774-";
private static String suffix = ".shtml";
private static String first = "<!DOCTYPE html>\n" +
"<html lang=\"en\">\n" +
"<head>\n" +
" <meta charset=\"UTF-8\">\n" +
" <title>Title</title>\n" +
"</head>\n" +
"<body>\n" + "<style>\n" +
".content{\n" +
"\tborder: 2px solid gray;\n" +
" border-radius: 20px;\n" +
" padding: 20px;\n" +
" margin: 20px 0;\n" +
" background-color: #cde9a2;\n" +
"}\n" +
".date-time{\n" +
" padding-left: 40%;\n" +
" color: royalblue;\n" +
" font-size: large;\n" +
" margin: 0 0 15px 0;" +
"}" +
".link-ty{" +
"margin-left: 20px;" +
"}" +
"</style>";
private static String last = "</body>\n" +
"</html>";
private static String divS = "<div class='content'>\n";
private static String divE = "\n</div>\n";
private static AtomicInteger total = new AtomicInteger(0);
private static String[] contents = new String[pageEnd];
private static CountDownLatch latch = new CountDownLatch(pageEnd);
public static void main(String[] args) {
String attr = "_host";
String value = "kkndme";
String[]temp=baseUrl.split("/");
String fileName=temp[temp.length-1]+value+".html";
Path path = Paths.get("F:/robot/"+fileName);
BufferedWriter writer = null;
ThreadFactory threadFactory = new ThreadFactoryBuilder().build();
int corePoolSize=16;
int maximumPoolSize=200;
long keepAliveTime=0L;
int capacity=1024;
BlockingQueue<Runnable> blockingQueue=new LinkedBlockingQueue<>(capacity);
ExecutorService workers = new ThreadPoolExecutor(corePoolSize, maximumPoolSize, keepAliveTime, TimeUnit.MICROSECONDS, blockingQueue, threadFactory);
try {
long startTime=System.currentTimeMillis();
writer = Files.newBufferedWriter(path);
writer.write(first);
for (int i = pageStart; i <= pageEnd; i++) {
final int pageIndex = i;
workers.submit(() -> doRobot(pageIndex, attr, value));
}
latch.await();
System.out.println("爬取完成,輸出文件ing口糕。缅阳。。");
for (String content : contents) {
if (content != null) {
writer.write(content);
}
}
workers.shutdown();
writer.write(last);
long endTime=System.currentTimeMillis();
System.out.println("輸出文件成功,耗時:"+(endTime-startTime));
} catch (Exception e) {
e.printStackTrace();
} finally {
if (writer != null) {
try {
writer.close();
} catch (IOException e) {
e.printStackTrace();
}
}
}
}
private static void doRobot(int i, String arr, String value) {
String url = baseUrl + i + suffix;
Document document = null;
try {
document = Jsoup.connect(url).timeout(0).get();
Elements elements = document.getElementsByAttributeValue(arr, value);
int size = elements.size();
final int index = i;
StringBuilder contentsInPage = new StringBuilder();
elements.forEach(element -> {
contentsInPage.append(divS);
Element dateTime = element.select(".atl-info").select("span").last();
contentsInPage.append("\n<div class='date-time'>");
if (dateTime != null) {
contentsInPage.append(dateTime.html());
}
contentsInPage.append(" <a class='link-ty' href='").append(url).append("'>page:").append(index).append("</a>").append("\n</div>\n");
Elements content = element.select(".bbs-content");
contentsInPage.append(content.html());
contentsInPage.append(divE);
});
contents[i] = contentsInPage.toString();
total.addAndGet(size);
System.out.println("第" + i + "頁爬取完成景描,爬取:" + size + "券时,累計:" + total);
} catch (IOException e) {
System.out.println("第" + i + "頁爬取失敗,累計:" + total);
e.printStackTrace();
} finally {
latch.countDown();
System.out.println("未爬取頁數(shù):" + latch.getCount());
System.out.println("當前線程:" + Thread.currentThread().getName());
}
}
}
爬取效果還不錯:
各位再見伏伯,我繼續(xù)拜讀了i俣础!说搅!
爬取結果
提取碼:anar