kkndme神貼爬蟲(java)···

前言

前不久拜讀了kk大神的帖子《2010年的房地產調控,我們收獲了什么岛心?寫在房價暴漲前》来破。。忘古。全程目瞪狗呆······ 觀后感就不說了徘禁,主要還是說說java。這個帖子幾百頁上萬的回復髓堪,其中不乏一些毫無營養(yǎng)的路人回復內容送朱,讓我感到不舒服。身為程序猿的我是不是可以讓自己“舒服點”呢干旁?于是決定搞一搞爬蟲(雖然我也不確定自己寫的算不算爬蟲驶沼,但至少滿足了我的需求)。嘻嘻争群,leedcode好像好久沒刷了回怜。。换薄。

準備工作

先找規(guī)律:

  • 路徑的規(guī)律:
    http://bbs.tianya.cn/post-house-252774-1.shtml
    http://bbs.tianya.cn/post-house-252774-2.shtml
    很容易看出帖子的url分三個部分:
    前綴(http://bbs.tianya.cn/post-house-252774-) + 頁碼 + 后綴(.shtml)

  • kk的回復dom 元素規(guī)律:
    稍微會一點前端就可以看的出玉雾,天涯是通過自定義屬性_host來標記回復人的。如圖:

    image.png

    那我們可以通過獲取_host=kkndmediv來獲取kk的回復轻要。當然复旬,還要過濾調回復的回復,這個很簡單冲泥,我們只要取當前回復的第一個回復體就好驹碍,具體回復體有哪些特點相信我不說大家也能發(fā)現(xiàn)壁涎。

  • 要爬取的來源和元素我們都清楚了,接下來就是找一個合適的工具志秃,java里原生jar并沒有什么對解析html支持特別好的工具怔球,我這里使用的是jsoup,在java里操作dom就像用js一樣自如洽损。

萬事具備庞溜,只差編碼革半。我們的思路是循環(huán)請求帖子的每一頁碑定,然后按上述過濾方式將每一頁的結果輸出到文件。

編碼環(huán)節(jié):

按照上述思路結合jsoup文檔又官,很快就寫出了代碼延刘,畢竟比較基礎就不粘貼了,大家請想象六敬,for each 請求寫文件碘赖。一百多頁的帖子大概爬了85秒。很慢(雖然瀏覽器直接訪問外构,加載也很慢)普泡,但還是很多地方可以優(yōu)化,比如請求頁面的時候审编,可以多個線程同時請求不同的頁面撼班。放到線程池后爬取時間大概是55秒。爬下來的帖子讀起來比較困難垒酬,這個時候就需要css的潤色砰嘁。

結論:

這次并沒有詳細的寫過程代碼,主要講解思路哈哈哈勘究,畢竟我自己的代碼我自己都嫌棄矮湘。

還是貼一下主要代碼:

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
import thread.ThreadFactoryBuilder;

import java.io.BufferedWriter;
import java.io.IOException;
import java.nio.file.Files;
import java.nio.file.Path;
import java.nio.file.Paths;
import java.util.concurrent.*;
import java.util.concurrent.atomic.AtomicInteger;

/**
 * @author 尚曉瓊
 * @version V1.0
 * @since 2018/12/19
 */
public class RobotDom {
    private static int pageStart = 1;
    private static int pageEnd = 131;
    private static String baseUrl = "http://bbs.tianya.cn/post-house-252774-";
    private static String suffix = ".shtml";
    private static String first = "<!DOCTYPE html>\n" +
            "<html lang=\"en\">\n" +
            "<head>\n" +
            "    <meta charset=\"UTF-8\">\n" +
            "    <title>Title</title>\n" +
            "</head>\n" +
            "<body>\n" + "<style>\n" +
            ".content{\n" +
            "\tborder: 2px solid gray;\n" +
            "    border-radius: 20px;\n" +
            "    padding: 20px;\n" +
            "    margin: 20px 0;\n" +
            "    background-color: #cde9a2;\n" +
            "}\n" +
            ".date-time{\n" +
            "    padding-left: 40%;\n" +
            "    color: royalblue;\n" +
            "    font-size: large;\n" +
            "    margin: 0 0 15px 0;" +
            "}" +
            ".link-ty{" +
            "margin-left: 20px;" +
            "}" +
            "</style>";
    private static String last = "</body>\n" +
            "</html>";
    private static String divS = "<div class='content'>\n";
    private static String divE = "\n</div>\n";
    private static AtomicInteger total = new AtomicInteger(0);
    private static String[] contents = new String[pageEnd];
    private static CountDownLatch latch = new CountDownLatch(pageEnd);

    public static void main(String[] args) {
        String attr = "_host";
        String value = "kkndme";
        String[]temp=baseUrl.split("/");
        String fileName=temp[temp.length-1]+value+".html";
        Path path = Paths.get("F:/robot/"+fileName);
        BufferedWriter writer = null;
        ThreadFactory threadFactory = new ThreadFactoryBuilder().build();
        int corePoolSize=16;
        int maximumPoolSize=200;
        long keepAliveTime=0L;
        int capacity=1024;
        BlockingQueue<Runnable> blockingQueue=new LinkedBlockingQueue<>(capacity);
        ExecutorService workers = new ThreadPoolExecutor(corePoolSize, maximumPoolSize, keepAliveTime, TimeUnit.MICROSECONDS, blockingQueue, threadFactory);
        try {
            long startTime=System.currentTimeMillis();
            writer = Files.newBufferedWriter(path);
            writer.write(first);
            for (int i = pageStart; i <= pageEnd; i++) {
                final int pageIndex = i;
                workers.submit(() -> doRobot(pageIndex, attr, value));
            }
            latch.await();
            System.out.println("爬取完成,輸出文件ing口糕。缅阳。。");
            for (String content : contents) {
                if (content != null) {
                    writer.write(content);
                }
            }
            workers.shutdown();
            writer.write(last);
            long endTime=System.currentTimeMillis();
            System.out.println("輸出文件成功,耗時:"+(endTime-startTime));
        } catch (Exception e) {
            e.printStackTrace();
        } finally {
            if (writer != null) {
                try {
                    writer.close();
                } catch (IOException e) {
                    e.printStackTrace();
                }
            }
        }
    }

    private static void doRobot(int i, String arr, String value) {
        String url = baseUrl + i + suffix;
        Document document = null;
        try {
            document = Jsoup.connect(url).timeout(0).get();
            Elements elements = document.getElementsByAttributeValue(arr, value);
            int size = elements.size();
            final int index = i;
            StringBuilder contentsInPage = new StringBuilder();
            elements.forEach(element -> {
                contentsInPage.append(divS);
                Element dateTime = element.select(".atl-info").select("span").last();
                contentsInPage.append("\n<div class='date-time'>");
                if (dateTime != null) {
                    contentsInPage.append(dateTime.html());
                }
                contentsInPage.append("     <a class='link-ty' href='").append(url).append("'>page:").append(index).append("</a>").append("\n</div>\n");
                Elements content = element.select(".bbs-content");
                contentsInPage.append(content.html());
                contentsInPage.append(divE);
            });
            contents[i] = contentsInPage.toString();
            total.addAndGet(size);
            System.out.println("第" + i + "頁爬取完成景描,爬取:" + size + "券时,累計:" + total);
        } catch (IOException e) {
            System.out.println("第" + i + "頁爬取失敗,累計:" + total);
            e.printStackTrace();
        } finally {
            latch.countDown();
            System.out.println("未爬取頁數(shù):" + latch.getCount());
            System.out.println("當前線程:" + Thread.currentThread().getName());
        }
    }
}

爬取效果還不錯:


image.png

各位再見伏伯,我繼續(xù)拜讀了i俣础!说搅!

爬取結果
提取碼:anar

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
  • 序言:七十年代末炸枣,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌适肠,老刑警劉巖霍衫,帶你破解...
    沈念sama閱讀 222,729評論 6 517
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異侯养,居然都是意外死亡敦跌,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 95,226評論 3 399
  • 文/潘曉璐 我一進店門逛揩,熙熙樓的掌柜王于貴愁眉苦臉地迎上來柠傍,“玉大人,你說我怎么就攤上這事辩稽【宓眩” “怎么了?”我有些...
    開封第一講書人閱讀 169,461評論 0 362
  • 文/不壞的土叔 我叫張陵逞泄,是天一觀的道長患整。 經常有香客問我,道長喷众,這世上最難降的妖魔是什么各谚? 我笑而不...
    開封第一講書人閱讀 60,135評論 1 300
  • 正文 為了忘掉前任,我火速辦了婚禮到千,結果婚禮上昌渤,老公的妹妹穿的比我還像新娘。我一直安慰自己父阻,他們只是感情好愈涩,可當我...
    茶點故事閱讀 69,130評論 6 398
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著加矛,像睡著了一般履婉。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上斟览,一...
    開封第一講書人閱讀 52,736評論 1 312
  • 那天毁腿,我揣著相機與錄音,去河邊找鬼苛茂。 笑死已烤,一個胖子當著我的面吹牛,可吹牛的內容都是我干的妓羊。 我是一名探鬼主播胯究,決...
    沈念sama閱讀 41,179評論 3 422
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼躁绸!你這毒婦竟也來了裕循?” 一聲冷哼從身側響起臣嚣,我...
    開封第一講書人閱讀 40,124評論 0 277
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎剥哑,沒想到半個月后硅则,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經...
    沈念sama閱讀 46,657評論 1 320
  • 正文 獨居荒郊野嶺守林人離奇死亡株婴,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 38,723評論 3 342
  • 正文 我和宋清朗相戀三年怎虫,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片困介。...
    茶點故事閱讀 40,872評論 1 353
  • 序言:一個原本活蹦亂跳的男人離奇死亡大审,死狀恐怖,靈堂內的尸體忽然破棺而出逻翁,到底是詐尸還是另有隱情饥努,我是刑警寧澤捡鱼,帶...
    沈念sama閱讀 36,533評論 5 351
  • 正文 年R本政府宣布八回,位于F島的核電站,受9級特大地震影響驾诈,放射性物質發(fā)生泄漏缠诅。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 42,213評論 3 336
  • 文/蒙蒙 一乍迄、第九天 我趴在偏房一處隱蔽的房頂上張望管引。 院中可真熱鬧,春花似錦闯两、人聲如沸褥伴。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,700評論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽重慢。三九已至,卻和暖如春逊躁,著一層夾襖步出監(jiān)牢的瞬間似踱,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,819評論 1 274
  • 我被黑心中介騙來泰國打工稽煤, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留核芽,地道東北人。 一個月前我還...
    沈念sama閱讀 49,304評論 3 379
  • 正文 我出身青樓酵熙,卻偏偏與公主長得像轧简,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子匾二,可洞房花燭夜當晚...
    茶點故事閱讀 45,876評論 2 361