我用了30行代碼正塌，爬了知乎好多妹子

寫一個爬蟲有多簡單嘀略？答案是：不到30行代碼

我用了不到30行代碼，爬了知乎好多妹子圖Ｅ曳獭Ｖ难颉！

跟著我一步一步來鸠天，你也可以簡簡單單創(chuàng)建一個爬蟲讼育。

目標

爬蟲的第一步就是決定要爬些什么。作為一個屌的不能再屌的屌絲稠集，當然要爬妹子Ｄ潭巍！剥纷！

每當這個時候痹籍，就要拿出我的儲備了。欲罷不能的大美妞筷畦，要說妹子圖的質(zhì)量词裤，還是得知乎啊刺洒。

分析

目標有了鳖宾，我們就要先分析一下。頁面結(jié)構(gòu)逆航。在頁面中找任一個爬取目標鼎文，點擊鼠標右鍵，選擇【檢查】選項因俐。便會打開瀏覽器的控制臺拇惋，并定位到我們的目標圖片的節(jié)點上周偎。如下圖：

圖中的img標簽就是我們的爬取目標，我們可以明確的看到 data-original 元素的內(nèi)容與 src 元素的內(nèi)容都是圖片的地址撑帖。經(jīng)過驗證蓉坎， src 元素的內(nèi)容可能會是縮略圖地址，所以我們放棄 src 選擇 data-original胡嘿。

以上就是我們要分析的部分蛉艾，接下來就是代碼。

編碼

新建項目

這里我們使用 maven 作為項目的依賴管理工具衷敌。

新建一個 maven 項目勿侯，并在 pom.xml 中引入依賴。

<dependencies>
        <dependency>
            <groupId>com.github.zhangyingwei</groupId>
            <artifactId>cockroach</artifactId>
            <version>1.0-Alpha</version>
        </dependency>
        <dependency>
            <groupId>log4j</groupId>
            <artifactId>log4j</artifactId>
            <version>1.2.17</version>
        </dependency>
        <dependency>
            <groupId>com.squareup.okhttp3</groupId>
            <artifactId>okhttp</artifactId>
            <version>3.8.1</version>
        </dependency>
        <!--json-lib-->
        <dependency>
            <groupId>net.sf.json-lib</groupId>
            <artifactId>json-lib</artifactId>
            <version>2.4</version>
            <classifier>jdk15</classifier>
        </dependency>
        <!-- https://mvnrepository.com/artifact/org.jsoup/jsoup -->
        <dependency>
            <groupId>org.jsoup</groupId>
            <artifactId>jsoup</artifactId>
            <version>1.8.3</version>
        </dependency>
    </dependencies>

這里我們使用了爬蟲框架 cockroach 缴罗。并引入了 log4j 作為日志框架助琐，okhttp3 作為 http 客戶端，json-lib 作為 json 解析工具面氓，以及 jsoup 作為 html 解析工具兵钮。

建立包結(jié)構(gòu)如下

store 主要存放頁面解析以及結(jié)果存儲相關(guān)類
utils 主要存放項目中用到的相關(guān)工具類
App.java 項目入口

編碼

程序主入口 App.java

public class App {
    public static void main(String[] args) throws InstantiationException, IllegalAccessException, InterruptedException {
        CockroachConfig config = new CockroachConfig().setAppName("知乎上的妹子們").setThread(10).setStore(ZhihuGirlsStore.class);
        TaskQueue queue = TaskQueue.of();
        getPageFrom(queue);
        CockroachContext context = new CockroachContext(config);
        context.start(queue);
    }

    private static void getPageFrom(TaskQueue queue) throws InterruptedException {
        String basePath = "https://www.zhihu.com/collection/72114548?page=";
        for (int i = 1; i <= 68; i++) {
            queue.push(new Task(basePath + i));
        }
    }
}

在上邊的代碼中，我們一共分為5步舌界。

我們創(chuàng)建了一個名稱為 知乎上的妹子們 的爬蟲矢空，使用了 10 個線程來爬取內(nèi)容，并指定了頁面解析以及結(jié)果存儲的處理類為 ZhihuGirlsStore.class
創(chuàng)建了一個默認長度的任務(wù)隊列
初始化任務(wù)到任務(wù)隊列中
創(chuàng)建了一個 Cockroach 爬蟲上下文對象
啟動爬蟲

頁面解析以及存儲 ZhihuGirlsStore.java

public class ZhihuGirlsStore implements IStore {
    public void store(TaskResponse taskResponse) throws Exception {
        if (taskResponse.getTask().getGroup().equals("img")) {
            byte[] bytes = taskResponse.getResponse().body().bytes();
            ImageUtils.save(bytes);
        } else {
            Elements imgs = taskResponse.select(".zm-item-answer").select("img");
            imgs.stream().map(element -> element.attr("data-original")).forEach(url -> {
                try {
                    taskResponse.getQueue().push(new Task(url, "img"));
                } catch (Exception e) {
                    e.printStackTrace();
                }
            });
        }
    }
}

Cockroach 的 task 中為我們提供了 group 字段來標識每一個任務(wù)禀横，如果不設(shè)置屁药，任務(wù)默認的 group 為 default 。
在本爬蟲程序中柏锄，我們的 task 一共可分為兩種酿箭，一種是解析頁面得到頁面中的圖片地址，另外一種就是爬取圖片內(nèi)容趾娃。
這里我們通過 group 字段來區(qū)分兩種任務(wù)缭嫡，具體操作就是在解析到圖片地址并添加到隊列中的時候，給 task 設(shè)置 group 為 img抬闷，這樣我們在收到一個結(jié)果的時候妇蛀，就可以通過 task 中的 group 字段來區(qū)分我們要做何種操作（解析頁面 / 保存圖片）。

圖片存儲 ImageUtils.java

public class ImageUtils {
    public static void save(byte[] bytes) throws IOException {
        String fileName = UUID.randomUUID().toString();
        String dirpath = "meizhi2";
        File dir = new File(dirpath);
        if(!dir.exists()){
            dir.mkdirs();
        }
        FileOutputStream outputStream = new FileOutputStream(dirpath + "/" + fileName + ".jpg");
        outputStream.write(bytes);
        outputStream.close();
        System.out.println("save image:" + fileName);
    }
}

以上代碼就是把接收到的二進制圖片內(nèi)容保存為圖片笤成。圖片的名稱使用一個隨機的 UUID 值评架。

沒錯老鐵們，以上就是我們的全部的代碼炕泳。包括方法聲明在內(nèi)的有效代碼不到30行Ｗ莸！培遵！

文章來源

最后編輯于：2017.12.10 17:24:36

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末浙芙，一起剝皮案震驚了整個濱河市登刺，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌嗡呼，老刑警劉巖纸俭，帶你破解...
沈念sama閱讀 217,406評論 6贊 503
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場離奇詭異南窗，居然都是意外死亡掉蔬，警方通過查閱死者的電腦和手機，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 92,732評論 3贊 393
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門矾瘾，熙熙樓的掌柜王于貴愁眉苦臉地迎上來女轿，“玉大人，你說我怎么就攤上這事壕翩◎燃＃” “怎么了？”我有些...
開封第一講書人閱讀 163,711評論 0贊 353
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵放妈，是天一觀的道長北救。經(jīng)常有香客問我，道長芜抒，這世上最難降的妖魔是什么珍策？我笑而不...
開封第一講書人閱讀 58,380評論 1贊 293
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮宅倒，結(jié)果婚禮上攘宙，老公的妹妹穿的比我還像新娘。我一直安慰自己拐迁，他們只是感情好蹭劈，可當我...
茶點故事閱讀 67,432評論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著线召，像睡著了一般铺韧。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上缓淹，一...
開封第一講書人閱讀 51,301評論 1贊 301
城市分裂傳說
那天哈打，我揣著相機與錄音，去河邊找鬼讯壶。笑死料仗，一個胖子當著我的面吹牛，可吹牛的內(nèi)容都是我干的鹏溯。我是一名探鬼主播罢维，決...
沈念sama閱讀 40,145評論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼丙挽！你這毒婦竟也來了肺孵？” 一聲冷哼從身側(cè)響起，我...
開封第一講書人閱讀 39,008評論 0贊 276
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤颜阐，失蹤者是張志新（化名）和其女友劉穎平窘，沒想到半個月后，有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體凳怨，經(jīng)...
沈念sama閱讀 45,443評論 1贊 314
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡瑰艘，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 37,649評論 3贊 334
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時候發(fā)現(xiàn)自己被綠了肤舞。大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片紫新。...
茶點故事閱讀 39,795評論 1贊 347
活死人
序言：一個原本活蹦亂跳的男人離奇死亡，死狀恐怖李剖，靈堂內(nèi)的尸體忽然破棺而出芒率，到底是詐尸還是另有隱情，我是刑警寧澤篙顺，帶...
沈念sama閱讀 35,501評論 5贊 345
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布偶芍，位于F島的核電站，受9級特大地震影響德玫，放射性物質(zhì)發(fā)生泄漏匪蟀。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點故事閱讀 41,119評論 3贊 328
男人毒藥：我在死后第九天來索命
文/蒙蒙一宰僧、第九天我趴在偏房一處隱蔽的房頂上張望材彪。院中可真熱鬧，春花似錦琴儿、人聲如沸查刻。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,731評論 0贊 22
一樁弒父案凤类，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽穗泵。三九已至，卻和暖如春谜疤，著一層夾襖步出監(jiān)牢的瞬間佃延，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 32,865評論 1贊 269
情欲美人皮
我被黑心中介騙來泰國打工夷磕，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留履肃，地道東北人。一個月前我還...
沈念sama閱讀 47,899評論 2贊 370
代替公主和親
正文我出身青樓坐桩，卻偏偏與公主長得像尺棋，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子绵跷，可洞房花燭夜當晚...
茶點故事閱讀 44,724評論 2贊 354

我用了30行代碼，爬了知乎好多妹子

我用了30行代碼正塌，爬了知乎好多妹子

目標

分析

編碼

新建項目

編碼

推薦閱讀更多精彩內(nèi)容