爬取網(wǎng)頁圖片,生成特定大小的海報

大家好我是曲靈風请垛,前段時間一直在網(wǎng)上找電影看宗收,直到朋友推薦了一個挺不錯的電影網(wǎng)站亚兄,用了一下审胚,哎呦,還真不錯洽洁,網(wǎng)站的排版懒鉴,分類,壁紙是真的可以(有點跑偏璃俗,快成了介紹電影網(wǎng)站的博客了悉默,那就拉回來)抄课。那時一想如果把這些電影圖片撈出來,組成一個形狀是不是特有意思的间聊?這個還真不清楚哎榴,既然不清楚,那就先試試迎变。

最后試了一下飘言,沒成想還可以姿鸿,做了一個可以定制特定海報的東東般妙,在命令行中輸入下面的命令(代碼的執(zhí)行需要Node環(huán)境的,假設你的Node環(huán)境已經(jīng)裝好)碟渺,就會生成一張組合圖像(如下圖theLastOne.jpg)

node index.js 10 7 10
theLastOne.jpg

源碼位置

接下來依據(jù)代碼分析一下的實現(xiàn)邏輯苫拍。

各位看官绒极,要想實現(xiàn)上面圖像的組合,實現(xiàn)兩個功能就行:

  1. 實現(xiàn)爬蟲程序榔袋,把圖片從網(wǎng)頁中撈出來凰兑,保存到本地审丘。
  2. 通過某種特定算法滩报,把圖片重新組合,最后生成一張?zhí)囟▓D片售睹。

這里主要的邏輯是在第二步,爬蟲程序簡單說一下。

const request = require('request');
const cheerio = require('cheerio');
const fs = require('fs');
const path = require('path');
const async = require('async');
const arrange = require('./arrange');
const log4js = require('log4js').getLogger("begin crawler");

let loveURL = "http://dianying.fm/search/?genre=%E7%88%B1%E6%83%85&p=";

// 根據(jù)圖片url下載圖片
let download = function (uri, filename, cb) {
    request.head(uri, function (err, res, body) {
        request(uri, {
            sendImmediately: false
        }).pipe(fs.createWriteStream(filename)).on('close', cb);
    });
};

// 從拉取的html中把src取出來
let getSrc = function (body) {
    let $ = cheerio.load(body);
    let list = [];
    $('ul[class="fm-result-list"]').find('li > div > a > img').each(function (index, element) {
        list.push($(element).attr('src'));
    })
    return list;
}

// 獲取`爬蟲爬取的圖片在本地的保存位置`可训。
let getPosterPath = function (src) {
    let postersDir = path.join(__dirname, 'source');
    let fileName = src.split('/')[src.split('/').length - 1].split('-')[0];
    let posterPath = path.join(postersDir, fileName);
    return posterPath;
}

let begin = () => {
    let downLoads = 0;
    if (!process.argv[2] && !process.argv[3] && !process.argv[4]) {
        log4js.warn(`請從命令行中輸入頁數(shù),寬度, 高度 forExample: node dingying.js 3 4 5 `);
        process.exit(0);
    }
    let pages = process.argv[2];
    let loop = new Array(parseInt(pages));      //設置要循環(huán)的次數(shù);

    async.eachOfLimit(loop, 2, (page, index, cbPage) => {
        request(loveURL + (index + 1), function (error, response, body) {
            let list = getSrc(body);
            async.eachSeries(list, (src, cbSrc) => {
                log4js.info(src, "start ...");
                let posterPath = getPosterPath(src)
                download(src, posterPath, function (err) {
                    if (err) log4js.error(err);
                    downLoads++;
                    return cbSrc();
                });
            }, (err) => {
                return cbPage();
            });
        });
    }, (err) => {
        log4js.info("downLoads url total: ", downLoads);
        arrange.arrange(process.argv[3], process.argv[4], (err, info) => {
            if (err) console.error(err, info);
            setTimeout(function () {
                log4js.info("finish: success");
                process.exit();
            }, 2000);
        });
    });
}

begin();
 
  1. 開始幾行是通過requrie()引進依賴庫昌妹。
  2. 定義變量loveURL生真,這個url其實就是網(wǎng)頁的URL,通過網(wǎng)頁的URL獲取圖片地址捺宗。
  3. download()方法根據(jù)src下載圖片,最后通過可寫流寫入相應文件中川蒙。其中pipe是管道蚜厉,它的流向是從可讀流到可寫流,.on('close', cb)是綁定close函數(shù)昼牛,寫入成功之后,調用回調函數(shù)康聂。
  4. getSrc()是爬蟲的主要邏輯贰健,其中主要是cheerio模塊的使用,這里有小例子可以幫助理解cheerio是如何在網(wǎng)頁中撈元素的恬汁。
  5. getPosterPath是獲取圖片在本地的保存位置伶椿。
  6. begin()是程序的入口函數(shù),在arrange.arrange函數(shù)調用之前都是爬蟲程序氓侧,是通過node index.js 10 7 10這個命令行中的第一個10來確定把10個html(其中每個html網(wǎng)頁是15張圖片脊另,總共150張圖片)網(wǎng)頁撈到本地來,然后異步方式下載圖片约巷,保存到本地目錄偎痛。

接下來看一下arrange.arrange函數(shù)的實現(xiàn)邏輯,也就是第二個功能的實現(xiàn)独郎。

const gm = require('gm');
const fs = require('fs');
const _ = require('lodash');
const async = require('async');
const rimraf = require('rimraf');
let source = fs.readdirSync('./source');

exports.arrange = (width, height, cb) => {
    //先清空`destination`目錄
    rimraf('./destination/*', function () {
        let groups = _.chunk(source, width);  //width是寬度, groups.length是實際的高度

        let formatGroups = groups.slice(0, height);

        async.eachOfLimit(formatGroups, 2, (group, index, cbGroup) => {
            var gmstate = gm('./source/' + group[0]);
            for (let j = 1; j < group.length; j++) {
                gmstate.append('./source/' + group[j], true);
            }
            gmstate.write('./destination/' + (index + 10000) + ".jpg", function (err) {
                if (err) {
                    console.dir(arguments);
                    return cb(err);
                }
                console.log(this.outname + " created  ::  " + arguments[3])
                return cbGroup();
            });
        }, (err) => {
            setTimeout(function () {
                let integrations = fs.readdirSync('./destination');
                let gmstateDes = gm('./destination/' + integrations[0]);
                for (let i = 1; i < integrations.length; i++) {
                    gmstateDes.append('./destination/' + integrations[i]);
                }
                gmstateDes.write('./destination/' + "theLastOne.jpg", function (err) {
                    if (err) {
                        console.dir(arguments);
                        return cb(err);
                    }
                    console.log(this.outname + " created  ::  " + arguments[3]);
                    return cb(null, 'finish');
                });
            }, 2000);
        });
    });
}
  1. 引進依賴庫踩麦。
  2. 函數(shù)exports.arrange(width, height, cb)的作用是通過指定寬度,高度生成特定大小的圖片氓癌。
    • 清空destination目錄谓谦,目的是保證每次組合圖片的準確性。
    • 根據(jù)新圖片寬度進行分組顽铸,獲取groups變量茁计。
    • 如果變量height大于groups長度,取height作為目標圖片的高度谓松,否則取groups長度作為目標圖片的高度,這是formatGroups變量的作用星压。
    • 組合圖片
      • gmstate.append()函數(shù)的第二個參數(shù)默認是false,標明是從上到下組合圖片鬼譬,true是從左到右組合圖片娜膘。
      • 先把formatGroups中的圖片從左到右進行組合,這是gmstate變量的作用优质,每組組合后竣贪,寫入到相應文件中军洼。
      • 因為這里有多次磁盤讀寫操作,即使是異步執(zhí)行演怎,磁盤更新也不會太及時匕争,因此需要setTimeout()來使程序執(zhí)行放慢速度。
      • 最后把生成的圖片上下組合(gmstateDes變量的作用)爷耀,就可得到想要的圖片甘桑。

最后再來測試一下,執(zhí)行node index.js 1 3 4歹叮,命令行的參數(shù)的意思是說需要拉取1個網(wǎng)頁跑杭,其中新圖片長度是3,高度是4咆耿,看一下newOne.jpg的大小德谅,bingo搞定!!!

newOne.jpg

以上的圖片都是愛情片的海報,快七夕了萨螺,應應景可好窄做?

如果想要拉取其他類型的圖片,改一下loveURL就好屑迂。

老規(guī)矩最后來一個老郭的定場詩浸策。

大將生來膽氣豪 腰橫秋水雁翎刀 
風吹鼉鼓山河動 電閃旌旗日月高 
天上麒麟原有種 穴中螻蟻豈能逃 
太平待詔歸來日 朕與將軍解戰(zhàn)袍
最后編輯于
?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市惹盼,隨后出現(xiàn)的幾起案子庸汗,更是在濱河造成了極大的恐慌,老刑警劉巖手报,帶你破解...
    沈念sama閱讀 206,482評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件蚯舱,死亡現(xiàn)場離奇詭異,居然都是意外死亡掩蛤,警方通過查閱死者的電腦和手機枉昏,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,377評論 2 382
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來揍鸟,“玉大人兄裂,你說我怎么就攤上這事⊙粼澹” “怎么了晰奖?”我有些...
    開封第一講書人閱讀 152,762評論 0 342
  • 文/不壞的土叔 我叫張陵,是天一觀的道長腥泥。 經(jīng)常有香客問我匾南,道長,這世上最難降的妖魔是什么蛔外? 我笑而不...
    開封第一講書人閱讀 55,273評論 1 279
  • 正文 為了忘掉前任蛆楞,我火速辦了婚禮溯乒,結果婚禮上,老公的妹妹穿的比我還像新娘豹爹。我一直安慰自己裆悄,他們只是感情好,可當我...
    茶點故事閱讀 64,289評論 5 373
  • 文/花漫 我一把揭開白布臂聋。 她就那樣靜靜地躺著灯帮,像睡著了一般。 火紅的嫁衣襯著肌膚如雪逻住。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,046評論 1 285
  • 那天迎献,我揣著相機與錄音瞎访,去河邊找鬼。 笑死吁恍,一個胖子當著我的面吹牛扒秸,可吹牛的內容都是我干的。 我是一名探鬼主播冀瓦,決...
    沈念sama閱讀 38,351評論 3 400
  • 文/蒼蘭香墨 我猛地睜開眼伴奥,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了翼闽?” 一聲冷哼從身側響起拾徙,我...
    開封第一講書人閱讀 36,988評論 0 259
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎感局,沒想到半個月后尼啡,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 43,476評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡询微,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 35,948評論 2 324
  • 正文 我和宋清朗相戀三年崖瞭,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片撑毛。...
    茶點故事閱讀 38,064評論 1 333
  • 序言:一個原本活蹦亂跳的男人離奇死亡书聚,死狀恐怖,靈堂內的尸體忽然破棺而出藻雌,到底是詐尸還是另有隱情雌续,我是刑警寧澤,帶...
    沈念sama閱讀 33,712評論 4 323
  • 正文 年R本政府宣布蹦疑,位于F島的核電站西雀,受9級特大地震影響,放射性物質發(fā)生泄漏歉摧。R本人自食惡果不足惜艇肴,卻給世界環(huán)境...
    茶點故事閱讀 39,261評論 3 307
  • 文/蒙蒙 一腔呜、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧再悼,春花似錦核畴、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,264評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至莺奸,卻和暖如春丑孩,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背灭贷。 一陣腳步聲響...
    開封第一講書人閱讀 31,486評論 1 262
  • 我被黑心中介騙來泰國打工温学, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人甚疟。 一個月前我還...
    沈念sama閱讀 45,511評論 2 354
  • 正文 我出身青樓仗岖,卻偏偏與公主長得像,于是被迫代替她去往敵國和親览妖。 傳聞我的和親對象是個殘疾皇子轧拄,可洞房花燭夜當晚...
    茶點故事閱讀 42,802評論 2 345

推薦閱讀更多精彩內容

  • Spring Cloud為開發(fā)人員提供了快速構建分布式系統(tǒng)中一些常見模式的工具(例如配置管理,服務發(fā)現(xiàn)讽膏,斷路器檩电,智...
    卡卡羅2017閱讀 134,599評論 18 139
  • Node.js是目前非常火熱的技術府树,但是它的誕生經(jīng)歷卻很奇特是嗜。 眾所周知,在Netscape設計出JavaScri...
    w_zhuan閱讀 3,607評論 2 41
  • 大家都知道微信要想成為微信開發(fā)者挺尾,必須在微信公眾號后臺配置回調url,也就是開發(fā)者服務器url ,url代表開發(fā)者...
    liangxifeng833閱讀 390評論 0 0
  • 富士達天生的飛灑的體驗式打富士達人適當動態(tài)的手法
    小葵圖文同步閱讀 225評論 0 0
  • Ba la la la ~ 讀者朋友鹅搪,你們好啊,又到了冷鋒時間遭铺,話不多說丽柿,發(fā)車! 1魂挂、數(shù)組的創(chuàng)建 var...
    王飽飽閱讀 228評論 0 1