nodejs 簡(jiǎn)單并發(fā)爬蟲

1箩艺、安裝5.0以上的node版本 #推薦使用nvm進(jìn)行node版本控制安裝node相應(yīng)版本遍搞,詳見:http://bubkoo.com/2017/01/08/quick-tip-multiple-versions-node-nvm/

2.項(xiàng)目根目錄下執(zhí)行 npm init 盲赊,然后一直回車即可? #如果node項(xiàng)目根目錄下沒有package.json的情況下盗迟,生成package.json

3劫侧、安裝所需模塊

npm install async --save

npm install cheerio --save

npm install superagent? --save

#async使用node的異步模塊谋国,各種用法詳見:https://github.com/ShaunLan/async

#cheerio將爬蟲獲取的HTML進(jìn)行解析,你可以像使用jQuery一樣的使用它

#superagent關(guān)于http的庫可以進(jìn)行http的get,post等請(qǐng)求

3号阿、爬蟲的過程分析:

① 使用superagent請(qǐng)求要爬蟲的網(wǎng)址

② 獲取到想要爬的HTML內(nèi)容使用cheerio進(jìn)行解析并鸵,再按jQuery獲取數(shù)據(jù)的方式從解析的數(shù)據(jù)中獲取到自己想要爬的數(shù)據(jù)

③ 如果想要并發(fā)異步的去請(qǐng)求要爬蟲的網(wǎng)址則使用async

#可參考:http://blog.didispace.com/nodejspachong/

4、實(shí)踐代碼
var superagent = require('superagent');
var cheerio = require('cheerio');
var async = require('async');

console.log('爬蟲程序開始運(yùn)行......');

superagent
?? ?//待抓取網(wǎng)頁
?? ?.get('http://www.shouce.ren/api/index')
?? ?//設(shè)置Header
?? ?.set('Accept', 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8')
?? ?//返回結(jié)果值
?? ?.end(function(err, res){
?? ??? ?if(err || !res){
?? ??? ??? ?console.log('抓取數(shù)據(jù)失敗');

?? ??? ??? ?return ;
?? ??? ?}

?? ??? ?//解析返回html
?? ??? ?var $ = cheerio.load(res.text);
?? ??? ?var data = [];
?? ??? ?var host = 'www.shouce.ren';

?? ??? ?//遍歷獲取數(shù)據(jù)
?? ??? ?$('#bs-navbar-collapse .width-134').each(function(key, item){
?? ??? ??? ?var title = $(item).text();
?? ??? ??? ?var address = host + $(item).attr('href');

?? ??? ??? ?if(title.trim() && address.trim()){
?? ??? ??? ??? ?data.push({
?? ??? ??? ??? ??? ?'title' : title,
?? ??? ??? ??? ??? ?'address' : address
?? ??? ??? ??? ?});
?? ??? ??? ?}
?? ??? ?})

?? ??? ?var parallel_request_qty = 10;

?? ??? ?if(data.length > 0){
?? ??? ??? ?check_url_access(parallel_request_qty, data);
?? ??? ?}
?? ?});

//并發(fā)請(qǐng)求
function check_url_access(parallel_request_qty, data){
?? ?async.mapLimit(data, parallel_request_qty, function(item, callback){
?? ??? ?var addr = item.address;
?? ??? ?var name = item.title;

?? ??? ?superagent
?? ??? ??? ?.get(addr)
?? ??? ??? ?.set('Accept', 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8')
?? ??? ??? ?.end(function(err, res){
?? ??? ??? ??? ?if(err || !res){
?? ??? ??? ??? ??? ?callback('訪問該URL失敗: ' + addr);
?? ??? ??? ??? ?} else {
?? ??? ??? ??? ??? ?console.log(
?? ??? ??? ??? ??? ??? ?'文檔名稱為:' + name +
?? ??? ??? ??? ??? ??? ?'扔涧,文檔地址為:' + addr +
?? ??? ??? ??? ??? ??? ?'园担,可以成功訪問'
?? ??? ??? ??? ??? ?);

?? ??? ??? ??? ??? ?callback(null, null);
?? ??? ??? ??? ?}
?? ??? ??? ?});

?? ?}, function(err, result){
?? ??? ?if(err){
?? ??? ??? ?console.log(err);
?? ??? ?}
?? ?})
}

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市枯夜,隨后出現(xiàn)的幾起案子弯汰,更是在濱河造成了極大的恐慌,老刑警劉巖湖雹,帶你破解...
    沈念sama閱讀 218,036評(píng)論 6 506
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件蝙泼,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡劝枣,警方通過查閱死者的電腦和手機(jī)汤踏,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,046評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門织鲸,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人溪胶,你說我怎么就攤上這事搂擦。” “怎么了哗脖?”我有些...
    開封第一講書人閱讀 164,411評(píng)論 0 354
  • 文/不壞的土叔 我叫張陵瀑踢,是天一觀的道長(zhǎng)。 經(jīng)常有香客問我才避,道長(zhǎng)橱夭,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,622評(píng)論 1 293
  • 正文 為了忘掉前任桑逝,我火速辦了婚禮棘劣,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘楞遏。我一直安慰自己茬暇,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,661評(píng)論 6 392
  • 文/花漫 我一把揭開白布寡喝。 她就那樣靜靜地躺著糙俗,像睡著了一般。 火紅的嫁衣襯著肌膚如雪预鬓。 梳的紋絲不亂的頭發(fā)上巧骚,一...
    開封第一講書人閱讀 51,521評(píng)論 1 304
  • 那天,我揣著相機(jī)與錄音格二,去河邊找鬼网缝。 笑死,一個(gè)胖子當(dāng)著我的面吹牛蟋定,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播草添,決...
    沈念sama閱讀 40,288評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼驶兜,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來了远寸?” 一聲冷哼從身側(cè)響起抄淑,我...
    開封第一講書人閱讀 39,200評(píng)論 0 276
  • 序言:老撾萬榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎驰后,沒想到半個(gè)月后肆资,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,644評(píng)論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡灶芝,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,837評(píng)論 3 336
  • 正文 我和宋清朗相戀三年郑原,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了唉韭。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 39,953評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡犯犁,死狀恐怖属愤,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情酸役,我是刑警寧澤住诸,帶...
    沈念sama閱讀 35,673評(píng)論 5 346
  • 正文 年R本政府宣布,位于F島的核電站涣澡,受9級(jí)特大地震影響贱呐,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜入桂,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,281評(píng)論 3 329
  • 文/蒙蒙 一奄薇、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧事格,春花似錦惕艳、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,889評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至逢捺,卻和暖如春谁鳍,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背劫瞳。 一陣腳步聲響...
    開封第一講書人閱讀 33,011評(píng)論 1 269
  • 我被黑心中介騙來泰國(guó)打工倘潜, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人志于。 一個(gè)月前我還...
    沈念sama閱讀 48,119評(píng)論 3 370
  • 正文 我出身青樓涮因,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親伺绽。 傳聞我的和親對(duì)象是個(gè)殘疾皇子养泡,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,901評(píng)論 2 355