2018-08-13 node 爬蟲

這次分享下node爬蟲,通過實(shí)踐學(xué)習(xí)下后端的一些知識(shí)煌张。

訪問頁面苛白,獲取頁面內(nèi)容

首先我們要像瀏覽器一樣娃豹,可以發(fā)送一個(gè)頁面請(qǐng)求,并且可以解析頁面內(nèi)容购裙。
superagent 是一個(gè)客戶端HTTP請(qǐng)求庫懂版,可以用來模擬瀏覽器發(fā)送請(qǐng)求。
cheerio是一個(gè)轉(zhuǎn)換工具躏率。通過這個(gè)工具躯畴,我們可以用類似jquery的方式查詢和處理獲得的頁面內(nèi)容。

superagent.get('xxx') // 首先訪問文章列表頁禾锤,獲取各個(gè)章節(jié)的url
    .charset('gbk') // 文章內(nèi)容是中文私股,這里設(shè)定字符集
    .end((err, sres) => {
      // 常規(guī)的錯(cuò)誤處理
      if (err) {
        return next(err);
      }
      
      let $ = cheerio.load(sres.text, {decodeEntities: false}); // 通過cheerio實(shí)現(xiàn)jquery接口
      
      let items = [];
       
      $('#content p').each((idx, element) => {
        let $element = $(element);
        items.push({
          title: $element.html(),
          href: $element.href,
        });
      });
      fs.appendFile('./test.txt', 'abc',  (err)=> {  //將獲得的文章列表輸出到文件里
        if(!err) console.log('追加內(nèi)容完成');
      });
      
    });

這樣就獲得了所有章節(jié)的url摹察。
現(xiàn)在開始獲取章節(jié)里的文章內(nèi)容恩掷。原理和獲取文章列表一致,首先通過循環(huán)發(fā)送請(qǐng)求獲取內(nèi)容供嚎。
結(jié)果并沒有獲得所有的章節(jié)黄娘,總是有些章節(jié)丟失峭状。
這下要打些日志看看到底哪里有問題。

日志

通過日志記錄請(qǐng)求文章內(nèi)容時(shí)的具體狀態(tài)逼争,方便排查問題优床。這里使用的是winston,記錄下請(qǐng)求發(fā)送的時(shí)間以及返回狀態(tài)誓焦。

日志級(jí)別

下面羅列了6種日志級(jí)別胆敞,和每種日志的使用場(chǎng)景。

參考文獻(xiàn): https://blog.csdn.net/qq_31332467/article/details/77198158
Verbose: 開發(fā)調(diào)試過程中一些詳細(xì)信息杂伟,不應(yīng)該編譯進(jìn)產(chǎn)品中移层,只在開發(fā)階段使用。(參考api文檔的描述:Verbose should never be compiled into anapplication except during development)
Debug: 用于調(diào)試的信息赫粥,編譯進(jìn)產(chǎn)品,但可以在運(yùn)行時(shí)關(guān)閉。(參考api文檔描述:Debug logs are compiled in but stripped a truntime)
Info:例如一些運(yùn)行時(shí)的狀態(tài)信息尝哆,這些狀態(tài)信息在出現(xiàn)問題的時(shí)候能提供幫助仰禀。
Warn:警告系統(tǒng)出現(xiàn)了異常,即將出現(xiàn)錯(cuò)誤秦叛。
Error:系統(tǒng)已經(jīng)出現(xiàn)了錯(cuò)誤晦溪。

日志設(shè)置


const levels = {  //這個(gè)是日志級(jí)別。在winston里通過設(shè)置level可以設(shè)置哪些級(jí)別的日志可以輸出挣跋。如果設(shè)置成info尼变,則低于2的warn,error也會(huì)被輸出浆劲。
  error: 0, 
  warn: 1, 
  info: 2, 
  verbose: 3, 
  debug: 4, 
  silly: 5 
};
var winston = require("winston")
const logger = winston.createLogger({
  level: 'info',
  format: winston.format.json(), // 日志信息的格式
  transports: [
    //
    // - 將所有info嫌术,warn,error日志輸出到combined.log
    // - 將所有error日志輸出到error.log
    //
    new winston.transports.File({ filename: 'error.log', level: 'error' }),
    new winston.transports.File({ filename: 'combined.log' })
  ]
});

關(guān)于日志格式牌借,可以自定義度气。可以參考下面的代碼膨报。

const { createLogger, format, transports } = require('winston');
const { combine, timestamp, label, printf } = format;

const myFormat = printf(info => {
  return `${info.timestamp} [${info.label}] ${info.level}: ${info.message}`;
});

const logger = createLogger({
  format: combine(
    label({ label: 'right meow!' }),
    timestamp(),
    myFormat
  ),
  transports: [new transports.Console()]
});
// 輸入的日志樣式
2018-08-15T07:16:05.923Z [right meow!] info: 297開始請(qǐng)求頁面

使用方式

// 打日志磷籍,以下兩種方式都可以
logger.log({
  level: 'info',
  message: 'Hello distributed log files!'
});

logger.info('Hello again distributed logs');

結(jié)果分析

通過分析日志,發(fā)現(xiàn)并不是每個(gè)頁面請(qǐng)求成功的回調(diào)都執(zhí)行了现柠。下面這句話也許就是原因院领。

在Node中,長(zhǎng)時(shí)間的CPU占用會(huì)導(dǎo)致后續(xù)的異步I/O發(fā)不出調(diào)用够吩,已完成的I/O的回調(diào)函數(shù)也會(huì)得不到及時(shí)執(zhí)行比然。 -- 深入淺出Node.js

通過async控制并發(fā)

既然并發(fā)太多會(huì)有問題,那么就控制下并發(fā)數(shù)量周循。 使用async這個(gè)庫强法,通過里面的mapLimit方法控制同時(shí)發(fā)送的請(qǐng)求數(shù)目万俗。

async.mapLimit(
    urls, // url數(shù)組
    5, // 設(shè)置同時(shí)發(fā)送的請(qǐng)求數(shù)目上限
    function(url, callback) {
        fetch(url, callback); // 在fetch方法里,當(dāng)頁面返回結(jié)束后饮怯,調(diào)用callback函數(shù)闰歪,表明這個(gè)請(qǐng)求已經(jīng)結(jié)束,這樣就可以發(fā)送下一個(gè)請(qǐng)求蓖墅。
    },
    (err, results) => {
        if (err) throw err;
        console.log(results);
    }
);

這樣就可以獲得所有章節(jié)库倘,可以慢慢看。


在上面提到了论矾,Node服務(wù)每秒只能處理若干請(qǐng)求于樟,即使內(nèi)存,CPU和網(wǎng)絡(luò)都沒有飽和拇囊。

參考文獻(xiàn)

Squeeze the juice out of Node— an exploration of how Node.js handles HTTP connections

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末迂曲,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子寥袭,更是在濱河造成了極大的恐慌路捧,老刑警劉巖,帶你破解...
    沈念sama閱讀 206,214評(píng)論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件传黄,死亡現(xiàn)場(chǎng)離奇詭異杰扫,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)膘掰,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,307評(píng)論 2 382
  • 文/潘曉璐 我一進(jìn)店門章姓,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人识埋,你說我怎么就攤上這事凡伊。” “怎么了窒舟?”我有些...
    開封第一講書人閱讀 152,543評(píng)論 0 341
  • 文/不壞的土叔 我叫張陵系忙,是天一觀的道長(zhǎng)。 經(jīng)常有香客問我惠豺,道長(zhǎng)银还,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 55,221評(píng)論 1 279
  • 正文 為了忘掉前任洁墙,我火速辦了婚禮蛹疯,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘热监。我一直安慰自己捺弦,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,224評(píng)論 5 371
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著羹呵,像睡著了一般骂际。 火紅的嫁衣襯著肌膚如雪疗琉。 梳的紋絲不亂的頭發(fā)上冈欢,一...
    開封第一講書人閱讀 49,007評(píng)論 1 284
  • 那天,我揣著相機(jī)與錄音盈简,去河邊找鬼凑耻。 笑死,一個(gè)胖子當(dāng)著我的面吹牛柠贤,可吹牛的內(nèi)容都是我干的香浩。 我是一名探鬼主播,決...
    沈念sama閱讀 38,313評(píng)論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼臼勉,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼邻吭!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起宴霸,我...
    開封第一講書人閱讀 36,956評(píng)論 0 259
  • 序言:老撾萬榮一對(duì)情侶失蹤囱晴,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后瓢谢,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體畸写,經(jīng)...
    沈念sama閱讀 43,441評(píng)論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 35,925評(píng)論 2 323
  • 正文 我和宋清朗相戀三年氓扛,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了枯芬。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 38,018評(píng)論 1 333
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡采郎,死狀恐怖千所,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情蒜埋,我是刑警寧澤真慢,帶...
    沈念sama閱讀 33,685評(píng)論 4 322
  • 正文 年R本政府宣布,位于F島的核電站理茎,受9級(jí)特大地震影響黑界,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜皂林,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,234評(píng)論 3 307
  • 文/蒙蒙 一朗鸠、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧础倍,春花似錦烛占、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,240評(píng)論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽犹菇。三九已至,卻和暖如春芽卿,著一層夾襖步出監(jiān)牢的瞬間揭芍,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,464評(píng)論 1 261
  • 我被黑心中介騙來泰國(guó)打工卸例, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留称杨,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 45,467評(píng)論 2 352
  • 正文 我出身青樓筷转,卻偏偏與公主長(zhǎng)得像姑原,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子呜舒,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,762評(píng)論 2 345

推薦閱讀更多精彩內(nèi)容

  • Spring Cloud為開發(fā)人員提供了快速構(gòu)建分布式系統(tǒng)中一些常見模式的工具(例如配置管理锭汛,服務(wù)發(fā)現(xiàn),斷路器袭蝗,智...
    卡卡羅2017閱讀 134,599評(píng)論 18 139
  • 一寫長(zhǎng)篇就頭疼唤殴,默默地轉(zhuǎn)向短篇的懷抱,即想即寫呻袭。 決定更新【短篇練習(xí)簿】眨八,以下是目錄。 短一.兄弟短二.詭夢(mèng):無能...
    顏人青閱讀 268評(píng)論 0 1
  • 越是炫耀什么的人越是缺什么左电,和他們比廉侧,你是自降身價(jià)。 1 昨天晚上篓足,有個(gè)姑娘給我的公眾號(hào)后臺(tái)留言: 舍友A特別喜歡...
    徐嗖閱讀 7,018評(píng)論 155 272