使用 superagent 與 cheerio 完成簡單爬蟲

《使用 superagent 與 cheerio 完成簡單爬蟲》

目標

建立一個 lesson3 項目辣垒,在其中編寫代碼错负。

當在瀏覽器中訪問 http://localhost:3000/ 時玩敏,輸出 CNode(https://cnodejs.org/ ) 社區(qū)首頁的所有帖子標題和鏈接师抄,以 json 的形式二拐。

輸出示例:

[
  {
    "title": "【公告】發(fā)招聘帖的同學留意一下這里",
    "href": "http://cnodejs.org/topic/541ed2d05e28155f24676a12"
  },
  {
    "title": "發(fā)布一款 Sublime Text 下的 JavaScript 語法高亮插件",
    "href": "http://cnodejs.org/topic/54207e2efffeb6de3d61f68f"
  }
]

挑戰(zhàn)

訪問 http://localhost:3000/ 時驰吓,輸出包括主題的作者,

示例:

[
  {
    "title": "【公告】發(fā)招聘帖的同學留意一下這里",
    "href": "http://cnodejs.org/topic/541ed2d05e28155f24676a12",
    "author": "alsotang"
  },
  {
    "title": "發(fā)布一款 Sublime Text 下的 JavaScript 語法高亮插件",
    "href": "http://cnodejs.org/topic/54207e2efffeb6de3d61f68f",
    "author": "otheruser"
  }
]

知識點

  1. 學習使用 superagent 抓取網(wǎng)頁
  2. 學習使用 cheerio 分析網(wǎng)頁

課程內容

Node.js 總是吹牛逼說自己異步特性多么多么厲害履腋,但是對于初學者來說珊燎,要找一個能好好利用異步的場景不容易。我想來想去遵湖,爬蟲的場景就比較適合悔政,沒事就異步并發(fā)地爬幾個網(wǎng)站玩玩。

本來想教大家怎么爬 github 的 api 的延旧,但是 github 有 rate limit 的限制谋国,所以只好犧牲一下 CNode 社區(qū)(國內最專業(yè)的 Node.js 開源技術社區(qū)),教大家怎么去爬它了迁沫。

我們這回需要用到三個依賴芦瘾,分別是 express,superagent 和 cheerio集畅。

先介紹一下近弟,

superagent(http://visionmedia.github.io/superagent/ ) 是個 http 方面的庫,可以發(fā)起 get 或 post 請求挺智。

cheerio(https://github.com/cheeriojs/cheerio ) 大家可以理解成一個 Node.js 版的 jquery祷愉,用來從網(wǎng)頁中以 css selector 取數(shù)據(jù),使用方式跟 jquery 一樣一樣的赦颇。

還記得我們怎么新建一個項目嗎二鳄?

  1. 新建一個文件夾,進去之后 npm init
  2. 安裝依賴 npm install --save PACKAGE_NAME
  3. 寫應用邏輯

我們應用的核心邏輯長這樣

app.get('/', function (req, res, next) {
  // 用 superagent 去抓取 https://cnodejs.org/ 的內容
  superagent.get('https://cnodejs.org/')
    .end(function (err, sres) {
      // 常規(guī)的錯誤處理
      if (err) {
        return next(err);
      }
      // sres.text 里面存儲著網(wǎng)頁的 html 內容媒怯,將它傳給 cheerio.load 之后
      // 就可以得到一個實現(xiàn)了 jquery 接口的變量订讼,我們習慣性地將它命名為 `$`
      // 剩下就都是 jquery 的內容了
      var $ = cheerio.load(sres.text);
      var items = [];
      $('#topic_list .topic_title').each(function (idx, element) {
        var $element = $(element);
        items.push({
          title: $element.attr('title'),
          href: $element.attr('href')
        });
      });

      res.send(items);
    });
});

OK,一個簡單的爬蟲就是這么簡單沪摄。這里我們還沒有利用到 Node.js 的異步并發(fā)特性躯嫉。不過下兩章內容都是關于異步控制的纱烘。

記得好好看看 superagent 的 API,它把鏈式調用的風格玩到了極致祈餐。

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
  • 序言:七十年代末擂啥,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子帆阳,更是在濱河造成了極大的恐慌哺壶,老刑警劉巖,帶你破解...
    沈念sama閱讀 221,331評論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件蜒谤,死亡現(xiàn)場離奇詭異山宾,居然都是意外死亡,警方通過查閱死者的電腦和手機鳍徽,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,372評論 3 398
  • 文/潘曉璐 我一進店門资锰,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人阶祭,你說我怎么就攤上這事绷杜。” “怎么了濒募?”我有些...
    開封第一講書人閱讀 167,755評論 0 360
  • 文/不壞的土叔 我叫張陵鞭盟,是天一觀的道長。 經(jīng)常有香客問我瑰剃,道長齿诉,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 59,528評論 1 296
  • 正文 為了忘掉前任晌姚,我火速辦了婚禮粤剧,結果婚禮上,老公的妹妹穿的比我還像新娘舀凛。我一直安慰自己俊扳,他們只是感情好,可當我...
    茶點故事閱讀 68,526評論 6 397
  • 文/花漫 我一把揭開白布猛遍。 她就那樣靜靜地躺著,像睡著了一般号坡。 火紅的嫁衣襯著肌膚如雪懊烤。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 52,166評論 1 308
  • 那天宽堆,我揣著相機與錄音腌紧,去河邊找鬼。 笑死畜隶,一個胖子當著我的面吹牛壁肋,可吹牛的內容都是我干的号胚。 我是一名探鬼主播,決...
    沈念sama閱讀 40,768評論 3 421
  • 文/蒼蘭香墨 我猛地睜開眼浸遗,長吁一口氣:“原來是場噩夢啊……” “哼猫胁!你這毒婦竟也來了?” 一聲冷哼從身側響起跛锌,我...
    開封第一講書人閱讀 39,664評論 0 276
  • 序言:老撾萬榮一對情侶失蹤弃秆,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后髓帽,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體菠赚,經(jīng)...
    沈念sama閱讀 46,205評論 1 319
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 38,290評論 3 340
  • 正文 我和宋清朗相戀三年郑藏,在試婚紗的時候發(fā)現(xiàn)自己被綠了衡查。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 40,435評論 1 352
  • 序言:一個原本活蹦亂跳的男人離奇死亡必盖,死狀恐怖峡捡,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情筑悴,我是刑警寧澤们拙,帶...
    沈念sama閱讀 36,126評論 5 349
  • 正文 年R本政府宣布,位于F島的核電站阁吝,受9級特大地震影響砚婆,放射性物質發(fā)生泄漏。R本人自食惡果不足惜突勇,卻給世界環(huán)境...
    茶點故事閱讀 41,804評論 3 333
  • 文/蒙蒙 一装盯、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧甲馋,春花似錦埂奈、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,276評論 0 23
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至痊远,卻和暖如春垮抗,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背碧聪。 一陣腳步聲響...
    開封第一講書人閱讀 33,393評論 1 272
  • 我被黑心中介騙來泰國打工冒版, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人逞姿。 一個月前我還...
    沈念sama閱讀 48,818評論 3 376
  • 正文 我出身青樓辞嗡,卻偏偏與公主長得像捆等,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子续室,可洞房花燭夜當晚...
    茶點故事閱讀 45,442評論 2 359

推薦閱讀更多精彩內容