Node.js cheerio + request 爬蟲實(shí)戰(zhàn)

項(xiàng)目簡介:

使用 Nodes.js (以下簡稱Node) 完成

  1. 爬取一個(gè)傳統(tǒng)靜態(tài)網(wǎng)站, 用 cheerio 庫做頁面解析
  2. 爬取一個(gè)網(wǎng)絡(luò)API接口數(shù)據(jù)
  3. 使用JSON文件保存所需數(shù)據(jù)
  4. 導(dǎo)出到 excel 或數(shù)據(jù)庫

1. 使用模塊如下:

"dependencies": {
    "cheerio": "^1.0.0-rc.2",
    "dateformat": "^3.0.2"
  }

此外, 使用了 Node 內(nèi)置模塊 fs request

2. 執(zhí)行: 切換到項(xiàng)目目錄

npm test
// 或者
node index.js

3. 項(xiàng)目地址 https://github.com/wiviwiv/web-crawler


流程

構(gòu)造URL ===> 爬取檢查 robots.txt ===> 清洗數(shù)據(jù) ===> 存儲(chǔ)文件

未完待續(xù) 。。国葬。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末向抢,一起剝皮案震驚了整個(gè)濱河市亭饵,隨后出現(xiàn)的幾起案子妥箕,更是在濱河造成了極大的恐慌抒寂,老刑警劉巖洪灯,帶你破解...
    沈念sama閱讀 216,692評論 6 501
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異白群,居然都是意外死亡尚胞,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,482評論 3 392
  • 文/潘曉璐 我一進(jìn)店門帜慢,熙熙樓的掌柜王于貴愁眉苦臉地迎上來笼裳,“玉大人,你說我怎么就攤上這事粱玲」恚” “怎么了?”我有些...
    開封第一講書人閱讀 162,995評論 0 353
  • 文/不壞的土叔 我叫張陵抽减,是天一觀的道長允青。 經(jīng)常有香客問我,道長卵沉,這世上最難降的妖魔是什么颠锉? 我笑而不...
    開封第一講書人閱讀 58,223評論 1 292
  • 正文 為了忘掉前任,我火速辦了婚禮史汗,結(jié)果婚禮上琼掠,老公的妹妹穿的比我還像新娘。我一直安慰自己停撞,他們只是感情好瓷蛙,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,245評論 6 388
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般艰猬。 火紅的嫁衣襯著肌膚如雪横堡。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,208評論 1 299
  • 那天姥宝,我揣著相機(jī)與錄音翅萤,去河邊找鬼恐疲。 笑死腊满,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的培己。 我是一名探鬼主播碳蛋,決...
    沈念sama閱讀 40,091評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼省咨!你這毒婦竟也來了肃弟?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 38,929評論 0 274
  • 序言:老撾萬榮一對情侶失蹤零蓉,失蹤者是張志新(化名)和其女友劉穎笤受,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體敌蜂,經(jīng)...
    沈念sama閱讀 45,346評論 1 311
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡箩兽,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,570評論 2 333
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了章喉。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片汗贫。...
    茶點(diǎn)故事閱讀 39,739評論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖秸脱,靈堂內(nèi)的尸體忽然破棺而出落包,到底是詐尸還是另有隱情,我是刑警寧澤摊唇,帶...
    沈念sama閱讀 35,437評論 5 344
  • 正文 年R本政府宣布咐蝇,位于F島的核電站,受9級(jí)特大地震影響巷查,放射性物質(zhì)發(fā)生泄漏有序。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,037評論 3 326
  • 文/蒙蒙 一吮便、第九天 我趴在偏房一處隱蔽的房頂上張望笔呀。 院中可真熱鬧,春花似錦髓需、人聲如沸许师。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,677評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽微渠。三九已至搭幻,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間逞盆,已是汗流浹背檀蹋。 一陣腳步聲響...
    開封第一講書人閱讀 32,833評論 1 269
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留云芦,地道東北人俯逾。 一個(gè)月前我還...
    沈念sama閱讀 47,760評論 2 369
  • 正文 我出身青樓,卻偏偏與公主長得像舅逸,于是被迫代替她去往敵國和親桌肴。 傳聞我的和親對象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,647評論 2 354

推薦閱讀更多精彩內(nèi)容

  • 網(wǎng)絡(luò)爬蟲開發(fā) 第1章 課程介紹 什么是爬蟲 爬蟲的意義 課程內(nèi)容 前置知識(shí) 什么是爬蟲 可以把互聯(lián)網(wǎng)比做成一張“大...
    強(qiáng)某某閱讀 746評論 0 1
  • 1.基礎(chǔ)知識(shí) 爬蟲爬蟲琉历,是一種自動(dòng)獲取網(wǎng)頁內(nèi)容的程序坠七,是搜索引擎的重要組成部分,因此搜索引擎優(yōu)化很大程度上就是針對...
    JunChow520閱讀 767評論 0 1
  • 自從Node橫空出世后旗笔,很快有人就用它來開發(fā)爬蟲彪置,網(wǎng)上也常見Node爬蟲教程。然而蝇恶,很難看到一個(gè)通用的拳魁、功能豐富的...
    pockry閱讀 13,988評論 3 10
  • 在中醫(yī)院那十字路口等紅綠燈時(shí),曾遇過不下十次這樣的情況艘包。 明明騎著電動(dòng)自行車停在自行車道上的猛,而且還特別靠右的了,后...
    sunny燁兒閱讀 594評論 9 20
  • (前言) 在當(dāng)今“功名為先”的時(shí)代中想虎,成功是每個(gè)人內(nèi)心所期望的卦尊,然而高考一分一千人,大學(xué)生找不到工作的現(xiàn)象都在告訴...
    木梓可可閱讀 156評論 0 1