我的爬蟲日記

實現(xiàn)一個簡單的爬蟲基于 Node.js

用到的模塊

http
mongodb

步驟：
1. 先指定一個 URL嵌器，將該URL放入隊列 urls
2. 取出隊列中的第一個 URL
3. 搜索該URL中的所有 urls
4. 將搜索到的 urls 合并進(jìn) urls 隊列苦锨，將URL放入mongodb數(shù)據(jù)庫
5. 跳到第二步

已知問題：
1. 搜索到的URL沒有進(jìn)行格式的驗證
2. 匹配URL的正則可能會不嚴(yán)謹(jǐn)
3. 沒有把已經(jīng)存在的URL排除掉
4. 存放 url 的隊列意荤，因為是在內(nèi)存中，所以有溢出的可能，且非常可能
5. 有些鏈接是相對鏈接，需要轉(zhuǎn)換成絕對鏈接

結(jié)果：
能夠存到數(shù)據(jù)庫 1100 多條數(shù)據(jù)镀裤，但是有很多是 404 或其他錯誤

可以參考的文章：
基于網(wǎng)絡(luò)爬蟲的有效URL緩存

最后編輯于：2017.12.04 04:41:06

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末穷当，一起剝皮案震驚了整個濱河市，隨后出現(xiàn)的幾起案子淹禾，更是在濱河造成了極大的恐慌馁菜，老刑警劉巖，帶你破解...
沈念sama閱讀 211,290評論 6贊 491
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件铃岔，死亡現(xiàn)場離奇詭異汪疮，居然都是意外死亡，警方通過查閱死者的電腦和手機(jī)毁习，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 90,107評論 2贊 385
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門智嚷，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人纺且，你說我怎么就攤上這事盏道。” “怎么了载碌？”我有些...
開封第一講書人閱讀 156,872評論 0贊 347
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵猜嘱，是天一觀的道長。經(jīng)常有香客問我嫁艇，道長朗伶，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 56,415評論 1贊 283
?港島之戀（遺憾婚禮）
正文為了忘掉前任步咪，我火速辦了婚禮论皆，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘猾漫。我一直安慰自己点晴，他們只是感情好，可當(dāng)我...
茶點(diǎn)故事閱讀 65,453評論 6贊 385
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布悯周。她就那樣靜靜地躺著粒督，像睡著了一般。火紅的嫁衣襯著肌膚如雪队橙。梳的紋絲不亂的頭發(fā)上坠陈，一...
開封第一講書人閱讀 49,784評論 1贊 290
城市分裂傳說
那天萨惑，我揣著相機(jī)與錄音捐康，去河邊找鬼。笑死庸蔼，一個胖子當(dāng)著我的面吹牛解总，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播姐仅，決...
沈念sama閱讀 38,927評論 3贊 406
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼花枫，長吁一口氣：“原來是場噩夢啊……” “哼刻盐！你這毒婦竟也來了？” 一聲冷哼從身側(cè)響起劳翰，我...
開封第一講書人閱讀 37,691評論 0贊 266
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤敦锌，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后佳簸，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體乙墙，經(jīng)...
沈念sama閱讀 44,137評論 1贊 303
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 36,472評論 2贊 326
?白月光啟示錄
正文我和宋清朗相戀三年生均，在試婚紗的時候發(fā)現(xiàn)自己被綠了听想。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點(diǎn)故事閱讀 38,622評論 1贊 340
活死人
序言：一個原本活蹦亂跳的男人離奇死亡马胧，死狀恐怖汉买，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情佩脊，我是刑警寧澤蛙粘，帶...
沈念sama閱讀 34,289評論 4贊 329
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站威彰，受9級特大地震影響组题，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜抱冷，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 39,887評論 3贊 312
男人毒藥：我在死后第九天來索命
文/蒙蒙一崔列、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧旺遮，春花似錦赵讯、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 30,741評論 0贊 21
一樁弒父案边翼，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至鸣剪，卻和暖如春组底，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背筐骇。一陣腳步聲響...
開封第一講書人閱讀 31,977評論 1贊 265
情欲美人皮
我被黑心中介騙來泰國打工债鸡，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留，地道東北人铛纬。一個月前我還...
沈念sama閱讀 46,316評論 2贊 360
代替公主和親
正文我出身青樓厌均，卻偏偏與公主長得像，于是被迫代替她去往敵國和親告唆。傳聞我的和親對象是個殘疾皇子棺弊，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 43,490評論 2贊 348

我的爬蟲日記

實現(xiàn)一個簡單的爬蟲 基于 Node.js

推薦閱讀更多精彩內(nèi)容

實現(xiàn)一個簡單的爬蟲基于 Node.js