爬蟲洪囤,又稱網(wǎng)絡(luò)爬蟲,也叫網(wǎng)頁蜘蛛万皿。
網(wǎng)絡(luò)爬蟲按照系統(tǒng)結(jié)構(gòu)和實現(xiàn)技術(shù)摧找,大致可以分為以下幾種類型:通用網(wǎng)絡(luò)爬蟲(General Purpose Web Crawler)核行、聚焦網(wǎng)絡(luò)爬蟲(Focused Web Crawler)、增量式網(wǎng)絡(luò)爬蟲(Incremental Web Crawler)蹬耘、深層網(wǎng)絡(luò)爬蟲(Deep Web Crawler)芝雪。 實際的網(wǎng)絡(luò)爬蟲系統(tǒng)通常是幾種爬蟲技術(shù)相結(jié)合實現(xiàn)的
1、通用爬蟲
常見就是搜索引擎综苔,無差別的收據(jù)數(shù)據(jù)惩系、存儲、提取關(guān)鍵字如筛,構(gòu)建索引庫堡牡,給用戶提供搜索接口。
爬取流程:
1)初始一批URL杨刨,將這些URL放到待爬取隊列
2)從隊列拉取這些URL晤柄,通過DNS解析IP,對IP對應(yīng)的站點下載HTML頁面妖胀,保存到本地服務(wù)器眾芥颈,爬取完的URL放到已爬取隊列
3)分析網(wǎng)頁內(nèi)容,找出頁面里面的其他關(guān)心的URL鏈接赚抡,繼續(xù)第二部浇借,直到爬取條件結(jié)束。
搜索引擎如何獲取一個新網(wǎng)站的URL:
新網(wǎng)站主動提交給搜索引擎
通過其他網(wǎng)站頁面中設(shè)置的外鏈
搜索引擎和DNS服務(wù)商合作怕品,獲取最新收錄的網(wǎng)站
2、聚焦爬蟲
有針對性的編寫特定領(lǐng)域數(shù)據(jù)的爬取程序巾遭,針對某些類別數(shù)據(jù)采集的爬蟲肉康,是面向主題的爬蟲。
3灼舍、增量式網(wǎng)絡(luò)爬蟲
增量式網(wǎng)絡(luò)爬蟲(Incremental Web Crawler)是 指 對 已 下 載 網(wǎng) 頁 采 取 增 量式更新和只爬行新產(chǎn)生的或者已經(jīng)發(fā)生變化網(wǎng)頁的爬蟲吼和,它能夠在一定程度上保證所爬行的頁面是盡可能新的頁面。 和周期性爬行和刷新頁面的網(wǎng)絡(luò)爬蟲相比骑素,增量式爬蟲只會在需要的時候爬行新產(chǎn)生或發(fā)生更新的頁面 炫乓,并不重新下載沒有發(fā)生變化的頁面,可有效減少數(shù)據(jù)下載量献丑,及時更新已爬行的網(wǎng)頁末捣,減小時間和空間上的耗費,但是增加了爬行算法的復(fù)雜度和實現(xiàn)難度创橄。增量式網(wǎng)絡(luò)爬蟲的體系結(jié)構(gòu)[包含爬行模塊箩做、排序模塊、更新模塊妥畏、本地頁面集邦邦、待爬行 URL 集以及本地頁面URL 集安吁。