網(wǎng)絡(luò)爬蟲
通用爬蟲框架
- 首先從互聯(lián)網(wǎng)頁面中精心選擇一部分網(wǎng)頁,以這些網(wǎng)頁的鏈接地址作為種子URL峭拘,將這些種子URL放入待抓取URL隊(duì)列中勋篓,爬蟲從待抓取URL隊(duì)列依次讀取,并將URL通過DNS解析此熬,把鏈接地址轉(zhuǎn)換為網(wǎng)站服務(wù)器對(duì)應(yīng)的IP地址庭呜。
- 然后將其和網(wǎng)頁相對(duì)路徑名稱交給網(wǎng)頁下載器,網(wǎng)頁下載器負(fù)責(zé)頁面內(nèi)容的下載犀忱。對(duì)于下載到本地的網(wǎng)頁募谎,一方面將下載網(wǎng)頁的URL放入已抓取URL隊(duì)列中,這個(gè)隊(duì)列記載了爬蟲系統(tǒng)已經(jīng)下載過的網(wǎng)頁URL阴汇,以避免網(wǎng)頁的重復(fù)抓取数冬。對(duì)于剛下載的網(wǎng)頁,從中抽取所有包含的鏈接信息鲫寄,并在已經(jīng)抓取URL隊(duì)列中檢查吉执,如果發(fā)現(xiàn)鏈接還沒有抓取過,則將這個(gè)URL放入待抓取URL隊(duì)列尾部地来,在之后的抓取調(diào)度中會(huì)下載這個(gè)URL對(duì)應(yīng)的網(wǎng)頁戳玫。
- 如此這般直到待抓取URL隊(duì)列為空。
大致可將爬蟲劃分為以下3類:
1.批量性爬蟲:有明確的抓取范圍和目標(biāo)未斑,達(dá)到設(shè)定目標(biāo)后咕宿,停止抓取過程。
2.增量型爬蟲:保持持續(xù)抓取,對(duì)抓取到的網(wǎng)頁府阀,定期更新缆镣。
3.垂直型爬蟲:關(guān)注特定主題內(nèi)容或者特定行業(yè)網(wǎng)頁。
優(yōu)秀爬蟲的特性
高性能 可拓展性 健壯性 友好性
寬度優(yōu)先遍歷策略
什么是寬度優(yōu)先遍歷试浙?
將新下載網(wǎng)頁包含的鏈接直接追加到待抓取URL隊(duì)列末尾董瞻。
非完全PageRank策略
對(duì)于已經(jīng)下載的網(wǎng)頁,加上待抓取URL隊(duì)列中的URL一起田巴,形成網(wǎng)頁集合钠糊,在此集合內(nèi)進(jìn)行PageRank計(jì)算,計(jì)算完成后壹哺,將待抓取URL隊(duì)列里的網(wǎng)頁按照PageRank得分高低排序抄伍,接下來依次由高到低抓取。(PageRank是個(gè)全局性算法管宵,就是搜友網(wǎng)頁下載完成后截珍,計(jì)算結(jié)果才是可靠的)
OCIP策略
“在線頁面重要性計(jì)算“ 開始之前,每個(gè)互聯(lián)網(wǎng)頁面都給予相同的”現(xiàn)金“箩朴,每當(dāng)下載了某個(gè)頁面P后岗喉,P將自己擁有的現(xiàn)金平均分配給頁面中包含的鏈接頁面,把自己的現(xiàn)金清空炸庞。
大站優(yōu)先策略
以網(wǎng)站為單位來衡量網(wǎng)頁重要性沈堡,如果哪個(gè)網(wǎng)站等待下載的頁面最多,則優(yōu)先下載這些鏈接
鑒于大型網(wǎng)站往往是著名企業(yè)的內(nèi)容燕雁,網(wǎng)頁質(zhì)量一般較高诞丽,所以這個(gè)思路雖然簡單,但是有一定的依據(jù)拐格。
網(wǎng)頁更新策略
歷史參考策略
過去頻繁更新的網(wǎng)頁僧免,那么將來也會(huì)頻繁更新。
用戶體驗(yàn)策略
聚類抽樣策略
暗網(wǎng)抓取
所謂暗網(wǎng)捏浊,是指目前搜索引擎爬蟲按照常規(guī)方式很難抓取到的互聯(lián)網(wǎng)頁面懂衩。
搜索引擎爬蟲依賴頁面中的鏈接關(guān)系發(fā)現(xiàn)新的頁面,但是很多網(wǎng)站的內(nèi)容是以數(shù)據(jù)庫方式存儲(chǔ)的金踪,典型例子就是一些垂直領(lǐng)域網(wǎng)站浊洞。往往是服務(wù)網(wǎng)站提供組合查詢界面,只有用戶按照需求輸入查詢之后胡岔,才能獲得相關(guān)數(shù)據(jù)法希。
查詢組合問題
富含信息查詢模板:對(duì)于某個(gè)固定的查詢模版來說,如果給模版內(nèi)每個(gè)屬性都賦值靶瘸,形成不同的查詢組合苫亦,提高給垂直搜索引擎毛肋,觀察所有返回頁面的內(nèi)容,如果相互之間內(nèi)容差異較大屋剑,則這個(gè)查詢模版就是富含信息查詢模版润匙。
ISIT算法:首先從一維模版開始,對(duì)一維查詢模版逐個(gè)考察唉匾,看其是否是富含信息查詢模版孕讳,如果是,則將這個(gè)一維模版拓展到二維巍膘,再次考察對(duì)應(yīng)的二維模版卫病,如此類推,逐步增加維數(shù)典徘,直到再也找不到富含信息查詢模板為止。(數(shù)據(jù)挖掘經(jīng)典算法Apriori)
分布式爬蟲
一個(gè)大型分布式爬蟲的3個(gè)層級(jí):分布式數(shù)據(jù)中心益咬,分布式抓取服務(wù)器逮诲,分布式爬蟲程序。
每個(gè)數(shù)據(jù)中心由多臺(tái)高速網(wǎng)絡(luò)連接的抓取服務(wù)器構(gòu)成幽告,每臺(tái)服務(wù)器又可以部署多個(gè)爬蟲程序梅鹦。通過多層級(jí)的分布式爬蟲系統(tǒng),才可能保證抓取數(shù)據(jù)的及時(shí)性和全面性冗锁。
主從式分布式爬蟲
有一臺(tái)專門負(fù)責(zé)對(duì)其他服務(wù)器提供URL分發(fā)服務(wù)齐唆,其他機(jī)器則進(jìn)行實(shí)際的網(wǎng)頁下載。
對(duì)等式分布爬蟲
在對(duì)等分布式爬蟲體系中冻河,服務(wù)器之間不存在分工差異箍邮,每臺(tái)服務(wù)器承擔(dān)相同的功能,各自負(fù)擔(dān)一部分URL抓取工作叨叙。
由于沒有URL服務(wù)器存在锭弊,每臺(tái)抓取服務(wù)器的任務(wù)分工就成為問題。對(duì)網(wǎng)址的主域名進(jìn)行哈希計(jì)算擂错,之后取模味滞,如果計(jì)算所得的值和抓取服務(wù)器編號(hào)匹配,則自己下載該網(wǎng)頁钮呀,否則將該網(wǎng)頁轉(zhuǎn)發(fā)給對(duì)應(yīng)變好的服務(wù)器抓取剑鞍。
由于沒有URL分發(fā)服務(wù)器,所以此種服務(wù)器不存在系統(tǒng)瓶頸爽醋,另外哈希函數(shù)不是針對(duì)整個(gè)URL蚁署,只針對(duì)主域名,所以可以保證同一網(wǎng)站的所有網(wǎng)頁都由同一臺(tái)服務(wù)器抓取蚂四。這樣一方面可以提高下載效率(DNS域名解析可以緩存)形用,另一方面也可以主動(dòng)控制對(duì)某個(gè)網(wǎng)站的訪問速度就轧,避免對(duì)某個(gè)網(wǎng)站訪問壓力過大。
這種體系結(jié)構(gòu)也存在一些缺點(diǎn)田度,假設(shè)在抓取過程中某臺(tái)服務(wù)器宕機(jī)妒御,或者此時(shí)加入一臺(tái)抓取服務(wù)器,因?yàn)槿∧r(shí)m是以服務(wù)器個(gè)數(shù)確定的镇饺,所以此時(shí)m值發(fā)生變化乎莉,導(dǎo)致大部分URL哈希取模后跟著變化,這意味著幾乎所有任務(wù)都需要重新進(jìn)行分配奸笤,無疑資源極大浪費(fèi)惋啃。
放棄哈希取模方式,采用一致性哈希方法確定服務(wù)器的任務(wù)分工监右。一致性哈希將網(wǎng)站的主域名進(jìn)行哈希边灭,映射為一個(gè)范圍在0到2的32次方之間的某個(gè)數(shù)值,大量的網(wǎng)站主域名會(huì)均勻地哈希到這個(gè)數(shù)值區(qū)間健盒,將哈希值首尾相接绒瘦,即認(rèn)為數(shù)值0和最大值重合,這樣可以將其看作有序的環(huán)狀序列扣癣,從數(shù)值0開始惰帽,沿著環(huán)的順時(shí)針方向,哈希值逐漸增大父虑,直到環(huán)的結(jié)尾该酗。而某個(gè)抓取服務(wù)器則負(fù)責(zé)這個(gè)環(huán)狀序列的一個(gè)片段,即落在某個(gè)哈希值范圍內(nèi)的URL都將由該服務(wù)器負(fù)責(zé)下載士嚎。