01 : 網(wǎng)絡(luò)爬蟲

網(wǎng)絡(luò)爬蟲

通用爬蟲框架

  • 首先從互聯(lián)網(wǎng)頁面中精心選擇一部分網(wǎng)頁,以這些網(wǎng)頁的鏈接地址作為種子URL峭拘,將這些種子URL放入待抓取URL隊(duì)列中勋篓,爬蟲從待抓取URL隊(duì)列依次讀取,并將URL通過DNS解析此熬,把鏈接地址轉(zhuǎn)換為網(wǎng)站服務(wù)器對(duì)應(yīng)的IP地址庭呜。
  • 然后將其和網(wǎng)頁相對(duì)路徑名稱交給網(wǎng)頁下載器,網(wǎng)頁下載器負(fù)責(zé)頁面內(nèi)容的下載犀忱。對(duì)于下載到本地的網(wǎng)頁募谎,一方面將下載網(wǎng)頁的URL放入已抓取URL隊(duì)列中,這個(gè)隊(duì)列記載了爬蟲系統(tǒng)已經(jīng)下載過的網(wǎng)頁URL阴汇,以避免網(wǎng)頁的重復(fù)抓取数冬。對(duì)于剛下載的網(wǎng)頁,從中抽取所有包含的鏈接信息鲫寄,并在已經(jīng)抓取URL隊(duì)列中檢查吉执,如果發(fā)現(xiàn)鏈接還沒有抓取過,則將這個(gè)URL放入待抓取URL隊(duì)列尾部地来,在之后的抓取調(diào)度中會(huì)下載這個(gè)URL對(duì)應(yīng)的網(wǎng)頁戳玫。
  • 如此這般直到待抓取URL隊(duì)列為空。

大致可將爬蟲劃分為以下3類:
1.批量性爬蟲:有明確的抓取范圍和目標(biāo)未斑,達(dá)到設(shè)定目標(biāo)后咕宿,停止抓取過程。
2.增量型爬蟲:保持持續(xù)抓取,對(duì)抓取到的網(wǎng)頁府阀,定期更新缆镣。
3.垂直型爬蟲:關(guān)注特定主題內(nèi)容或者特定行業(yè)網(wǎng)頁。

優(yōu)秀爬蟲的特性

高性能 可拓展性 健壯性 友好性

寬度優(yōu)先遍歷策略

什么是寬度優(yōu)先遍歷试浙?
將新下載網(wǎng)頁包含的鏈接直接追加到待抓取URL隊(duì)列末尾董瞻。

非完全PageRank策略

對(duì)于已經(jīng)下載的網(wǎng)頁,加上待抓取URL隊(duì)列中的URL一起田巴,形成網(wǎng)頁集合钠糊,在此集合內(nèi)進(jìn)行PageRank計(jì)算,計(jì)算完成后壹哺,將待抓取URL隊(duì)列里的網(wǎng)頁按照PageRank得分高低排序抄伍,接下來依次由高到低抓取。(PageRank是個(gè)全局性算法管宵,就是搜友網(wǎng)頁下載完成后截珍,計(jì)算結(jié)果才是可靠的)

OCIP策略

“在線頁面重要性計(jì)算“ 開始之前,每個(gè)互聯(lián)網(wǎng)頁面都給予相同的”現(xiàn)金“箩朴,每當(dāng)下載了某個(gè)頁面P后岗喉,P將自己擁有的現(xiàn)金平均分配給頁面中包含的鏈接頁面,把自己的現(xiàn)金清空炸庞。

大站優(yōu)先策略

以網(wǎng)站為單位來衡量網(wǎng)頁重要性沈堡,如果哪個(gè)網(wǎng)站等待下載的頁面最多,則優(yōu)先下載這些鏈接
鑒于大型網(wǎng)站往往是著名企業(yè)的內(nèi)容燕雁,網(wǎng)頁質(zhì)量一般較高诞丽,所以這個(gè)思路雖然簡單,但是有一定的依據(jù)拐格。

網(wǎng)頁更新策略

歷史參考策略

過去頻繁更新的網(wǎng)頁僧免,那么將來也會(huì)頻繁更新。

用戶體驗(yàn)策略
聚類抽樣策略

暗網(wǎng)抓取

所謂暗網(wǎng)捏浊,是指目前搜索引擎爬蟲按照常規(guī)方式很難抓取到的互聯(lián)網(wǎng)頁面懂衩。
搜索引擎爬蟲依賴頁面中的鏈接關(guān)系發(fā)現(xiàn)新的頁面,但是很多網(wǎng)站的內(nèi)容是以數(shù)據(jù)庫方式存儲(chǔ)的金踪,典型例子就是一些垂直領(lǐng)域網(wǎng)站浊洞。往往是服務(wù)網(wǎng)站提供組合查詢界面,只有用戶按照需求輸入查詢之后胡岔,才能獲得相關(guān)數(shù)據(jù)法希。

查詢組合問題

富含信息查詢模板:對(duì)于某個(gè)固定的查詢模版來說,如果給模版內(nèi)每個(gè)屬性都賦值靶瘸,形成不同的查詢組合苫亦,提高給垂直搜索引擎毛肋,觀察所有返回頁面的內(nèi)容,如果相互之間內(nèi)容差異較大屋剑,則這個(gè)查詢模版就是富含信息查詢模版润匙。
ISIT算法:首先從一維模版開始,對(duì)一維查詢模版逐個(gè)考察唉匾,看其是否是富含信息查詢模版孕讳,如果是,則將這個(gè)一維模版拓展到二維巍膘,再次考察對(duì)應(yīng)的二維模版卫病,如此類推,逐步增加維數(shù)典徘,直到再也找不到富含信息查詢模板為止。(數(shù)據(jù)挖掘經(jīng)典算法Apriori)

分布式爬蟲

一個(gè)大型分布式爬蟲的3個(gè)層級(jí):分布式數(shù)據(jù)中心益咬,分布式抓取服務(wù)器逮诲,分布式爬蟲程序。
每個(gè)數(shù)據(jù)中心由多臺(tái)高速網(wǎng)絡(luò)連接的抓取服務(wù)器構(gòu)成幽告,每臺(tái)服務(wù)器又可以部署多個(gè)爬蟲程序梅鹦。通過多層級(jí)的分布式爬蟲系統(tǒng),才可能保證抓取數(shù)據(jù)的及時(shí)性和全面性冗锁。

主從式分布式爬蟲

有一臺(tái)專門負(fù)責(zé)對(duì)其他服務(wù)器提供URL分發(fā)服務(wù)齐唆,其他機(jī)器則進(jìn)行實(shí)際的網(wǎng)頁下載。

對(duì)等式分布爬蟲

在對(duì)等分布式爬蟲體系中冻河,服務(wù)器之間不存在分工差異箍邮,每臺(tái)服務(wù)器承擔(dān)相同的功能,各自負(fù)擔(dān)一部分URL抓取工作叨叙。
由于沒有URL服務(wù)器存在锭弊,每臺(tái)抓取服務(wù)器的任務(wù)分工就成為問題。對(duì)網(wǎng)址的主域名進(jìn)行哈希計(jì)算擂错,之后取模味滞,如果計(jì)算所得的值和抓取服務(wù)器編號(hào)匹配,則自己下載該網(wǎng)頁钮呀,否則將該網(wǎng)頁轉(zhuǎn)發(fā)給對(duì)應(yīng)變好的服務(wù)器抓取剑鞍。
由于沒有URL分發(fā)服務(wù)器,所以此種服務(wù)器不存在系統(tǒng)瓶頸爽醋,另外哈希函數(shù)不是針對(duì)整個(gè)URL蚁署,只針對(duì)主域名,所以可以保證同一網(wǎng)站的所有網(wǎng)頁都由同一臺(tái)服務(wù)器抓取蚂四。這樣一方面可以提高下載效率(DNS域名解析可以緩存)形用,另一方面也可以主動(dòng)控制對(duì)某個(gè)網(wǎng)站的訪問速度就轧,避免對(duì)某個(gè)網(wǎng)站訪問壓力過大。
這種體系結(jié)構(gòu)也存在一些缺點(diǎn)田度,假設(shè)在抓取過程中某臺(tái)服務(wù)器宕機(jī)妒御,或者此時(shí)加入一臺(tái)抓取服務(wù)器,因?yàn)槿∧r(shí)m是以服務(wù)器個(gè)數(shù)確定的镇饺,所以此時(shí)m值發(fā)生變化乎莉,導(dǎo)致大部分URL哈希取模后跟著變化,這意味著幾乎所有任務(wù)都需要重新進(jìn)行分配奸笤,無疑資源極大浪費(fèi)惋啃。
放棄哈希取模方式,采用一致性哈希方法確定服務(wù)器的任務(wù)分工监右。一致性哈希將網(wǎng)站的主域名進(jìn)行哈希边灭,映射為一個(gè)范圍在0到2的32次方之間的某個(gè)數(shù)值,大量的網(wǎng)站主域名會(huì)均勻地哈希到這個(gè)數(shù)值區(qū)間健盒,將哈希值首尾相接绒瘦,即認(rèn)為數(shù)值0和最大值重合,這樣可以將其看作有序的環(huán)狀序列扣癣,從數(shù)值0開始惰帽,沿著環(huán)的順時(shí)針方向,哈希值逐漸增大父虑,直到環(huán)的結(jié)尾该酗。而某個(gè)抓取服務(wù)器則負(fù)責(zé)這個(gè)環(huán)狀序列的一個(gè)片段,即落在某個(gè)哈希值范圍內(nèi)的URL都將由該服務(wù)器負(fù)責(zé)下載士嚎。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末呜魄,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子莱衩,更是在濱河造成了極大的恐慌耕赘,老刑警劉巖,帶你破解...
    沈念sama閱讀 222,627評(píng)論 6 517
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件膳殷,死亡現(xiàn)場離奇詭異操骡,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)赚窃,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 95,180評(píng)論 3 399
  • 文/潘曉璐 我一進(jìn)店門册招,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人勒极,你說我怎么就攤上這事是掰。” “怎么了辱匿?”我有些...
    開封第一講書人閱讀 169,346評(píng)論 0 362
  • 文/不壞的土叔 我叫張陵键痛,是天一觀的道長炫彩。 經(jīng)常有香客問我,道長絮短,這世上最難降的妖魔是什么江兢? 我笑而不...
    開封第一講書人閱讀 60,097評(píng)論 1 300
  • 正文 為了忘掉前任,我火速辦了婚禮丁频,結(jié)果婚禮上杉允,老公的妹妹穿的比我還像新娘。我一直安慰自己席里,他們只是感情好叔磷,可當(dāng)我...
    茶點(diǎn)故事閱讀 69,100評(píng)論 6 398
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著奖磁,像睡著了一般改基。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上咖为,一...
    開封第一講書人閱讀 52,696評(píng)論 1 312
  • 那天秕狰,我揣著相機(jī)與錄音,去河邊找鬼案疲。 笑死,一個(gè)胖子當(dāng)著我的面吹牛麻养,可吹牛的內(nèi)容都是我干的褐啡。 我是一名探鬼主播,決...
    沈念sama閱讀 41,165評(píng)論 3 422
  • 文/蒼蘭香墨 我猛地睜開眼鳖昌,長吁一口氣:“原來是場噩夢(mèng)啊……” “哼备畦!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起许昨,我...
    開封第一講書人閱讀 40,108評(píng)論 0 277
  • 序言:老撾萬榮一對(duì)情侶失蹤懂盐,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后糕档,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體莉恼,經(jīng)...
    沈念sama閱讀 46,646評(píng)論 1 319
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,709評(píng)論 3 342
  • 正文 我和宋清朗相戀三年速那,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了俐银。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 40,861評(píng)論 1 353
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡端仰,死狀恐怖捶惜,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情荔烧,我是刑警寧澤吱七,帶...
    沈念sama閱讀 36,527評(píng)論 5 351
  • 正文 年R本政府宣布汽久,位于F島的核電站,受9級(jí)特大地震影響踊餐,放射性物質(zhì)發(fā)生泄漏景醇。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 42,196評(píng)論 3 336
  • 文/蒙蒙 一市袖、第九天 我趴在偏房一處隱蔽的房頂上張望啡直。 院中可真熱鬧,春花似錦苍碟、人聲如沸酒觅。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,698評(píng)論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽舷丹。三九已至,卻和暖如春蜓肆,著一層夾襖步出監(jiān)牢的瞬間颜凯,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,804評(píng)論 1 274
  • 我被黑心中介騙來泰國打工仗扬, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留症概,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 49,287評(píng)論 3 379
  • 正文 我出身青樓早芭,卻偏偏與公主長得像彼城,于是被迫代替她去往敵國和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子退个,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,860評(píng)論 2 361

推薦閱讀更多精彩內(nèi)容