爬蟲系列（一）通用爬蟲和聚焦爬蟲

通用爬蟲

通用網(wǎng)絡(luò)爬蟲是捜索引擎抓取系統(tǒng)（Baidu藤抡、Google纺座、Yahoo等）的重要組成部分厉熟。主要目的是將互聯(lián)網(wǎng)上的網(wǎng)頁下載到本地导盅，形成一個(gè)互聯(lián)網(wǎng)內(nèi)容的鏡像備份。

通用搜索引擎（Search Engine）工作原理

通用網(wǎng)絡(luò)爬蟲?從互聯(lián)網(wǎng)中搜集網(wǎng)頁揍瑟，采集信息白翻，這些網(wǎng)頁信息用于為搜索引擎建立索引從而提供支持，它決定著整個(gè)引擎系統(tǒng)的內(nèi)容是否豐富绢片，信息是否即時(shí)滤馍，因此其性能的優(yōu)劣直接影響著搜索引擎的效果。

第一步：抓取網(wǎng)頁

搜索引擎網(wǎng)絡(luò)爬蟲的基本工作流程如下：

? ? ? ? 1. ?首先選取一部分的種子URL底循，將這些URL放入待抓取URL隊(duì)列巢株；

? ? ? ? 2.取出待抓取URL，解析DNS得到主機(jī)的IP熙涤，并將URL對(duì)應(yīng)的網(wǎng)頁下載下來阁苞，存儲(chǔ)進(jìn)已下載網(wǎng)頁庫中，并且將這些URL放進(jìn)已抓取URL隊(duì)列灭袁。

? ? ? ? 3.分析已抓取URL隊(duì)列中的URL猬错，分析其中的其他URL，并且將URL放入待抓取URL隊(duì)列茸歧，從而進(jìn)入下一個(gè)循環(huán)....

搜索引擎如何獲取一個(gè)新網(wǎng)站的URL：

? ? ?1. 新網(wǎng)站向搜索引擎主動(dòng)提交網(wǎng)址：（如百度http://zhanzhang.baidu.com/linksubmit/url）

?????2. 在其他網(wǎng)站上設(shè)置新網(wǎng)站外鏈（盡可能處于搜索引擎爬蟲爬取范圍）

????3. 搜索引擎和DNS解析服務(wù)商(如DNSPod等）合作倦炒，新網(wǎng)站域名將被迅速抓取

但是搜索引擎蜘蛛的爬行是被輸入了一定的規(guī)則的，它需要遵從一些命令或文件的內(nèi)容软瞎，如標(biāo)注為nofollow的鏈接逢唤，或者是Robots協(xié)議。

Robots協(xié)議（也叫爬蟲協(xié)議涤浇、機(jī)器人協(xié)議等）鳖藕，全稱是“網(wǎng)絡(luò)爬蟲排除標(biāo)準(zhǔn)”（Robots Exclusion Protocol），網(wǎng)站通過Robots協(xié)議告訴搜索引擎哪些頁面可以抓取只锭，哪些頁面不能抓取著恩，例如：

????????淘寶網(wǎng)：https://www.taobao.com/robots.txt

????????騰訊網(wǎng)：?http://www.qq.com/robots.txt

第二步：數(shù)據(jù)存儲(chǔ)

????????搜索引擎通過爬蟲爬取到的網(wǎng)頁，將數(shù)據(jù)存入原始頁面數(shù)據(jù)庫蜻展。其中的頁面數(shù)據(jù)與用戶瀏覽器得到的HTML是完全一樣的喉誊。

????????搜索引擎蜘蛛在抓取頁面時(shí)，也做一定的重復(fù)內(nèi)容檢測纵顾，一旦遇到訪問權(quán)重很低的網(wǎng)站上有大量抄襲伍茄、采集或者復(fù)制的內(nèi)容，很可能就不再爬行施逾。

第三步：預(yù)處理

搜索引擎將爬蟲抓取回來的頁面敷矫，進(jìn)行各種步驟的預(yù)處理例获。

提取文字

中文分詞

消除噪音（比如版權(quán)聲明文字、導(dǎo)航條曹仗、廣告等……）

索引處理

鏈接關(guān)系計(jì)算

特殊文件處理

....

除了HTML文件外榨汤，搜索引擎通常還能抓取和索引以文字為基礎(chǔ)的多種文件類型，如 PDF整葡、Word件余、WPS、XLS遭居、PPT啼器、TXT 文件等。我們在搜索結(jié)果中也經(jīng)常會(huì)看到這些文件類型俱萍。

但搜索引擎還不能處理圖片端壳、視頻、Flash 這類非文字內(nèi)容枪蘑，也不能執(zhí)行腳本和程序损谦。

第四步：提供檢索服務(wù)，網(wǎng)站排名

搜索引擎在對(duì)信息進(jìn)行組織和處理后岳颇，為用戶提供關(guān)鍵字檢索服務(wù)照捡，將用戶檢索相關(guān)的信息展示給用戶。

同時(shí)會(huì)根據(jù)頁面的PageRank值（鏈接的訪問量排名）來進(jìn)行網(wǎng)站排名话侧，這樣Rank值高的網(wǎng)站在搜索結(jié)果中會(huì)排名較前栗精，當(dāng)然也可以直接使用 Money 購買搜索引擎網(wǎng)站排名，簡單粗暴瞻鹏。

但是悲立，這些通用性搜索引擎也存在著一定的局限性：

????????通用搜索引擎所返回的結(jié)果都是網(wǎng)頁，而大多情況下新博，網(wǎng)頁里90%的內(nèi)容對(duì)用戶來說都是無用的薪夕。

????????不同領(lǐng)域、不同背景的用戶往往具有不同的檢索目的和需求赫悄，搜索引擎無法提供針對(duì)具體某個(gè)用戶的搜索結(jié)果原献。

????????萬維網(wǎng)數(shù)據(jù)形式的豐富和網(wǎng)絡(luò)技術(shù)的不斷發(fā)展，圖片埂淮、數(shù)據(jù)庫嚼贡、音頻、視頻多媒體等不同數(shù)據(jù)大量出現(xiàn)同诫，通用搜索引擎對(duì)這些文件無能為力，不能很好地發(fā)現(xiàn)和獲取樟澜。

????????通用搜索引擎大多提供基于關(guān)鍵字的檢索误窖，難以支持根據(jù)語義信息提出的查詢叮盘，無法準(zhǔn)確理解用戶的具體需求。

針對(duì)這些情況霹俺，聚焦爬蟲技術(shù)得以廣泛使用柔吼。

聚焦爬蟲

聚焦爬蟲，是"面向特定主題需求"的一種網(wǎng)絡(luò)爬蟲程序丙唧，它與通用搜索引擎爬蟲的區(qū)別在于：?聚焦爬蟲在實(shí)施網(wǎng)頁抓取時(shí)會(huì)對(duì)內(nèi)容進(jìn)行處理篩選愈魏，盡量保證只抓取與需求相關(guān)的網(wǎng)頁信息。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末想际，一起剝皮案震驚了整個(gè)濱河市培漏，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌胡本，老刑警劉巖牌柄，帶你破解...
沈念sama閱讀 218,036評(píng)論 6贊 506
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場離奇詭異侧甫，居然都是意外死亡珊佣，警方通過查閱死者的電腦和手機(jī)，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 93,046評(píng)論 3贊 395
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門披粟，熙熙樓的掌柜王于貴愁眉苦臉地迎上來咒锻，“玉大人，你說我怎么就攤上這事守屉』笸В” “怎么了？”我有些...
開封第一講書人閱讀 164,411評(píng)論 0贊 354
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵胸梆，是天一觀的道長敦捧。經(jīng)常有香客問我，道長碰镜，這世上最難降的妖魔是什么兢卵？我笑而不...
開封第一講書人閱讀 58,622評(píng)論 1贊 293
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮绪颖，結(jié)果婚禮上秽荤，老公的妹妹穿的比我還像新娘。我一直安慰自己柠横，他們只是感情好窃款，可當(dāng)我...
茶點(diǎn)故事閱讀 67,661評(píng)論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著牍氛，像睡著了一般晨继。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上搬俊，一...
開封第一講書人閱讀 51,521評(píng)論 1贊 304
城市分裂傳說
那天紊扬，我揣著相機(jī)與錄音蜒茄，去河邊找鬼。笑死餐屎，一個(gè)胖子當(dāng)著我的面吹牛檀葛，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播腹缩，決...
沈念sama閱讀 40,288評(píng)論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼屿聋，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了藏鹊？” 一聲冷哼從身側(cè)響起润讥，我...
開封第一講書人閱讀 39,200評(píng)論 0贊 276
萬榮殺人案實(shí)錄
序言：老撾萬榮一對(duì)情侶失蹤，失蹤者是張志新（化名）和其女友劉穎伙判，沒想到半個(gè)月后象对，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 45,644評(píng)論 1贊 314
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡宴抚，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,837評(píng)論 3贊 336
?白月光啟示錄
正文我和宋清朗相戀三年勒魔，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片菇曲。...
茶點(diǎn)故事閱讀 39,953評(píng)論 1贊 348
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡冠绢，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出常潮，到底是詐尸還是另有隱情弟胀，我是刑警寧澤，帶...
沈念sama閱讀 35,673評(píng)論 5贊 346
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布喊式，位于F島的核電站孵户，受9級(jí)特大地震影響，放射性物質(zhì)發(fā)生泄漏岔留。R本人自食惡果不足惜夏哭，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,281評(píng)論 3贊 329
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望献联。院中可真熱鬧竖配，春花似錦、人聲如沸里逆。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,889評(píng)論 0贊 22
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽原押。三九已至胁镐，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背希停。一陣腳步聲響...
開封第一講書人閱讀 33,011評(píng)論 1贊 269
情欲美人皮
我被黑心中介騙來泰國打工烁巫，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留，地道東北人宠能。一個(gè)月前我還...
沈念sama閱讀 48,119評(píng)論 3贊 370
代替公主和親
正文我出身青樓，卻偏偏與公主長得像磁餐，于是被迫代替她去往敵國和親违崇。傳聞我的和親對(duì)象是個(gè)殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 44,901評(píng)論 2贊 355