爬蟲筆記(1):網(wǎng)絡(luò)爬蟲實(shí)現(xiàn)原理與實(shí)現(xiàn)技術(shù)

網(wǎng)絡(luò)爬蟲實(shí)現(xiàn)原理詳解

  • 通用網(wǎng)絡(luò)爬蟲:
    獲取初始的URL;
    根據(jù)初始的URL爬取頁面并獲得新的URL瑟幕;
    將新的URL放到URL隊(duì)列中只盹;
    從URL隊(duì)列中讀取新的URL,并根據(jù)新的URL爬去網(wǎng)頁殖卑,同時(shí)從新網(wǎng)頁中獲取新URL孵稽,重復(fù)上述過程十偶;
    滿足設(shè)置的停止條件時(shí)停止爬取园细。
  • 聚焦網(wǎng)絡(luò)爬蟲:見#395

爬行策略

深度優(yōu)先爬行策略、廣度優(yōu)先爬行策略狮崩、大站優(yōu)先策略鹿寻、反鏈策略、其他

網(wǎng)頁更新策略

網(wǎng)站更新后需要重新爬取坦敌,網(wǎng)站更新的頻率與爬蟲訪問網(wǎng)站的頻率越相近效果越好招刹;
用戶體驗(yàn)策略:優(yōu)先更新排名結(jié)果靠前的網(wǎng)頁
歷史數(shù)據(jù)策略、
聚類分析策略

網(wǎng)頁分析算法

  • 基于用戶行為的網(wǎng)頁分析算法:用戶訪問頻率训柴、訪問時(shí)長(zhǎng)妇拯、單擊率等對(duì)網(wǎng)頁進(jìn)行綜合評(píng)價(jià);
  • 基于網(wǎng)絡(luò)拓?fù)涞木W(wǎng)頁分析算法:鏈接關(guān)系仗嗦、PageRank甘凭;
  • 基于網(wǎng)頁內(nèi)容的網(wǎng)頁分析算法:數(shù)據(jù)丹弱、文本等內(nèi)容特征。

身份識(shí)別

正規(guī)的爬蟲一般會(huì)告訴對(duì)應(yīng)網(wǎng)頁的網(wǎng)站站長(zhǎng)其爬蟲身份蜓洪,網(wǎng)站管理員則可以通過爬蟲告知的身份信息對(duì)爬蟲身份進(jìn)行識(shí)別坯苹。
一般的,會(huì)通過HTTP請(qǐng)求中的User Agent字段告知自己的身份信息恐仑;爬蟲訪問網(wǎng)站時(shí),首先會(huì)根據(jù)該站點(diǎn)下的Robots.txt文件來確定可爬取的網(wǎng)頁范圍菊霜,Robots協(xié)議是需要網(wǎng)絡(luò)爬蟲共同遵守的協(xié)議坚冀。

實(shí)現(xiàn)技術(shù)

  • Python:框架豐富济赎,多線程能力較強(qiáng)鉴逞;
  • Java:大型爬蟲項(xiàng)目;
  • PHP:后端處理很強(qiáng)司训,并發(fā)能力弱构捡;
  • Node.JS:支持高并發(fā)與多線程;
  • C++:運(yùn)行速度極快壳猜,適合大型爬蟲項(xiàng)目勾徽,成本較高;
  • Go:高并發(fā)统扳;
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末喘帚,一起剝皮案震驚了整個(gè)濱河市咒钟,隨后出現(xiàn)的幾起案子吹由,更是在濱河造成了極大的恐慌,老刑警劉巖朱嘴,帶你破解...
    沈念sama閱讀 217,406評(píng)論 6 503
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件倾鲫,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡萍嬉,警方通過查閱死者的電腦和手機(jī)乌昔,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,732評(píng)論 3 393
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來壤追,“玉大人磕道,你說我怎么就攤上這事⌒斜” “怎么了溺蕉?”我有些...
    開封第一講書人閱讀 163,711評(píng)論 0 353
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)资柔。 經(jīng)常有香客問我焙贷,道長(zhǎng),這世上最難降的妖魔是什么贿堰? 我笑而不...
    開封第一講書人閱讀 58,380評(píng)論 1 293
  • 正文 為了忘掉前任辙芍,我火速辦了婚禮,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘故硅。我一直安慰自己庶灿,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,432評(píng)論 6 392
  • 文/花漫 我一把揭開白布吃衅。 她就那樣靜靜地躺著往踢,像睡著了一般。 火紅的嫁衣襯著肌膚如雪徘层。 梳的紋絲不亂的頭發(fā)上峻呕,一...
    開封第一講書人閱讀 51,301評(píng)論 1 301
  • 那天,我揣著相機(jī)與錄音趣效,去河邊找鬼瘦癌。 笑死,一個(gè)胖子當(dāng)著我的面吹牛跷敬,可吹牛的內(nèi)容都是我干的讯私。 我是一名探鬼主播,決...
    沈念sama閱讀 40,145評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼西傀,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼斤寇!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起拥褂,我...
    開封第一講書人閱讀 39,008評(píng)論 0 276
  • 序言:老撾萬榮一對(duì)情侶失蹤娘锁,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后肿仑,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體致盟,經(jīng)...
    沈念sama閱讀 45,443評(píng)論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,649評(píng)論 3 334
  • 正文 我和宋清朗相戀三年尤慰,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了馏锡。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 39,795評(píng)論 1 347
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡伟端,死狀恐怖杯道,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情责蝠,我是刑警寧澤党巾,帶...
    沈念sama閱讀 35,501評(píng)論 5 345
  • 正文 年R本政府宣布,位于F島的核電站霜医,受9級(jí)特大地震影響齿拂,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜肴敛,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,119評(píng)論 3 328
  • 文/蒙蒙 一署海、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧砸狞,春花似錦捻勉、人聲如沸刀森。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,731評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽埠偿。三九已至,卻和暖如春飘哨,著一層夾襖步出監(jiān)牢的瞬間胚想,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 32,865評(píng)論 1 269
  • 我被黑心中介騙來泰國打工芽隆, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人统屈。 一個(gè)月前我還...
    沈念sama閱讀 47,899評(píng)論 2 370
  • 正文 我出身青樓胚吁,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國和親愁憔。 傳聞我的和親對(duì)象是個(gè)殘疾皇子腕扶,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,724評(píng)論 2 354

推薦閱讀更多精彩內(nèi)容

  • 培訓(xùn)計(jì)劃: 爬蟲的概念 網(wǎng)絡(luò)爬蟲(又被稱為網(wǎng)頁蜘蛛,網(wǎng)絡(luò)機(jī)器人吨掌,在FOAF社區(qū)中間半抱,更經(jīng)常的稱為網(wǎng)頁追逐者),是一...
    蜻蜓小子閱讀 1,740評(píng)論 0 0
  • “什么樣的公司會(huì)讓你連5天都呆不下去了?”一個(gè)朋友很好奇地我為什么辭職秋茫,還特意找了個(gè)有意思的地方“陪我去散心”史简。 ...
    姚叔叔閱讀 548評(píng)論 0 0
  • 漫不經(jīng)心的交叉路口, 偶然間肛著,打了個(gè)照面圆兵。 又朝著不同的目的地出發(fā), 走著走著枢贿, 就散了……再見 這一切殉农,后會(huì)無期...
    陳紫杉閱讀 212評(píng)論 0 0
  • 最近容易陷入狂躁超凳。 進(jìn)入新環(huán)境總有些寸步難行的痛苦。 心理暗示: 1、一閑下來聪建,就去任務(wù)清單里面找事做钙畔。 2、一覺...
    牛爸愛學(xué)習(xí)閱讀 356評(píng)論 2 2
  • 這世上的事情,哪有那么多的唾手可得和輕而易舉挥下?你只有最好的努力揍魂,才能更加靠近夢(mèng)想! 人生的每一段旅程中棚瘟,我們總會(huì)遇...
    生活并舞蹈著閱讀 907評(píng)論 3 10