Python網(wǎng)絡(luò)爬蟲的概念和基本原理

本文的文字及圖片來源于網(wǎng)絡(luò),僅供學(xué)習(xí)糊渊、交流使用,不具有任何商業(yè)用途,版權(quán)歸原作者所有,如有問題請及時聯(lián)系我們以作處理

本文章來自騰訊云 作者:Python進階者

本次分享的內(nèi)容主要可分為三塊:

網(wǎng)絡(luò)爬蟲背景
基本概念
基本原理

背景

首先我們來了解下背景宿礁,眾所周知,隨著計算機、互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、云計算等網(wǎng)絡(luò)技術(shù)的風(fēng)起云涌查近,網(wǎng)絡(luò)上的信息呈爆炸式增長。毋庸置疑挤忙,互聯(lián)網(wǎng)上的信息幾乎囊括了社會霜威、文化、政治饭玲、經(jīng)濟侥祭、娛樂等所有話題。

使用傳統(tǒng)數(shù)據(jù)收集機制(如問卷調(diào)查法、訪談法)進行捕獲和采集數(shù)據(jù)矮冬,往往會受經(jīng)費和地域范圍所限谈宛,而且還會因其樣本容量小、信度低等因素導(dǎo)致收集的數(shù)據(jù)往往與客觀事實有所偏頗胎署,有著較大的局限性吆录。這時候網(wǎng)絡(luò)爬蟲作為一個強大的數(shù)據(jù)采集神器應(yīng)運而生了。下面一起來看看網(wǎng)絡(luò)爬蟲的榮耀時刻吧琼牧!

網(wǎng)絡(luò)爬蟲通過統(tǒng)一資源定位符URL (Uniform ResourceLocator)來查找目標網(wǎng)頁恢筝,將用戶所關(guān)注的數(shù)據(jù)內(nèi)容直接返回給用戶,并不需要用戶以瀏覽網(wǎng)頁的形式去獲取信息巨坊,為用戶節(jié)省了時間和精力撬槽,并提高了數(shù)據(jù)采集的準確度,使用戶在海量數(shù)據(jù)中游刃有余趾撵。網(wǎng)絡(luò)爬蟲的最終目的就是從網(wǎng)頁中獲取自己所需的信息侄柔。雖然利用urllib、urllib2占调、re等一些爬蟲基本庫可以開發(fā)一個爬蟲程序暂题,獲取到所需的內(nèi)容,但是所有的爬蟲程序都以這種方式進行編寫究珊,工作量未免太大了些薪者,所有才有了爬蟲框架。使用爬蟲框架可以大大提高效率剿涮,縮短開發(fā)時間言津。

了解了網(wǎng)絡(luò)爬蟲背景和網(wǎng)絡(luò)爬蟲的用途之后,接下來我們一起來了解它的概念知識吧幔虏。

基本概念

網(wǎng)絡(luò)爬蟲(web crawler)又稱為網(wǎng)絡(luò)蜘蛛(web spider)或網(wǎng)絡(luò)機器人(web robot)纺念,另外一些不常使用的名字還有螞蟻、自動索引想括、模擬程序或蠕蟲陷谱,同時它也是“物聯(lián)網(wǎng)”概念的核心之一。網(wǎng)絡(luò)爬蟲本質(zhì)上是一段計算機程序或腳本瑟蜈,其按照一定的邏輯和算法規(guī)則自動地抓取和下載萬維網(wǎng)的網(wǎng)頁烟逊,是搜索引擎的一個重要組成部分。

剛剛講到了網(wǎng)絡(luò)爬蟲的邏輯和算法規(guī)則铺根,下面來給大家分享下網(wǎng)絡(luò)爬蟲的基本原理吧宪躯!

基本原理

字不如表,表不如圖位迂,這里給大家畫出了一個網(wǎng)絡(luò)爬蟲流程簡圖访雪,可以看到原理圖部分详瑞。一般來說的話,網(wǎng)絡(luò)爬蟲是根據(jù)預(yù)先設(shè)定的一個或若干個初始網(wǎng)頁的URL開始臣缀,然后按照一定的規(guī)則爬取網(wǎng)頁坝橡,獲取初始網(wǎng)頁上的URL列表,之后每當抓取一個網(wǎng)頁時精置,爬蟲會提取該網(wǎng)頁新的URL并放入到未爬取的隊列中去计寇,然后循環(huán)的從未爬取的隊列中取出一個URL再次進行新一輪的爬取,不斷的重復(fù)上述過程脂倦,直到隊列中的URL抓取完畢或者達到其他的既定條件番宁,爬蟲才會結(jié)束。

總結(jié)

以上我們簡單闡述了網(wǎng)絡(luò)爬蟲的背景赖阻、基本概念和基本原理蝶押,下面我們來簡單總結(jié)下。

隨著互聯(lián)網(wǎng)信息的與日俱增政供,利用網(wǎng)絡(luò)爬蟲工具來獲取所需信息必有用武之地播聪。使用網(wǎng)絡(luò)爬蟲來采集信息,不僅可以實現(xiàn)對web上信息的高效布隔、準確、自動的獲取稼虎,還利于公司或者研究人員等對采集到的數(shù)據(jù)進行后續(xù)的挖掘分析衅檀。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市霎俩,隨后出現(xiàn)的幾起案子哀军,更是在濱河造成了極大的恐慌,老刑警劉巖打却,帶你破解...
    沈念sama閱讀 219,366評論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件杉适,死亡現(xiàn)場離奇詭異,居然都是意外死亡柳击,警方通過查閱死者的電腦和手機猿推,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,521評論 3 395
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來捌肴,“玉大人蹬叭,你說我怎么就攤上這事∽粗” “怎么了秽五?”我有些...
    開封第一講書人閱讀 165,689評論 0 356
  • 文/不壞的土叔 我叫張陵,是天一觀的道長饥悴。 經(jīng)常有香客問我坦喘,道長盲再,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,925評論 1 295
  • 正文 為了忘掉前任瓣铣,我火速辦了婚禮答朋,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘坯沪。我一直安慰自己绿映,他們只是感情好,可當我...
    茶點故事閱讀 67,942評論 6 392
  • 文/花漫 我一把揭開白布腐晾。 她就那樣靜靜地躺著叉弦,像睡著了一般。 火紅的嫁衣襯著肌膚如雪藻糖。 梳的紋絲不亂的頭發(fā)上淹冰,一...
    開封第一講書人閱讀 51,727評論 1 305
  • 那天,我揣著相機與錄音巨柒,去河邊找鬼樱拴。 笑死,一個胖子當著我的面吹牛洋满,可吹牛的內(nèi)容都是我干的晶乔。 我是一名探鬼主播,決...
    沈念sama閱讀 40,447評論 3 420
  • 文/蒼蘭香墨 我猛地睜開眼牺勾,長吁一口氣:“原來是場噩夢啊……” “哼正罢!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起驻民,我...
    開封第一講書人閱讀 39,349評論 0 276
  • 序言:老撾萬榮一對情侶失蹤翻具,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后回还,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體裆泳,經(jīng)...
    沈念sama閱讀 45,820評論 1 317
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,990評論 3 337
  • 正文 我和宋清朗相戀三年柠硕,在試婚紗的時候發(fā)現(xiàn)自己被綠了工禾。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 40,127評論 1 351
  • 序言:一個原本活蹦亂跳的男人離奇死亡仅叫,死狀恐怖帜篇,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情诫咱,我是刑警寧澤笙隙,帶...
    沈念sama閱讀 35,812評論 5 346
  • 正文 年R本政府宣布,位于F島的核電站坎缭,受9級特大地震影響竟痰,放射性物質(zhì)發(fā)生泄漏签钩。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 41,471評論 3 331
  • 文/蒙蒙 一坏快、第九天 我趴在偏房一處隱蔽的房頂上張望铅檩。 院中可真熱鬧,春花似錦莽鸿、人聲如沸昧旨。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,017評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽兔沃。三九已至,卻和暖如春级及,著一層夾襖步出監(jiān)牢的瞬間乒疏,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,142評論 1 272
  • 我被黑心中介騙來泰國打工饮焦, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留怕吴,地道東北人。 一個月前我還...
    沈念sama閱讀 48,388評論 3 373
  • 正文 我出身青樓县踢,卻偏偏與公主長得像转绷,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子硼啤,可洞房花燭夜當晚...
    茶點故事閱讀 45,066評論 2 355

推薦閱讀更多精彩內(nèi)容