Python網(wǎng)絡(luò)爬蟲的概念和基本原理

本文的文字及圖片來源于網(wǎng)絡(luò),僅供學(xué)習(xí)糊渊、交流使用,不具有任何商業(yè)用途,版權(quán)歸原作者所有,如有問題請及時聯(lián)系我們以作處理

本文章來自騰訊云作者：Python進階者

本次分享的內(nèi)容主要可分為三塊：

網(wǎng)絡(luò)爬蟲背景
基本概念
基本原理

背景

首先我們來了解下背景宿礁，眾所周知，隨著計算機、互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、云計算等網(wǎng)絡(luò)技術(shù)的風(fēng)起云涌查近，網(wǎng)絡(luò)上的信息呈爆炸式增長。毋庸置疑挤忙，互聯(lián)網(wǎng)上的信息幾乎囊括了社會霜威、文化、政治饭玲、經(jīng)濟侥祭、娛樂等所有話題。

使用傳統(tǒng)數(shù)據(jù)收集機制（如問卷調(diào)查法、訪談法）進行捕獲和采集數(shù)據(jù)矮冬，往往會受經(jīng)費和地域范圍所限谈宛，而且還會因其樣本容量小、信度低等因素導(dǎo)致收集的數(shù)據(jù)往往與客觀事實有所偏頗胎署，有著較大的局限性吆录。這時候網(wǎng)絡(luò)爬蟲作為一個強大的數(shù)據(jù)采集神器應(yīng)運而生了。下面一起來看看網(wǎng)絡(luò)爬蟲的榮耀時刻吧琼牧！

網(wǎng)絡(luò)爬蟲通過統(tǒng)一資源定位符URL (Uniform ResourceLocator)來查找目標網(wǎng)頁恢筝，將用戶所關(guān)注的數(shù)據(jù)內(nèi)容直接返回給用戶，并不需要用戶以瀏覽網(wǎng)頁的形式去獲取信息巨坊，為用戶節(jié)省了時間和精力撬槽，并提高了數(shù)據(jù)采集的準確度，使用戶在海量數(shù)據(jù)中游刃有余趾撵。網(wǎng)絡(luò)爬蟲的最終目的就是從網(wǎng)頁中獲取自己所需的信息侄柔。雖然利用urllib、urllib2占调、re等一些爬蟲基本庫可以開發(fā)一個爬蟲程序暂题，獲取到所需的內(nèi)容，但是所有的爬蟲程序都以這種方式進行編寫究珊，工作量未免太大了些薪者，所有才有了爬蟲框架。使用爬蟲框架可以大大提高效率剿涮，縮短開發(fā)時間言津。

了解了網(wǎng)絡(luò)爬蟲背景和網(wǎng)絡(luò)爬蟲的用途之后，接下來我們一起來了解它的概念知識吧幔虏。

基本概念

網(wǎng)絡(luò)爬蟲（web crawler）又稱為網(wǎng)絡(luò)蜘蛛（web spider）或網(wǎng)絡(luò)機器人（web robot）纺念，另外一些不常使用的名字還有螞蟻、自動索引想括、模擬程序或蠕蟲陷谱，同時它也是“物聯(lián)網(wǎng)”概念的核心之一。網(wǎng)絡(luò)爬蟲本質(zhì)上是一段計算機程序或腳本瑟蜈，其按照一定的邏輯和算法規(guī)則自動地抓取和下載萬維網(wǎng)的網(wǎng)頁烟逊，是搜索引擎的一個重要組成部分。

剛剛講到了網(wǎng)絡(luò)爬蟲的邏輯和算法規(guī)則铺根，下面來給大家分享下網(wǎng)絡(luò)爬蟲的基本原理吧宪躯！

基本原理

字不如表，表不如圖位迂，這里給大家畫出了一個網(wǎng)絡(luò)爬蟲流程簡圖访雪，可以看到原理圖部分详瑞。一般來說的話，網(wǎng)絡(luò)爬蟲是根據(jù)預(yù)先設(shè)定的一個或若干個初始網(wǎng)頁的URL開始臣缀，然后按照一定的規(guī)則爬取網(wǎng)頁坝橡，獲取初始網(wǎng)頁上的URL列表，之后每當抓取一個網(wǎng)頁時精置，爬蟲會提取該網(wǎng)頁新的URL并放入到未爬取的隊列中去计寇，然后循環(huán)的從未爬取的隊列中取出一個URL再次進行新一輪的爬取，不斷的重復(fù)上述過程脂倦，直到隊列中的URL抓取完畢或者達到其他的既定條件番宁，爬蟲才會結(jié)束。

總結(jié)

以上我們簡單闡述了網(wǎng)絡(luò)爬蟲的背景赖阻、基本概念和基本原理蝶押，下面我們來簡單總結(jié)下。

隨著互聯(lián)網(wǎng)信息的與日俱增政供，利用網(wǎng)絡(luò)爬蟲工具來獲取所需信息必有用武之地播聪。使用網(wǎng)絡(luò)爬蟲來采集信息，不僅可以實現(xiàn)對web上信息的高效布隔、準確、自動的獲取稼虎，還利于公司或者研究人員等對采集到的數(shù)據(jù)進行后續(xù)的挖掘分析衅檀。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市霎俩，隨后出現(xiàn)的幾起案子哀军，更是在濱河造成了極大的恐慌，老刑警劉巖打却，帶你破解...
沈念sama閱讀 219,366評論 6贊 508
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件杉适，死亡現(xiàn)場離奇詭異，居然都是意外死亡柳击，警方通過查閱死者的電腦和手機猿推，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 93,521評論 3贊 395
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來捌肴，“玉大人蹬叭，你說我怎么就攤上這事∽粗” “怎么了秽五？”我有些...
開封第一講書人閱讀 165,689評論 0贊 356
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長饥悴。經(jīng)常有香客問我坦喘，道長盲再，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 58,925評論 1贊 295
?港島之戀（遺憾婚禮）
正文為了忘掉前任瓣铣，我火速辦了婚禮答朋，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘坯沪。我一直安慰自己绿映，他們只是感情好，可當我...
茶點故事閱讀 67,942評論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布腐晾。她就那樣靜靜地躺著叉弦，像睡著了一般。火紅的嫁衣襯著肌膚如雪藻糖。梳的紋絲不亂的頭發(fā)上淹冰，一...
開封第一講書人閱讀 51,727評論 1贊 305
城市分裂傳說
那天，我揣著相機與錄音巨柒，去河邊找鬼樱拴。笑死，一個胖子當著我的面吹牛洋满，可吹牛的內(nèi)容都是我干的晶乔。我是一名探鬼主播，決...
沈念sama閱讀 40,447評論 3贊 420
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼牺勾，長吁一口氣：“原來是場噩夢啊……” “哼正罢！你這毒婦竟也來了？” 一聲冷哼從身側(cè)響起驻民，我...
開封第一講書人閱讀 39,349評論 0贊 276
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤翻具，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后回还，有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體裆泳，經(jīng)...
沈念sama閱讀 45,820評論 1贊 317
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 37,990評論 3贊 337
?白月光啟示錄
正文我和宋清朗相戀三年柠硕，在試婚紗的時候發(fā)現(xiàn)自己被綠了工禾。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點故事閱讀 40,127評論 1贊 351
活死人
序言：一個原本活蹦亂跳的男人離奇死亡仅叫，死狀恐怖帜篇，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情诫咱，我是刑警寧澤笙隙，帶...
沈念sama閱讀 35,812評論 5贊 346
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站坎缭，受9級特大地震影響竟痰，放射性物質(zhì)發(fā)生泄漏签钩。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點故事閱讀 41,471評論 3贊 331
男人毒藥：我在死后第九天來索命
文/蒙蒙一坏快、第九天我趴在偏房一處隱蔽的房頂上張望铅檩。院中可真熱鬧，春花似錦莽鸿、人聲如沸昧旨。這莊子的主人今日做“春日...
開封第一講書人閱讀 32,017評論 0贊 22
一樁弒父案祥得，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽兔沃。三九已至，卻和暖如春级及，著一層夾襖步出監(jiān)牢的瞬間乒疏，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 33,142評論 1贊 272
情欲美人皮
我被黑心中介騙來泰國打工饮焦，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留怕吴，地道東北人。一個月前我還...
沈念sama閱讀 48,388評論 3贊 373
代替公主和親
正文我出身青樓县踢，卻偏偏與公主長得像转绷，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子硼啤，可洞房花燭夜當晚...
茶點故事閱讀 45,066評論 2贊 355

Python網(wǎng)絡(luò)爬蟲的概念和基本原理

本次分享的內(nèi)容主要可分為三塊：

背景

基本概念

基本原理

總結(jié)

推薦閱讀更多精彩內(nèi)容