Python網(wǎng)絡(luò)爬蟲(chóng)之爬取網(wǎng)頁(yè)的含義和URL基本構(gòu)成

最近有點(diǎn)時(shí)間在玩爬蟲(chóng)，看到網(wǎng)上很多喜歡的照片饲宿、電源以及圖書(shū)等資源，心想能不能通過(guò)所學(xué)的Python技術(shù)把它給拿下來(lái)并保存在文件夾中胆描，網(wǎng)上找了一下資料瘫想。發(fā)現(xiàn)，可以通過(guò)網(wǎng)絡(luò)爬蟲(chóng)技術(shù)將網(wǎng)絡(luò)上的資源下載下來(lái)昌讲，爬蟲(chóng)之路即將開(kāi)始国夜，現(xiàn)將手記做下記錄。

一短绸、網(wǎng)絡(luò)爬蟲(chóng)的定義

網(wǎng)絡(luò)爬蟲(chóng)车吹，即Web Spider，是一個(gè)很形象的名字醋闭。

把互聯(lián)網(wǎng)比喻成一個(gè)蜘蛛網(wǎng)窄驹，那么Spider就是在網(wǎng)上爬來(lái)爬去的蜘蛛。網(wǎng)絡(luò)蜘蛛是通過(guò)網(wǎng)頁(yè)的鏈接地址來(lái)尋找網(wǎng)頁(yè)的证逻。從網(wǎng)站某一個(gè)頁(yè)面（通常是首頁(yè)）開(kāi)始乐埠，讀取網(wǎng)頁(yè)的內(nèi)容，找到在網(wǎng)頁(yè)中的其它鏈接地址囚企，然后通過(guò)這些鏈接地址尋找下一個(gè)網(wǎng)頁(yè)丈咐，這樣一直循環(huán)下去，直到把這個(gè)網(wǎng)站所有的網(wǎng)頁(yè)都抓取完為止龙宏。如果把整個(gè)互聯(lián)網(wǎng)當(dāng)成一個(gè)網(wǎng)站棵逊，那么網(wǎng)絡(luò)蜘蛛就可以用這個(gè)原理把互聯(lián)網(wǎng)上所有的網(wǎng)頁(yè)都抓取下來(lái)。這樣看來(lái)银酗，網(wǎng)絡(luò)爬蟲(chóng)就是一個(gè)爬行程序歹河，一個(gè)抓取網(wǎng)頁(yè)的程序。網(wǎng)絡(luò)爬蟲(chóng)的基本操作是抓取網(wǎng)頁(yè)花吟。那么如何才能隨心所欲地獲得自己想要的頁(yè)面秸歧？我們得從URL入手開(kāi)始。

二衅澈、URL的理解和舉例

URL是URI的一個(gè)子集键菱。它是Uniform Resource Locator的縮寫(xiě)，譯為“統(tǒng)一資源定位符”。通俗地說(shuō)经备，URL是Internet上描述信息資源的字符串拭抬，主要用在各種WWW客戶程序和服務(wù)器程序上。采用URL可以用一種統(tǒng)一的格式來(lái)描述各種信息資源侵蒙，包括文件造虎、服務(wù)器的地址和目錄等。URL的一般格式為(帶方括號(hào)[]的為可選項(xiàng))：

protocol :// hostname[:port] / path / [;parameters][?query]#fragment

圖1

URL的格式由三部分組成：?

①第一部分是協(xié)議(或稱為服務(wù)方式)纷闺。

②第二部分是存有該資源的主機(jī)IP地址(有時(shí)也包括端口號(hào))算凿。

③第三部分是主機(jī)資源的具體地址，如目錄和文件名等犁功。

第一部分和第二部分用“://”符號(hào)隔開(kāi)氓轰，

第二部分和第三部分用“/”符號(hào)隔開(kāi)。

第一部分和第二部分是不可缺少的浸卦，第三部分有時(shí)可以省略署鸡。

三、URI和URL的概念和舉例

簡(jiǎn)單的來(lái)講限嫌，URL就是在瀏覽器端輸入的 ? ?http://www.baidu.com ? ?這個(gè)字符串靴庆。在理解URL之前，首先要理解URI的概念怒医。什么是URI炉抒？Web上每種可用的資源，如 HTML文檔裆熙、圖像端礼、視頻片段、程序等都由一個(gè)通用資源標(biāo)志符(Universal Resource Identifier入录， URI)進(jìn)行定位蛤奥。 URI通常由三部分組成：

①訪問(wèn)資源的命名機(jī)制；

②存放資源的主機(jī)名僚稿；

③資源自身的名稱凡桥，由路徑表示。

如后面的URI：http://www.why.com.cn/myhtml/html1223/

我們可以這樣解釋它：

①這是一個(gè)可以通過(guò)HTTP協(xié)議訪問(wèn)的資源蚀同，

②位于主機(jī) www.why.com.cn上缅刽，

③通過(guò)路徑“/html/html1223”訪問(wèn)。

四蠢络、URL和URI簡(jiǎn)單比較

URI屬于URL更低層次的抽象衰猛，一種字符串文本標(biāo)準(zhǔn)。換句話說(shuō)刹孔，URI屬于父類啡省，而URL屬于URI的子類。URL是URI的一個(gè)子集。

URI的定義是：統(tǒng)一資源標(biāo)識(shí)符卦睹；

URL的定義是：統(tǒng)一資源定位符畦戒。

二者的區(qū)別在于，URI表示請(qǐng)求服務(wù)器的路徑结序，定義這么一個(gè)資源障斋。而URL同時(shí)說(shuō)明要如何訪問(wèn)這個(gè)資源（http://）。

五徐鹤、瀏覽網(wǎng)頁(yè)的過(guò)程

抓取網(wǎng)頁(yè)的過(guò)程其實(shí)和讀者平時(shí)使用IE瀏覽器瀏覽網(wǎng)頁(yè)的道理是一樣的垃环。比如說(shuō)你在瀏覽器的地址欄中輸入 ? ?www.baidu.com ? ?這個(gè)地址。打開(kāi)網(wǎng)頁(yè)的過(guò)程其實(shí)就是瀏覽器作為一個(gè)瀏覽的“客戶端”凳干，向服務(wù)器端發(fā)送了一次請(qǐng)求晴裹，把服務(wù)器端的文件“抓”到本地被济，再進(jìn)行解釋救赐、展現(xiàn)。HTML是一種標(biāo)記語(yǔ)言只磷，用標(biāo)簽標(biāo)記內(nèi)容并加以解析和區(qū)分经磅。瀏覽器的功能是將獲取到的HTML代碼進(jìn)行解析，然后將原始的代碼轉(zhuǎn)變成我們直接看到的網(wǎng)站頁(yè)面钮追。

圖2

爬蟲(chóng)最主要的處理對(duì)象就是URL预厌，它根據(jù)URL地址取得所需要的文件內(nèi)容，然后對(duì)爬取的數(shù)據(jù)進(jìn)行進(jìn)一步的處理元媚。因此轧叽，準(zhǔn)確地理解URL對(duì)理解網(wǎng)絡(luò)爬蟲(chóng)至關(guān)重要。

資料參考python爬蟲(chóng)入門(mén)教程

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末刊棕，一起剝皮案震驚了整個(gè)濱河市炭晒，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌甥角，老刑警劉巖网严，帶你破解...
沈念sama閱讀 218,284評(píng)論 6贊 506
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場(chǎng)離奇詭異嗤无，居然都是意外死亡震束，警方通過(guò)查閱死者的電腦和手機(jī)，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 93,115評(píng)論 3贊 395
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門(mén)当犯，熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)垢村，“玉大人，你說(shuō)我怎么就攤上這事嚎卫〖嗡ǎ” “怎么了？”我有些...
開(kāi)封第一講書(shū)人閱讀 164,614評(píng)論 0贊 354
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長(zhǎng)胸懈。經(jīng)常有香客問(wèn)我担扑，道長(zhǎng)，這世上最難降的妖魔是什么趣钱？我笑而不...
開(kāi)封第一講書(shū)人閱讀 58,671評(píng)論 1贊 293
?港島之戀（遺憾婚禮）
正文為了忘掉前任涌献，我火速辦了婚禮，結(jié)果婚禮上首有，老公的妹妹穿的比我還像新娘燕垃。我一直安慰自己，他們只是感情好，可當(dāng)我...
茶點(diǎn)故事閱讀 67,699評(píng)論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來(lái)的
文/花漫我一把揭開(kāi)白布果港。她就那樣靜靜地躺著最岗，像睡著了一般。火紅的嫁衣襯著肌膚如雪轴捎。梳的紋絲不亂的頭發(fā)上，一...
開(kāi)封第一講書(shū)人閱讀 51,562評(píng)論 1贊 305
城市分裂傳說(shuō)
那天蚕脏，我揣著相機(jī)與錄音侦副，去河邊找鬼。笑死驼鞭，一個(gè)胖子當(dāng)著我的面吹牛秦驯，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播挣棕，決...
沈念sama閱讀 40,309評(píng)論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開(kāi)眼译隘，長(zhǎng)吁一口氣：“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼！你這毒婦竟也來(lái)了洛心？” 一聲冷哼從身側(cè)響起固耘，我...
開(kāi)封第一講書(shū)人閱讀 39,223評(píng)論 0贊 276
萬(wàn)榮殺人案實(shí)錄
序言：老撾萬(wàn)榮一對(duì)情侶失蹤，失蹤者是張志新（化名）和其女友劉穎皂甘，沒(méi)想到半個(gè)月后玻驻，有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 45,668評(píng)論 1贊 314
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡偿枕，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,859評(píng)論 3贊 336
?白月光啟示錄
正文我和宋清朗相戀三年璧瞬，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片渐夸。...
茶點(diǎn)故事閱讀 39,981評(píng)論 1贊 348
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡嗤锉，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出墓塌，到底是詐尸還是另有隱情瘟忱，我是刑警寧澤奥额，帶...
沈念sama閱讀 35,705評(píng)論 5贊 347
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站访诱，受9級(jí)特大地震影響垫挨，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜触菜，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,310評(píng)論 3贊 330
男人毒藥：我在死后第九天來(lái)索命
文/蒙蒙一九榔、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧涡相，春花似錦哲泊、人聲如沸。這莊子的主人今日做“春日...
開(kāi)封第一講書(shū)人閱讀 31,904評(píng)論 0贊 22
一樁弒父案切威，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)。三九已至丙号，卻和暖如春先朦，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背槽袄。一陣腳步聲響...
開(kāi)封第一講書(shū)人閱讀 33,023評(píng)論 1贊 270
情欲美人皮
我被黑心中介騙來(lái)泰國(guó)打工烙无，沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留锋谐，地道東北人遍尺。一個(gè)月前我還...
沈念sama閱讀 48,146評(píng)論 3贊 370
代替公主和親
正文我出身青樓，卻偏偏與公主長(zhǎng)得像涮拗，于是被迫代替她去往敵國(guó)和親乾戏。傳聞我的和親對(duì)象是個(gè)殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 44,933評(píng)論 2贊 355

Python網(wǎng)絡(luò)爬蟲(chóng)之爬取網(wǎng)頁(yè)的含義和URL基本構(gòu)成

推薦閱讀更多精彩內(nèi)容