本章節(jié)主要介紹一些常用的和爬蟲有關(guān)的知識(shí)。
從我們?cè)跒g覽器地址欄輸入網(wǎng)址敲下了回車之后到一個(gè)鮮活的網(wǎng)頁(yè)呈現(xiàn)在我們面前這中間究竟發(fā)生了什么呢塑娇?
- DNS查詢
DNS(Domain Name System澜倦,域名系統(tǒng))聚蝶,萬(wàn)維網(wǎng)上作為域名和IP地址相互映射的一個(gè)分布式數(shù)據(jù)庫(kù),能夠使用戶更方便的訪問(wèn)互聯(lián)網(wǎng)藻治,而不用去記住能夠被機(jī)器直接讀取的IP數(shù)串碘勉。通過(guò)域名,最終得到該域名對(duì)應(yīng)的IP地址的過(guò)程叫做域名解析(或主機(jī)名解析)桩卵。DNS協(xié)議運(yùn)行在UDP協(xié)議之上验靡,使用端口號(hào)53。在RFC文檔中RFC 2181對(duì)DNS有規(guī)范說(shuō)明雏节,RFC 2136對(duì)DNS的動(dòng)態(tài)更新進(jìn)行說(shuō)明胜嗓,RFC 2308對(duì)DNS查詢的反向緩存進(jìn)行說(shuō)明。
通俗來(lái)說(shuō)钩乍,我們想去 www.baidu.com
辞州。但是計(jì)算機(jī)之間通信是采用的IP,所以我們必須知道www.baidu.com這個(gè)域名對(duì)應(yīng)的服務(wù)器IP寥粹,于是我們?nèi)ゲ橐幌翫NS变过,就可以知道百度的服務(wù)器IP是多少了埃元。
- HTTP(S)協(xié)議
超文本傳輸協(xié)議(HTTP,HyperText Transfer Protocol)是互聯(lián)網(wǎng)上應(yīng)用最為廣泛的一種網(wǎng)絡(luò)協(xié)議媚狰。所有的WWW文件都必須遵守這個(gè)標(biāo)準(zhǔn)岛杀。設(shè)計(jì)HTTP最初的目的是為了提供一種發(fā)布和接收HTML頁(yè)面的方法。1960年美國(guó)人Ted Nelson構(gòu)思了一種通過(guò)計(jì)算機(jī)處理文本信息的方法崭孤,并稱之為超文本(hypertext),這成為了HTTP超文本傳輸協(xié)議標(biāo)準(zhǔn)架構(gòu)的發(fā)展根基类嗤。Ted Nelson組織協(xié)調(diào)萬(wàn)維網(wǎng)協(xié)會(huì)(World Wide Web Consortium)和互聯(lián)網(wǎng)工程工作小組(Internet Engineering Task Force )共同合作研究,最終發(fā)布了一系列的RFC辨宠,其中著名的RFC 2616定義了HTTP 1.1遗锣。
每一個(gè)完整的http請(qǐng)求,都由一個(gè)request和一個(gè)response組成嗤形。
打開(kāi)瀏覽器黄伊,按了F12進(jìn)入開(kāi)發(fā)者模式,打開(kāi)或者刷新網(wǎng)頁(yè)派殷,切換到network(網(wǎng)絡(luò))就可以看到請(qǐng)求和響應(yīng)的信息了还最。
2.1 request
也就是我們常說(shuō)的請(qǐng)求,這是由我們的客戶端(瀏覽器/爬蟲)發(fā)出的一個(gè)查詢請(qǐng)求毡惜。
request包括的內(nèi)容有:
請(qǐng)求頭:主要是:請(qǐng)求的鏈接(URL)拓轻、客戶端的Cookies、客戶端的名字(UserAgent)经伙、請(qǐng)求的方法(Method)扶叉、請(qǐng)求的參數(shù)(表單)。
請(qǐng)求的body:通常包含了一些要發(fā)送給服務(wù)器的數(shù)據(jù)帕膜,這些數(shù)據(jù)對(duì)用戶是不可見(jiàn)的枣氧,不會(huì)顯示在瀏覽器的地址欄里面。
2.2. response
也就是服務(wù)器返回的響應(yīng)垮刹。
響應(yīng)也包括了響應(yīng)頭达吞、響應(yīng)的body。
在響應(yīng)頭里面通常有操作客戶端Cookies的命令荒典,增加cookie或者刪除cookie酪劫,如果是跳轉(zhuǎn),那么會(huì)有一個(gè)跳轉(zhuǎn)的目標(biāo)網(wǎng)址寺董,瀏覽器發(fā)現(xiàn)了覆糟,就會(huì)自動(dòng)跳轉(zhuǎn)到新的網(wǎng)址去。
響應(yīng)的body遮咖,那就是響應(yīng)的內(nèi)容了滩字,比如說(shuō)網(wǎng)頁(yè)內(nèi)容,js代碼,css代碼麦箍,文件等等酗电。
2.3 綜合知識(shí)
一個(gè)請(qǐng)求對(duì)應(yīng)一個(gè)響應(yīng)。構(gòu)成了一個(gè)完整的HTTP請(qǐng)求内列。
在HTTP headers圖里,我們可以看到有個(gè)General背率,里面有個(gè)StatusCode话瞧,這叫狀態(tài)碼鸯绿。是人為規(guī)定一個(gè)用來(lái)判斷請(qǐng)求狀態(tài)的數(shù)字癞志,常見(jiàn)的就是200,302,403,404.更多狀態(tài)碼詳見(jiàn)HTTP狀態(tài)碼詳解.
常見(jiàn)HTTP狀態(tài)碼的含義:
??200--請(qǐng)求成功
??302--請(qǐng)求跳轉(zhuǎn)
??403--拒絕訪問(wèn)
??404--找不到資源封断。
那么HTTP和HTPPS協(xié)議有什么區(qū)別呢犬缨?HTTPS巩螃,簡(jiǎn)單概括就是升級(jí)版的HTTP協(xié)議捧搞,他最重要的功能察净,就是在HTTP基礎(chǔ)上提高了安全性疆股,基本上可以保證信息不會(huì)被第三方篡改「剩現(xiàn)在網(wǎng)站也基本上都在部署和使用HTTPS了架专。他的基本操作還是和http協(xié)議一樣的,只不過(guò)是傳輸?shù)臄?shù)據(jù)經(jīng)過(guò)了加密傳輸玄帕。
爬蟲如果要獲取到一個(gè)網(wǎng)頁(yè)部脚,那么就一定要發(fā)送一個(gè)HTTP請(qǐng)求,就必須經(jīng)過(guò)這些過(guò)程裤纹。覺(jué)得麻煩嗎委刘?我也覺(jué)得。幸好已經(jīng)有很多很優(yōu)美的庫(kù)鹰椒,幫我們做好了大部分的工作锡移,我們只需要專心我們的邏輯操作就OK了。
所以漆际,感謝前輩大佬們淆珊。
下一節(jié),我們要了解的是 HTML奸汇、CSS套蒂、JS 的相關(guān)知識(shí)。
?
傳送門:
下一章
爬蟲入門教程④— 必備知識(shí)基礎(chǔ)(三)網(wǎng)頁(yè)的構(gòu)成
所有的章節(jié):
- 爬蟲入門教程①— 爬蟲簡(jiǎn)介
- 爬蟲入門教程②— 必備知識(shí)基礎(chǔ)(一)反爬蟲簡(jiǎn)介
- [爬蟲入門教程③— 必備知識(shí)基礎(chǔ)(二)HTTP請(qǐng)求簡(jiǎn)介]
- 爬蟲入門教程④— 必備知識(shí)基礎(chǔ)(三)網(wǎng)頁(yè)的構(gòu)成
- 爬蟲入門教程⑤— 安裝Python
- 爬蟲入門教程⑥— 安裝爬蟲常用工具包
- 爬蟲入門教程⑦— jupyter與requests的初步使用
- 爬蟲入門教程⑧— BeautifulSoup解析豆瓣即將上映的電影信息
- 爬蟲入門教程⑨— 用html和csv文件保存爬取到的數(shù)據(jù)
- 爬蟲入門教程⑩— 用漂亮的圖表展示爬取到的數(shù)據(jù)