爬蟲入門教程③— 必備知識(shí)基礎(chǔ)(二)HTTP請(qǐng)求簡(jiǎn)介

本章節(jié)主要介紹一些常用的和爬蟲有關(guān)的知識(shí)。

從我們?cè)跒g覽器地址欄輸入網(wǎng)址敲下了回車之后到一個(gè)鮮活的網(wǎng)頁(yè)呈現(xiàn)在我們面前這中間究竟發(fā)生了什么呢塑娇？

一次HTTP訪問(wèn)流程

DNS查詢

DNS（Domain Name System澜倦，域名系統(tǒng)）聚蝶，萬(wàn)維網(wǎng)上作為域名和IP地址相互映射的一個(gè)分布式數(shù)據(jù)庫(kù)，能夠使用戶更方便的訪問(wèn)互聯(lián)網(wǎng)藻治，而不用去記住能夠被機(jī)器直接讀取的IP數(shù)串碘勉。通過(guò)域名，最終得到該域名對(duì)應(yīng)的IP地址的過(guò)程叫做域名解析（或主機(jī)名解析）桩卵。DNS協(xié)議運(yùn)行在UDP協(xié)議之上验靡，使用端口號(hào)53。在RFC文檔中RFC 2181對(duì)DNS有規(guī)范說(shuō)明雏节，RFC 2136對(duì)DNS的動(dòng)態(tài)更新進(jìn)行說(shuō)明胜嗓，RFC 2308對(duì)DNS查詢的反向緩存進(jìn)行說(shuō)明。

通俗來(lái)說(shuō)钩乍，我們想去 www.baidu.com辞州。但是計(jì)算機(jī)之間通信是采用的IP，所以我們必須知道www.baidu.com這個(gè)域名對(duì)應(yīng)的服務(wù)器IP寥粹，于是我們?nèi)ゲ橐幌翫NS变过，就可以知道百度的服務(wù)器IP是多少了埃元。

HTTP(S)協(xié)議

超文本傳輸協(xié)議（HTTP，HyperText Transfer Protocol)是互聯(lián)網(wǎng)上應(yīng)用最為廣泛的一種網(wǎng)絡(luò)協(xié)議媚狰。所有的WWW文件都必須遵守這個(gè)標(biāo)準(zhǔn)岛杀。設(shè)計(jì)HTTP最初的目的是為了提供一種發(fā)布和接收HTML頁(yè)面的方法。1960年美國(guó)人Ted Nelson構(gòu)思了一種通過(guò)計(jì)算機(jī)處理文本信息的方法崭孤，并稱之為超文本（hypertext）,這成為了HTTP超文本傳輸協(xié)議標(biāo)準(zhǔn)架構(gòu)的發(fā)展根基类嗤。Ted Nelson組織協(xié)調(diào)萬(wàn)維網(wǎng)協(xié)會(huì)（World Wide Web Consortium）和互聯(lián)網(wǎng)工程工作小組（Internet Engineering Task Force ）共同合作研究，最終發(fā)布了一系列的RFC辨宠，其中著名的RFC 2616定義了HTTP 1.1遗锣。

每一個(gè)完整的http請(qǐng)求，都由一個(gè)request和一個(gè)response組成嗤形。
打開(kāi)瀏覽器黄伊，按了F12進(jìn)入開(kāi)發(fā)者模式，打開(kāi)或者刷新網(wǎng)頁(yè)派殷，切換到network(網(wǎng)絡(luò))就可以看到請(qǐng)求和響應(yīng)的信息了还最。
2.1 request
也就是我們常說(shuō)的請(qǐng)求，這是由我們的客戶端(瀏覽器/爬蟲)發(fā)出的一個(gè)查詢請(qǐng)求毡惜。
request包括的內(nèi)容有：
請(qǐng)求頭：主要是：請(qǐng)求的鏈接(URL)拓轻、客戶端的Cookies、客戶端的名字(UserAgent)经伙、請(qǐng)求的方法(Method)扶叉、請(qǐng)求的參數(shù)(表單)。
請(qǐng)求的body：通常包含了一些要發(fā)送給服務(wù)器的數(shù)據(jù)帕膜，這些數(shù)據(jù)對(duì)用戶是不可見(jiàn)的枣氧，不會(huì)顯示在瀏覽器的地址欄里面。

HTTP headers

2.2. response
也就是服務(wù)器返回的響應(yīng)垮刹。
響應(yīng)也包括了響應(yīng)頭达吞、響應(yīng)的body。
在響應(yīng)頭里面通常有操作客戶端Cookies的命令荒典，增加cookie或者刪除cookie酪劫，如果是跳轉(zhuǎn)，那么會(huì)有一個(gè)跳轉(zhuǎn)的目標(biāo)網(wǎng)址寺董，瀏覽器發(fā)現(xiàn)了覆糟，就會(huì)自動(dòng)跳轉(zhuǎn)到新的網(wǎng)址去。
響應(yīng)的body遮咖，那就是響應(yīng)的內(nèi)容了滩字，比如說(shuō)網(wǎng)頁(yè)內(nèi)容，js代碼，css代碼麦箍，文件等等酗电。

響應(yīng)的body

2.3 綜合知識(shí)
一個(gè)請(qǐng)求對(duì)應(yīng)一個(gè)響應(yīng)。構(gòu)成了一個(gè)完整的HTTP請(qǐng)求内列。
在HTTP headers圖里，我們可以看到有個(gè)General背率，里面有個(gè)StatusCode话瞧，這叫狀態(tài)碼鸯绿。是人為規(guī)定一個(gè)用來(lái)判斷請(qǐng)求狀態(tài)的數(shù)字癞志，常見(jiàn)的就是200,302,403,404.更多狀態(tài)碼詳見(jiàn)HTTP狀態(tài)碼詳解.
常見(jiàn)HTTP狀態(tài)碼的含義：
??200--請(qǐng)求成功
??302--請(qǐng)求跳轉(zhuǎn)
??403--拒絕訪問(wèn)
??404--找不到資源封断。

那么HTTP和HTPPS協(xié)議有什么區(qū)別呢犬缨？HTTPS巩螃，簡(jiǎn)單概括就是升級(jí)版的HTTP協(xié)議捧搞，他最重要的功能察净，就是在HTTP基礎(chǔ)上提高了安全性疆股，基本上可以保證信息不會(huì)被第三方篡改「剩現(xiàn)在網(wǎng)站也基本上都在部署和使用HTTPS了架专。他的基本操作還是和http協(xié)議一樣的，只不過(guò)是傳輸?shù)臄?shù)據(jù)經(jīng)過(guò)了加密傳輸玄帕。

爬蟲如果要獲取到一個(gè)網(wǎng)頁(yè)部脚，那么就一定要發(fā)送一個(gè)HTTP請(qǐng)求，就必須經(jīng)過(guò)這些過(guò)程裤纹。覺(jué)得麻煩嗎委刘？我也覺(jué)得。幸好已經(jīng)有很多很優(yōu)美的庫(kù)鹰椒，幫我們做好了大部分的工作锡移，我們只需要專心我們的邏輯操作就OK了。
所以漆际，感謝前輩大佬們淆珊。

下一節(jié)，我們要了解的是 HTML奸汇、CSS套蒂、JS 的相關(guān)知識(shí)。

傳送門：

下一章
爬蟲入門教程④— 必備知識(shí)基礎(chǔ)(三)網(wǎng)頁(yè)的構(gòu)成

所有的章節(jié):

爬蟲入門教程①— 爬蟲簡(jiǎn)介
爬蟲入門教程②— 必備知識(shí)基礎(chǔ)(一)反爬蟲簡(jiǎn)介
[爬蟲入門教程③— 必備知識(shí)基礎(chǔ)(二)HTTP請(qǐng)求簡(jiǎn)介]
爬蟲入門教程④— 必備知識(shí)基礎(chǔ)(三)網(wǎng)頁(yè)的構(gòu)成
爬蟲入門教程⑤— 安裝Python
爬蟲入門教程⑥— 安裝爬蟲常用工具包
爬蟲入門教程⑦— jupyter與requests的初步使用
爬蟲入門教程⑧— BeautifulSoup解析豆瓣即將上映的電影信息
爬蟲入門教程⑨— 用html和csv文件保存爬取到的數(shù)據(jù)
爬蟲入門教程⑩— 用漂亮的圖表展示爬取到的數(shù)據(jù)

最后編輯于：2020.09.16 19:14:55

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末茫蛹，一起剝皮案震驚了整個(gè)濱河市操刀，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌婴洼，老刑警劉巖骨坑，帶你破解...
沈念sama閱讀 221,820評(píng)論 6贊 515
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場(chǎng)離奇詭異，居然都是意外死亡欢唾，警方通過(guò)查閱死者的電腦和手機(jī)且警，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 94,648評(píng)論 3贊 399
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)礁遣，“玉大人斑芜，你說(shuō)我怎么就攤上這事∷罨簦” “怎么了杏头？”我有些...
開(kāi)封第一講書人閱讀 168,324評(píng)論 0贊 360
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長(zhǎng)沸呐。經(jīng)常有香客問(wèn)我醇王，道長(zhǎng)，這世上最難降的妖魔是什么崭添？我笑而不...
開(kāi)封第一講書人閱讀 59,714評(píng)論 1贊 297
?港島之戀（遺憾婚禮）
正文為了忘掉前任寓娩，我火速辦了婚禮，結(jié)果婚禮上呼渣，老公的妹妹穿的比我還像新娘棘伴。我一直安慰自己，他們只是感情好屁置，可當(dāng)我...
茶點(diǎn)故事閱讀 68,724評(píng)論 6贊 397
惡毒庶女頂嫁案：這布局不是一般人想出來(lái)的
文/花漫我一把揭開(kāi)白布排嫌。她就那樣靜靜地躺著，像睡著了一般缰犁。火紅的嫁衣襯著肌膚如雪淳地。梳的紋絲不亂的頭發(fā)上，一...
開(kāi)封第一講書人閱讀 52,328評(píng)論 1贊 310
城市分裂傳說(shuō)
那天帅容，我揣著相機(jī)與錄音颇象，去河邊找鬼。笑死并徘，一個(gè)胖子當(dāng)著我的面吹牛遣钳，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播麦乞，決...
沈念sama閱讀 40,897評(píng)論 3贊 421
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開(kāi)眼蕴茴，長(zhǎng)吁一口氣：“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼！你這毒婦竟也來(lái)了姐直？” 一聲冷哼從身側(cè)響起倦淀，我...
開(kāi)封第一講書人閱讀 39,804評(píng)論 0贊 276
萬(wàn)榮殺人案實(shí)錄
序言：老撾萬(wàn)榮一對(duì)情侶失蹤，失蹤者是張志新（化名）和其女友劉穎声畏，沒(méi)想到半個(gè)月后撞叽，有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體姻成，經(jīng)...
沈念sama閱讀 46,345評(píng)論 1贊 318
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 38,431評(píng)論 3贊 340
?白月光啟示錄
正文我和宋清朗相戀三年愿棋，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了科展。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點(diǎn)故事閱讀 40,561評(píng)論 1贊 352
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡糠雨，死狀恐怖才睹，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情甘邀，我是刑警寧澤琅攘，帶...
沈念sama閱讀 36,238評(píng)論 5贊 350
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站鹃答，受9級(jí)特大地震影響，放射性物質(zhì)發(fā)生泄漏突硝。R本人自食惡果不足惜测摔，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,928評(píng)論 3贊 334
男人毒藥：我在死后第九天來(lái)索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望解恰。院中可真熱鬧锋八，春花似錦、人聲如沸护盈。這莊子的主人今日做“春日...
開(kāi)封第一講書人閱讀 32,417評(píng)論 0贊 24
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)腐宋。三九已至紊服，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間胸竞，已是汗流浹背欺嗤。一陣腳步聲響...
開(kāi)封第一講書人閱讀 33,528評(píng)論 1贊 272
情欲美人皮
我被黑心中介騙來(lái)泰國(guó)打工，沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留卫枝，地道東北人煎饼。一個(gè)月前我還...
沈念sama閱讀 48,983評(píng)論 3贊 376
代替公主和親
正文我出身青樓，卻偏偏與公主長(zhǎng)得像校赤，于是被迫代替她去往敵國(guó)和親吆玖。傳聞我的和親對(duì)象是個(gè)殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 45,573評(píng)論 2贊 359

爬蟲入門教程③— 必備知識(shí)基礎(chǔ)(二)HTTP請(qǐng)求簡(jiǎn)介

從我們?cè)跒g覽器地址欄輸入網(wǎng)址敲下了回車之后到一個(gè)鮮活的網(wǎng)頁(yè)呈現(xiàn)在我們面前這中間究竟發(fā)生了什么呢塑娇？

推薦閱讀更多精彩內(nèi)容