爬蟲入門教程③— 必備知識(shí)基礎(chǔ)(二)HTTP請(qǐng)求簡(jiǎn)介

本章節(jié)主要介紹一些常用的和爬蟲有關(guān)的知識(shí)。

從我們?cè)跒g覽器地址欄輸入網(wǎng)址敲下了回車之后到一個(gè)鮮活的網(wǎng)頁(yè)呈現(xiàn)在我們面前這中間究竟發(fā)生了什么呢塑娇?
一次HTTP訪問(wèn)流程
  1. DNS查詢

DNS(Domain Name System澜倦,域名系統(tǒng))聚蝶,萬(wàn)維網(wǎng)上作為域名和IP地址相互映射的一個(gè)分布式數(shù)據(jù)庫(kù),能夠使用戶更方便的訪問(wèn)互聯(lián)網(wǎng)藻治,而不用去記住能夠被機(jī)器直接讀取的IP數(shù)串碘勉。通過(guò)域名,最終得到該域名對(duì)應(yīng)的IP地址的過(guò)程叫做域名解析(或主機(jī)名解析)桩卵。DNS協(xié)議運(yùn)行在UDP協(xié)議之上验靡,使用端口號(hào)53。在RFC文檔中RFC 2181對(duì)DNS有規(guī)范說(shuō)明雏节,RFC 2136對(duì)DNS的動(dòng)態(tài)更新進(jìn)行說(shuō)明胜嗓,RFC 2308對(duì)DNS查詢的反向緩存進(jìn)行說(shuō)明。

通俗來(lái)說(shuō)钩乍,我們想去 www.baidu.com辞州。但是計(jì)算機(jī)之間通信是采用的IP,所以我們必須知道www.baidu.com這個(gè)域名對(duì)應(yīng)的服務(wù)器IP寥粹,于是我們?nèi)ゲ橐幌翫NS变过,就可以知道百度的服務(wù)器IP是多少了埃元。

  1. HTTP(S)協(xié)議

超文本傳輸協(xié)議(HTTP,HyperText Transfer Protocol)是互聯(lián)網(wǎng)上應(yīng)用最為廣泛的一種網(wǎng)絡(luò)協(xié)議媚狰。所有的WWW文件都必須遵守這個(gè)標(biāo)準(zhǔn)岛杀。設(shè)計(jì)HTTP最初的目的是為了提供一種發(fā)布和接收HTML頁(yè)面的方法。1960年美國(guó)人Ted Nelson構(gòu)思了一種通過(guò)計(jì)算機(jī)處理文本信息的方法崭孤,并稱之為超文本(hypertext),這成為了HTTP超文本傳輸協(xié)議標(biāo)準(zhǔn)架構(gòu)的發(fā)展根基类嗤。Ted Nelson組織協(xié)調(diào)萬(wàn)維網(wǎng)協(xié)會(huì)(World Wide Web Consortium)和互聯(lián)網(wǎng)工程工作小組(Internet Engineering Task Force )共同合作研究,最終發(fā)布了一系列的RFC辨宠,其中著名的RFC 2616定義了HTTP 1.1遗锣。

每一個(gè)完整的http請(qǐng)求,都由一個(gè)request和一個(gè)response組成嗤形。
打開(kāi)瀏覽器黄伊,按了F12進(jìn)入開(kāi)發(fā)者模式,打開(kāi)或者刷新網(wǎng)頁(yè)派殷,切換到network(網(wǎng)絡(luò))就可以看到請(qǐng)求和響應(yīng)的信息了还最。
2.1 request
也就是我們常說(shuō)的請(qǐng)求,這是由我們的客戶端(瀏覽器/爬蟲)發(fā)出的一個(gè)查詢請(qǐng)求毡惜。
request包括的內(nèi)容有:
請(qǐng)求頭:主要是:請(qǐng)求的鏈接(URL)拓轻、客戶端的Cookies、客戶端的名字(UserAgent)经伙、請(qǐng)求的方法(Method)扶叉、請(qǐng)求的參數(shù)(表單)。
請(qǐng)求的body:通常包含了一些要發(fā)送給服務(wù)器的數(shù)據(jù)帕膜,這些數(shù)據(jù)對(duì)用戶是不可見(jiàn)的枣氧,不會(huì)顯示在瀏覽器的地址欄里面。

HTTP headers

2.2. response
也就是服務(wù)器返回的響應(yīng)垮刹。
響應(yīng)也包括了響應(yīng)頭达吞、響應(yīng)的body
在響應(yīng)頭里面通常有操作客戶端Cookies的命令荒典,增加cookie或者刪除cookie酪劫,如果是跳轉(zhuǎn),那么會(huì)有一個(gè)跳轉(zhuǎn)的目標(biāo)網(wǎng)址寺董,瀏覽器發(fā)現(xiàn)了覆糟,就會(huì)自動(dòng)跳轉(zhuǎn)到新的網(wǎng)址去。
響應(yīng)的body遮咖,那就是響應(yīng)的內(nèi)容了滩字,比如說(shuō)網(wǎng)頁(yè)內(nèi)容,js代碼,css代碼麦箍,文件等等酗电。

響應(yīng)的body

2.3 綜合知識(shí)
一個(gè)請(qǐng)求對(duì)應(yīng)一個(gè)響應(yīng)。構(gòu)成了一個(gè)完整的HTTP請(qǐng)求内列。
HTTP headers圖里,我們可以看到有個(gè)General背率,里面有個(gè)StatusCode话瞧,這叫狀態(tài)碼鸯绿。是人為規(guī)定一個(gè)用來(lái)判斷請(qǐng)求狀態(tài)的數(shù)字癞志,常見(jiàn)的就是200,302,403,404.更多狀態(tài)碼詳見(jiàn)HTTP狀態(tài)碼詳解.
常見(jiàn)HTTP狀態(tài)碼的含義:
??200--請(qǐng)求成功
??302--請(qǐng)求跳轉(zhuǎn)
??403--拒絕訪問(wèn)
??404--找不到資源封断。

那么HTTP和HTPPS協(xié)議有什么區(qū)別呢犬缨?HTTPS巩螃,簡(jiǎn)單概括就是升級(jí)版的HTTP協(xié)議捧搞,他最重要的功能察净,就是在HTTP基礎(chǔ)上提高了安全性疆股,基本上可以保證信息不會(huì)被第三方篡改「剩現(xiàn)在網(wǎng)站也基本上都在部署和使用HTTPS了架专。他的基本操作還是和http協(xié)議一樣的,只不過(guò)是傳輸?shù)臄?shù)據(jù)經(jīng)過(guò)了加密傳輸玄帕。


爬蟲如果要獲取到一個(gè)網(wǎng)頁(yè)部脚,那么就一定要發(fā)送一個(gè)HTTP請(qǐng)求,就必須經(jīng)過(guò)這些過(guò)程裤纹。覺(jué)得麻煩嗎委刘?我也覺(jué)得。幸好已經(jīng)有很多很優(yōu)美的庫(kù)鹰椒,幫我們做好了大部分的工作锡移,我們只需要專心我們的邏輯操作就OK了。
所以漆际,感謝前輩大佬們淆珊。

下一節(jié),我們要了解的是 HTML奸汇、CSS套蒂、JS 的相關(guān)知識(shí)。

?


傳送門:

下一章
爬蟲入門教程④— 必備知識(shí)基礎(chǔ)(三)網(wǎng)頁(yè)的構(gòu)成

所有的章節(jié):

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末茫蛹,一起剝皮案震驚了整個(gè)濱河市操刀,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌婴洼,老刑警劉巖骨坑,帶你破解...
    沈念sama閱讀 221,820評(píng)論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡欢唾,警方通過(guò)查閱死者的電腦和手機(jī)且警,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,648評(píng)論 3 399
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)礁遣,“玉大人斑芜,你說(shuō)我怎么就攤上這事∷罨簦” “怎么了杏头?”我有些...
    開(kāi)封第一講書人閱讀 168,324評(píng)論 0 360
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)沸呐。 經(jīng)常有香客問(wèn)我醇王,道長(zhǎng),這世上最難降的妖魔是什么崭添? 我笑而不...
    開(kāi)封第一講書人閱讀 59,714評(píng)論 1 297
  • 正文 為了忘掉前任寓娩,我火速辦了婚禮,結(jié)果婚禮上呼渣,老公的妹妹穿的比我還像新娘棘伴。我一直安慰自己,他們只是感情好屁置,可當(dāng)我...
    茶點(diǎn)故事閱讀 68,724評(píng)論 6 397
  • 文/花漫 我一把揭開(kāi)白布排嫌。 她就那樣靜靜地躺著,像睡著了一般缰犁。 火紅的嫁衣襯著肌膚如雪淳地。 梳的紋絲不亂的頭發(fā)上,一...
    開(kāi)封第一講書人閱讀 52,328評(píng)論 1 310
  • 那天帅容,我揣著相機(jī)與錄音颇象,去河邊找鬼。 笑死并徘,一個(gè)胖子當(dāng)著我的面吹牛遣钳,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播麦乞,決...
    沈念sama閱讀 40,897評(píng)論 3 421
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼蕴茴,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了姐直?” 一聲冷哼從身側(cè)響起倦淀,我...
    開(kāi)封第一講書人閱讀 39,804評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎声畏,沒(méi)想到半個(gè)月后撞叽,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體姻成,經(jīng)...
    沈念sama閱讀 46,345評(píng)論 1 318
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,431評(píng)論 3 340
  • 正文 我和宋清朗相戀三年愿棋,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了科展。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 40,561評(píng)論 1 352
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡糠雨,死狀恐怖才睹,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情甘邀,我是刑警寧澤琅攘,帶...
    沈念sama閱讀 36,238評(píng)論 5 350
  • 正文 年R本政府宣布,位于F島的核電站鹃答,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏突硝。R本人自食惡果不足惜测摔,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,928評(píng)論 3 334
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望解恰。 院中可真熱鬧锋八,春花似錦、人聲如沸护盈。這莊子的主人今日做“春日...
    開(kāi)封第一講書人閱讀 32,417評(píng)論 0 24
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)腐宋。三九已至紊服,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間胸竞,已是汗流浹背欺嗤。 一陣腳步聲響...
    開(kāi)封第一講書人閱讀 33,528評(píng)論 1 272
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留卫枝,地道東北人煎饼。 一個(gè)月前我還...
    沈念sama閱讀 48,983評(píng)論 3 376
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像校赤,于是被迫代替她去往敵國(guó)和親吆玖。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,573評(píng)論 2 359

推薦閱讀更多精彩內(nèi)容