一汤善、python爬蟲一般的代碼實(shí)現(xiàn)步驟:
-1.得到url地址睹限、請(qǐng)求頭(Refer很重要)
-2.獲取url地址的響應(yīng)
-3.從響應(yīng)中提取數(shù)據(jù)
? ? 提取數(shù)據(jù)的方法:xpath
? ? 注意:xpath()返回的是一個(gè)列表類型
? ??
-4.保存數(shù)據(jù)
二、爬蟲項(xiàng)目的基本概念:
超文本傳輸協(xié)議:
????????????????????????????HTTP:效率高魄鸦,安全性不高
????????????????????????????HTTPS:HTTP+SSL(加密):安全性高拿愧,效率低
GET請(qǐng)求與POST請(qǐng)求:
????????????????????????????????????GET請(qǐng)求:沒有請(qǐng)求體阀趴,把數(shù)據(jù)放在url地址中
????????????????????????????????????POST請(qǐng)求:有請(qǐng)求體凶伙,把數(shù)據(jù)放在請(qǐng)求體中(應(yīng)用于登陸注冊(cè)郭毕、大文本傳輸)
HTTP協(xié)議之請(qǐng)求:
????????????????????????????—1.請(qǐng)求行
????????????????????????????—2.請(qǐng)求頭:
????????????????????????????????????????????????-user_Agent(用戶代理):對(duì)方服務(wù)器通過user_Agent知道當(dāng)前請(qǐng)求資源的服務(wù)器是什么
????????????????????????????????????????????????-如果我們需要模擬手機(jī)瀏覽器發(fā)送請(qǐng)求,就需要把user_Agent改為手機(jī)版
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? -cookie:用來存儲(chǔ)用戶信息的函荣,每次請(qǐng)求都會(huì)被攜帶上傳給服務(wù)器
? ? ? ? ? ? ? ? ? ? ? ? ? ? —3.請(qǐng)求體
????????????????????????????????????????????????-GET無請(qǐng)求體
????????????????????????????????????????????????-POST有請(qǐng)求體:請(qǐng)求體中帶有一些數(shù)據(jù)
HTTP協(xié)議之響應(yīng):
????????????????????????????????-1.響應(yīng)頭
????????????????????????????????????????????????set-cookie:對(duì)方服務(wù)器通過該字段設(shè)置cookie到本地
????????????????????????????????-2.響應(yīng)體
????????????????????????????????????????????????-url地址對(duì)應(yīng)的響應(yīng)