爬蟲:請求網(wǎng)站并提取數(shù)據(jù)的自動化程序。
爬蟲的基本流程:
發(fā)起請求 --> 獲取響應(yīng)的內(nèi)容 --> 解析內(nèi)容 --> 保存數(shù)據(jù)
Request:
請求方式:主要有Get芭届、Post兩種類型镀裤,另外還有Head、Put、Delete喘沿、Options等。
請求URL:URL全稱統(tǒng)一資源定位符
請求頭:包含請求的頭部信息竭贩,如User-Agent蚜印、Host、Cookies等
請求體:請求時額外攜帶的數(shù)據(jù)留量,如表單提交時的表單數(shù)據(jù)
Response:
響應(yīng)狀態(tài):有多種響應(yīng)狀態(tài)窄赋,如200:成功哟冬,301:跳轉(zhuǎn),404:找不到頁面忆绰,502服務(wù)器錯誤等
響應(yīng)頭:如內(nèi)容類型浩峡、內(nèi)容長度、服務(wù)器信息错敢、設(shè)置cookies等
響應(yīng)體:最主要的部分翰灾,包含了請求資源的內(nèi)容,如網(wǎng)頁HTML稚茅、圖片二進(jìn)制數(shù)據(jù)等
Urllib庫的四個模塊:
urllib.request:請求模塊
urllib.error:異常處理模塊
urllib.parse:url解析模塊
urllib.robotparse:robots.txt解析模塊