一.requests模塊
response.status_code :
二.查看網(wǎng)站的robots協(xié)議
在網(wǎng)站的域名后加上/robots.txt就可以了绿语。
三.html
標(biāo)簽 :
元素 : 開始標(biāo)簽+結(jié)束標(biāo)簽+中間的所有內(nèi)容巩割,它們在一起就組成了【元素】
網(wǎng)頁頭/網(wǎng)頁體 :
HTML文檔的最外層標(biāo)簽一定是<html>,里面嵌套著<head>元素與<body>元素悯许。<head>元素代表了【網(wǎng)頁頭】褒傅,<body>元素代表了【網(wǎng)頁體】,這是最基本的網(wǎng)頁結(jié)構(gòu)。
HTML文檔和網(wǎng)頁的內(nèi)容一定是一一對(duì)應(yīng)的莺褒。只是,【網(wǎng)頁頭】的內(nèi)容不會(huì)被直接呈現(xiàn)在瀏覽器里的網(wǎng)頁正文中雪情,而【網(wǎng)頁體】的內(nèi)容是會(huì)直接顯示在網(wǎng)頁正文中的遵岩。
樣式 :
屬性 :
3. BeautifulSoup
提取數(shù)據(jù)對(duì)象類型變化 :
import requests # 調(diào)用requests庫
from bs4 import BeautifulSoup # 調(diào)用BeautifulSoup庫
res =requests.get('https://localprod.pandateacher.com/python-manuscript/crawler-html/spider-men5.0.html')
# 返回一個(gè)response對(duì)象,賦值給res
html=res.text
# 把res解析為字符串
soup = BeautifulSoup( html,'html.parser')
# 把網(wǎng)頁解析為BeautifulSoup對(duì)象
items = soup.find_all(class_='books') # 通過匹配屬性class='books'提取出我們想要的元素
for item in items: # 遍歷列表items
kind = item.find('h2') # 在列表中的每個(gè)元素里巡通,匹配標(biāo)簽<h2>提取出數(shù)據(jù)
title = item.find(class_='title') # 在列表中的每個(gè)元素里尘执,匹配屬性class_='title'提取出數(shù)據(jù)
brief = item.find(class_='info') # 在列表中的每個(gè)元素里,匹配屬性class_='info'提取出數(shù)據(jù)
print(kind.text,'\n',title.text,'\n',title['href'],'\n',brief.text) # 打印書籍的類型宴凉、名字誊锭、鏈接和簡介的文字