準備材料
一:使用到的Python第三方庫是requests 和 BeautifulSoup
二:選擇要爬取的網(wǎng)頁
我選擇了豆瓣小組里的一個帖子回復(是微博或者微信的簽名勺远,個人感覺比較有意思)
地址是:https://www.douban.com/group/topic/80125952/
三:分析網(wǎng)頁源代碼
打開地址后绪颖,右鍵-查看網(wǎng)頁源代碼
我們爬取的p標簽,class="reply-content"里的內(nèi)容
具體的代碼如下
import requests
from bs4 import BeautifulSoup
import time
#設(shè)置請求header偽裝成瀏覽器
headers = {'user-agent':'Mozilla/5.0 (iPad; CPU OS 11_0 like Mac OS X) AppleWebKit/604.1.34 (KHTML, like Gecko) Version/11.0 Mobile/15A5341f Safari/604.1'}
for i in range(29):
url = 'https://www.douban.com/group/topic/80125952/?start=' + str(i*100)
req = requests.get(url,headers=headers) #獲取網(wǎng)頁請求
content = req.content #獲取到的網(wǎng)頁請求的具體內(nèi)容
soup = BeautifulSoup(content,'lxml') #把獲取到的網(wǎng)頁請求內(nèi)容構(gòu)造成 BeautifulSoup 對象
replycontents = soup.find_all(name='p',attrs={'class':'reply-content'})# 使用 find_all 查找文檔樹中標簽為p,class="reply-content" 的所有內(nèi)容
try:
for replycontent in replycontents:
text = replycontent.string
print(text)
except:
TypeError
time.sleep(5)
運行的結(jié)果部分截圖如下