如果你嘗試了我在Python爬蟲(二)Requests庫題中講述的response方式,發(fā)現(xiàn)有可能會獲取不到網(wǎng)頁源碼(登陸知乎一定可以獲取不到)炫狱。
不帶headers的requests.get.png
寫一個簡單的例子:
import requests
url = 'https://www.zhihu.com.'
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.119 Safari/537.36'}
response = requests.get(url, headers=headers)
# response.encoding = 'utf-8'
print(response.text)
帶headers的requests.get.png
如果User-Agent還是不能夠獲取正確解碼后的字符串移剪,我們還可以再headers字典中,加入referer薪者、cookie參數(shù)纵苛。