爬蟲是個(gè)中性詞,高大上的一方面是要以收索到很多有用的消息只祠,不友好的一面就是“攻擊”,因此扰肌,對(duì)于傳統(tǒng)的靜態(tài)的網(wǎng)頁抛寝,requests模塊可能會(huì)起效,能爬取到一定的信息曙旭,但是現(xiàn)在爬蟲和反爬蟲是一個(gè)不變的主題盗舰,因此對(duì)于有些資料可能用上述方法會(huì)失效,原因之一就是user agent即UA
UA偽裝:讓爬蟲對(duì)應(yīng)的請(qǐng)求載體身份標(biāo)識(shí)偽裝成某一款瀏覽器
headers = {
'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.121 Safari/537.36'
}
url = 'https://www.sogou.com/web'
#處理url攜帶的參數(shù):封裝到字典中
kw = input('enter a word:')
param = {
'query':kw
}
#對(duì)指定的url發(fā)起的請(qǐng)求對(duì)應(yīng)的url是攜帶參數(shù)的夷狰,并且請(qǐng)求過程中處理了參數(shù)
response = requests.get(url=url,params=param,headers=headers)
page_text = response.text
fileName = kw+'.html'
with open(fileName,'w',encoding='utf-8') as fp:
fp.write(page_text)
print(fileName,'保存成功A朐怼!沼头!')