網(wǎng)站分析
今天的目標(biāo)是www.dy2018.com:
電影天堂
可以直接從首頁進(jìn)行爬捣郊,實(shí)際上點(diǎn)擊導(dǎo)航條中的“動作片”谅将,可以進(jìn)入一個欄目分類列表中:
Paste_Image.png
打開F12赂鲤,可以看到這些欄目地址形式是"/0/","/1/"..."/20/"。那么是不是可以直接從這些欄目爬到所有電影呢满败?有必要先試試贴铜。
測試訪問
>>> import requests
>>> from bs4 import BeautifulSoup
>>> url = 'http://www.dy2018.com'
>>> url = 'http://www.dy2018.com/0/'
>>> response = requests.get(url)
>>> response.text
'\n<html>\n<head>\n
<meta http-equiv=\'Content-Type\' content=\'text/html; charset=utf-8\' />\n</head>\n<body>\n<script language=\'javascript\'>
window.location="/0/?_" + "_wangan" + "=30dd" + "be26" + "42e5e6de"+"c1bb" +
"936d5" +"3"+ "8" + "8" + "4d512" +"14831919" + "58_" + "23"+ "1596";</script>\n</body>\n</html>'
>>>
發(fā)現(xiàn)什么問題了粪摘?顯然這個網(wǎng)站是有反爬策略的。仔細(xì)看script中的代碼绍坝,window.location是什么意思呢徘意?
window.location="/0/?__wangan=30ddbe2642e5e6dec1bb936d53884d5121483191958_231596";