之前我們使用爬蟲只是模擬瀏覽器發(fā)送一條url請求瞎暑,就可以爬取網(wǎng)站的頁面。然而很多網(wǎng)站的數(shù)據(jù)是通過Ajax動(dòng)態(tài)發(fā)送的,即在不改變url的基礎(chǔ)之上加載頁面信息。
我們以豆瓣電影排行榜為例:
如果請求這個(gè)url是得不到任何信息的扭粱,因此我們要抓包的到動(dòng)態(tài)的url。
當(dāng)我們向下滑動(dòng)頁面震檩,就會(huì)加載出更多的科幻電影琢蛤,而網(wǎng)頁的url并沒有發(fā)生變化。
Response里面獲得一個(gè)響應(yīng)值抛虏,放到j(luò)son解析工具解析出來是一個(gè)列表數(shù)據(jù)類型博其,里面嵌套了字典。
將請求參數(shù)轉(zhuǎn)化為字典鍵值對:
最后利用for循環(huán)遍歷迂猴,得到電影的詳細(xì)信息慕淡。