抓取四川大學公共管理學院動態(tài)新聞及詳情頁
趙靜 ? ? ? 信管
因為我們小組重新重置了阿里云蝗拿,所以需要重新配置環(huán)境臀脏,
開始抓取
抓取的spider如下:
spider1
我選擇從more那一頁進行抓取崩溪,即
可以看到url
抓取這一頁的每個新聞的url,再進一步抓取詳情頁的標題妖胀、時間葛闷、內容放案、圖片等信息皆尔。
當spider 1 時呐舔,可以正確的爬取標題、時間床佳、內容滋早,結果如下:
把抓取圖片的代碼加入,抓取圖片的url
spider2
當spider2 時砌们,就是把圖片抓取加進去時杆麸,并不能抓取圖片的url
綜上:成功實現抓取標題、時間浪感、內容昔头,未成功地抓取圖片url.