抓取NBA圖片新聞有很多種方式,最常見用Python做爬蟲較多啄骇。本文介紹用Java來抓取網(wǎng)頁內(nèi)容,用到的工具:jsoup-1.11.2.jar
首先進入NBA官方網(wǎng)站新聞頁,
查看網(wǎng)頁源代碼尺棋,找到以下標(biāo)簽
java代碼
循環(huán)遍歷該 news-wrap 下所包含的內(nèi)容:img[data-original]為圖片路徑信息,a[href]為該條新聞的路徑绵跷,i為此條新聞的發(fā)布日期時間膘螟。
對于NBA官方網(wǎng)站只需要這樣簡單的爬蟲就可以爬到內(nèi)容了。對于某些防爬強的網(wǎng)站可以:1碾局,設(shè)置代理IP地址荆残。2,使線程睡眠
附:根據(jù)網(wǎng)絡(luò)url下載圖片到本地净当,抓取新聞內(nèi)容 java代碼
以上是爬取新聞信息的全部過程内斯,爬取圖片與之大部分相同。
打開圖片欄像啼,查看源代碼俘闯,按照目錄結(jié)構(gòu),網(wǎng)頁與新聞相似忽冻。直接上java代碼真朗。
先到這里,改日再聊僧诚。