簡述
因中心工程和科研需求虫给,需要下載大量船只的圖片藤抡。而在marintraffic這個網(wǎng)站上擁有大量的船只,并且包含的信息極其豐富抹估,可以滿足我們科研和工程的需求缠黍。因此希望在此網(wǎng)站上下載船只圖片。
marintraffic這個網(wǎng)站的數(shù)據(jù)比較規(guī)整药蜻,可以在這里看到所有船只的信息瓷式。包括國別、MMSI语泽、IMO贸典、NAME、最近發(fā)現(xiàn)的位置等踱卵;
在這里可以根據(jù)某一艘船的shipid找到該船在這個網(wǎng)站上的所有圖片廊驼,圖片包含的信息也比較豐富,包括圖片本身信息惋砂、拍攝人和船只的諸多信息妒挎,非常有價值。
我們需要的信息
我們的目標(biāo)是獲取船只唯一標(biāo)識語船只圖像的對應(yīng)關(guān)系西饵,我們希望得到的標(biāo)識是MMSI酝掩、IMO、Vessel Name等
找到一艘船的所有圖像是根據(jù)它在這個網(wǎng)站上的唯一標(biāo)識shipid得到的
所以我們希望得到的是這樣的一個對應(yīng)關(guān)系的數(shù)據(jù)庫
shipid-MMSI-IMO-NAME
也就是這個網(wǎng)頁源代碼里的這些
下載圖片注意
我們希望下載得到的圖片保存得比較有規(guī)律罗标,
一個shipid一般對應(yīng)多個圖片庸队,我們希望將這多個圖片以方便管理的方式存放积蜻。同時保存每張圖片的拍攝時間和地點闯割,地點包括地點名稱和經(jīng)緯度
資源
網(wǎng)站上大概有1923545個圖片,按照平均每分鐘下載15張的速度看竿拆,單線程下載需要80多天才能下載完宙拉,由于網(wǎng)站限制不能連續(xù)下載,根據(jù)之前學(xué)長的經(jīng)驗再1-10秒的隨機時間下載是可以避免網(wǎng)站的爬蟲檢測的丙笋。當(dāng)然我試過8秒也可以谢澈,具體多少合適還不清楚煌贴。但是如果網(wǎng)站認(rèn)為該計算機涉嫌爬蟲行為,就會加入黑名單锥忿,幾個星期下載不了牛郑,因此這個爬蟲需要協(xié)調(diào)時間,計算機臺數(shù)等信息再合理的時間下載完敬鬓。
另外這個網(wǎng)站上的每個圖像都有大小兩種尺寸淹朋,我們希望把這兩種尺寸都下載下來,如果兩種尺寸合起來按50kB算钉答,大概需要100G左右的存儲空間
這是我?guī)讉€星期前用的一個代碼础芍,可參考了解網(wǎng)站特點。