最早看過一本跟大數據相關的書籍是《大數據時代》羞芍,后面還斷斷續(xù)續(xù)看過涂子沛老師寫的有關大數據的系列文章昌粤,工作的原因最近涉及到數據處理蒋纬,看到tiger的解密大數據社群就立馬加進來了。以下是學完爬蟲入門后的作業(yè)練習娱俺。
Q1要爬取的數據類型
為了了解交通運輸行業(yè)(汽車缎谷,輪船井濒,飛機,火車)的安全水平慎陵,需要監(jiān)測最近的事故/事件信息眼虱,對這些信息加以分析,總結經驗提高交通運輸行業(yè)的安全水平席纽。
監(jiān)測的數據類型包括捏悬,
每天交通運輸行業(yè)更新的信息,從網站上獲得润梯,
數據的類型有時間(年过牙,月,日纺铭,具體時間點)寇钉,交通工具名稱,地點舶赔,死傷人數扫倡,事故原因,
目前限制的范圍為近十年的數據竟纳。
Q2對應的數據源網站
為了調查這一塊的數據撵溃,需要涉及到的網站包括國家政府的統計網站,一些行業(yè)的信息網站锥累。都是國內的缘挑,不涉及到國外的網站。
Q3爬取數據的url
先以上面兩個為例桶略。
Q4數據篩選規(guī)則(選作)
待定语淘,還沒搞懂诲宇,后續(xù)實踐中再補充完善。