? ? 經(jīng)過兩天的爬取頭條新聞給我最大的收獲不是掌握了如何利用自動化測試模塊來爬取頭條新聞,而是在爬蟲之前需要如何設(shè)計一個良好的爬蟲策略苔巨。
? ? 這次爬取頭條新聞中婆跑,起始難度不大,問題在于鸡挠,事先我并沒有指定一個很好的爬蟲策略,我該如何爬心例,從哪里著手宵凌,該爬取些什么數(shù)據(jù)等鞋囊,尤其是該爬些什么數(shù)據(jù)止后,這是我初學(xué)期間沒能掌握的一部分。我這次爬蟲實踐中的成果如下:我很輕率地就開啟寫爬蟲腳本,這導(dǎo)致抓到的信息用處并不大译株,爬蟲的目的是為了更好地得到有用的數(shù)據(jù)進行數(shù)據(jù)分析瓜喇。之前我是完完全全忽略這一點的,爬取新聞我更應(yīng)該事先考慮爬新聞有什么用處歉糜。該爬取這些新聞的什么內(nèi)容等等乘寒。這失敗的實踐給我以后的學(xué)習(xí)帶來了很大的啟發(fā)。