初步總結(jié)
- 雖然以后可能不一定走這個方向脂矫,不過作為搜集數(shù)據(jù)的一種方式霉晕,而且是強有力的方式捞奕,爬蟲還是值得入門一下的,畢竟大數(shù)據(jù)的時代嘛颅围,很多基礎(chǔ)的思想也是需要了解的
主要實現(xiàn)方式
- 通常來說爬蟲是抓取數(shù)據(jù)的一種方式院促,這個思路很像卷福扮演圖靈研究第一臺計算機(jī)破解密碼的思路,就是通過頁面的表象常拓,直接獲取數(shù)據(jù),再整理成我們想要的形式茎辐,對網(wǎng)站怎么表述沒什么考量,也不用研究
幾個主要構(gòu)成
- 獲取頁面信息
將龐大的json格式數(shù)據(jù)全部抓取 - 正則篩選
在龐大的數(shù)據(jù)中弛槐,找出我們想要的數(shù)據(jù) - 定向下載/爬取
將通過篩選出來的數(shù)據(jù)/url進(jìn)行定向獲取依啰,并整理成我們需要的格式
主流工具使用
這里其實有個原則,各種花里胡哨的架構(gòu)原則上是有用的速警,不過也要建立在合適的需求之上,如果只是想針對性的獲取某些小量數(shù)據(jù)桂对,完全沒必要將很多大的架構(gòu)研究清楚鸠匀,作為高級語言,py很大概率能夠幾行代碼就能實現(xiàn)基礎(chǔ)功能
裸奔
最簡單粗暴的方法宅此,最基礎(chǔ)的四個環(huán)節(jié)
urlopen() #獲取整個頁面數(shù)據(jù)
read() #將獲取的數(shù)據(jù)保存起來
re.findall() #匹配正則表達(dá)式
urlretrieve() #將匹配到的數(shù)據(jù)進(jìn)行定向爬取
scrapy
慢慢研究中爬范。。璧亮。