Python爬蟲這門技術(shù)你可以做得很簡單根盒,你也可以玩得很深入.打比方用簡單的爬蟲方式爬取1000萬條數(shù)據(jù)可能需要一周時(shí)間驻啤,但如果你的爬蟲玩得比較厲害否淤,你可以采用分布式爬蟲技術(shù)1天就能完成了1000萬條數(shù)據(jù)料身。雖然都是爬蟲落蝙,但這就是菜鳥與大牛的區(qū)別先紫!這就和太極拳似的治泥,易學(xué)難精!
網(wǎng)頁知識(shí)
html遮精,js,css居夹,xpath這些知識(shí),雖然簡單本冲,但一定需要了解准脂。 你得知道這些網(wǎng)頁是如何構(gòu)成的,然后才能去分解他們檬洞。
HTTP知識(shí)
一般爬蟲你需要模擬瀏覽器的操作狸膏,才能去獲取網(wǎng)頁的信息如果有些網(wǎng)站需要登錄,才能獲取更多的資料添怔,你得去登錄湾戳,你得把登錄的賬號(hào)密碼進(jìn)行提交有些網(wǎng)站登錄后需要保存cookie信息才能繼續(xù)獲取更多資料贤旷。
正則表達(dá)式
有了正則表達(dá)式才能更好的分割網(wǎng)頁信息,獲取我們想要的數(shù)據(jù)砾脑,所以正則表達(dá)式也是需要了解的.
一些重要的爬蟲庫
url,url2
beautiul Soup
數(shù)據(jù)庫
爬取到的數(shù)據(jù)我們得有個(gè)地方來保存幼驶,可以使用文件,也可以使用數(shù)據(jù)庫拦止,這里我會(huì)使用mysql县遣,還有更適合爬蟲的MongoDB數(shù)據(jù)庫,以及分布式要用到的redis 數(shù)據(jù)庫
反爬蟲
有時(shí)候你的網(wǎng)站數(shù)據(jù)想禁止別人爬取汹族,可以做一些反爬蟲處理操作萧求。 打比方百度上就無法去查找淘寶上的數(shù)據(jù),這樣就避開了搜索引擎的競爭顶瞒,淘寶就可以搞自己的一套競價(jià)排名
分布式爬蟲
使用多個(gè)redis實(shí)例來緩存各臺(tái)主機(jī)上爬取的數(shù)據(jù)夸政。
爬蟲框架
PySpider和Scrapy 這兩個(gè)爬蟲框架是非常NB的,簡單的爬蟲可以使用urllib與urllib2以及正則表達(dá)式就能完成,但高級的爬蟲還得用這兩個(gè)框架榴徐。 這兩個(gè)框架需要另行安裝守问。