-
1. Scrapy 介紹
經(jīng)常發(fā)現(xiàn)使用python編寫(xiě)爬蟲(chóng)的相關(guān)文章,可以使用urllib2便可以簡(jiǎn)單的實(shí)現(xiàn)(Python爬蟲(chóng)入門(mén)三之Urllib庫(kù)的基本使用)溜哮,當(dāng)然如果涉及到更進(jìn)階的東西比如爬取時(shí)的網(wǎng)站認(rèn)證瞻鹏、內(nèi)容的分析處理郊酒、重復(fù)抓取、分布式爬取等等也時(shí)間很復(fù)雜的事。所以實(shí)現(xiàn)一個(gè)魯棒护桦,功能豐富的爬蟲(chóng)也并不是容易的事。
本著不重復(fù)造輪子的原則渣慕,在google上或通過(guò)GitHub可以檢索到相關(guān)并成熟的針對(duì)網(wǎng)站爬取的框架嘶炭,Scrapy就是最著名并被廣泛認(rèn)可與使用的框架之一,源碼托管在GitHub上逊桦。
源代碼
Scrapy官網(wǎng)
官方文檔對(duì)其詳細(xì)描述:
“Scrapy是一個(gè)為了爬取網(wǎng)站數(shù)據(jù)眨猎,提取結(jié)構(gòu)性數(shù)據(jù)而編寫(xiě)的應(yīng)用框架。 可以應(yīng)用在包括數(shù)據(jù)挖掘强经,信息處理或存儲(chǔ)歷史數(shù)據(jù)等一系列的程序中睡陪。其最初是為了頁(yè)面抓取 (更確切來(lái)說(shuō), 網(wǎng)絡(luò)抓取 )所設(shè)計(jì)的, 也可以應(yīng)用在獲取API所返回的數(shù)據(jù)(例如 Amazon Associates Web Services ) 或者通用的網(wǎng)絡(luò)爬蟲(chóng)匿情±计龋”
-
2. 知識(shí)準(zhǔn)備以及相關(guān)資料
看完介紹便可以確定你對(duì)它是否存在需求。筆者也是對(duì)網(wǎng)絡(luò)爬蟲(chóng)感興趣炬称,慢慢接觸Scrapy并決定寫(xiě)一系列教程汁果。關(guān)于爬蟲(chóng)學(xué)習(xí)曲線(xiàn),曾經(jīng)在知乎上發(fā)現(xiàn)一篇文章玲躯,現(xiàn)轉(zhuǎn)載過(guò)來(lái):作者:謝科 問(wèn)題:Python 爬蟲(chóng)如何入門(mén)學(xué)習(xí)据德?
需要學(xué)習(xí)的內(nèi)容:
- 基本的爬蟲(chóng)工作原理
- 基本的http抓取工具,scrapy
- Bloom Filter
- 如果需要大規(guī)模網(wǎng)頁(yè)抓取跷车,你需要學(xué)習(xí)分布式爬蟲(chóng)的概念棘利。其實(shí)沒(méi)那么玄乎,你只要學(xué)會(huì)怎樣維護(hù)一個(gè)所有集群機(jī)器能夠有效分享的分布式隊(duì)列就好朽缴。最簡(jiǎn)單的實(shí)現(xiàn)是python-redis
- redis和Scrapy的結(jié)合:Scrapy-redis
- 后續(xù)處理善玫,網(wǎng)頁(yè)析取:Python-goose密强,存儲(chǔ):Mongodb
入門(mén)資料
- 學(xué)習(xí)Scrapy入門(mén)
- Scrapy 1.0.5 文檔
- Redis快速入門(mén)
- Python教程 廖雪峰
- Xpath教程
- Python正則表達(dá)式
- Bloom Filter(布隆過(guò)濾器)的概念和原理
- 基于Redis的Bloomfilter去重(附Python代碼)
-
3. Scrapy 安裝
Linux安裝
直接通過(guò)命令安裝:pip install scrapy
Windows安裝
Windows安裝Scrapy教程Scrapy文檔安裝指南