好久好久,沒怎么寫東西会喝,就把從GitHub上淘來的各種各樣語言的爬蟲框架分享給大家陡叠。
Python
python
自然不用多說,擁有的爬蟲框架數(shù)不勝數(shù)肢执。
-
scrapy枉阵,大名鼎鼎的爬蟲框架,功能強大预茄,乃入門學習的必備良藥兴溜。支持多種多樣的配置特性,唯一可惜不支持分布式的特性,于是就誕生了scrapy-redis這個以
redis
為隊列的分布式爬蟲框架拙徽。 - pyspider刨沦,應該是個華人寫的爬蟲框架,可支持的配置非常多斋攀,同時也支持分布式已卷,只需要配置中間的消息隊列就可以。
- portia淳蔼,可視化的爬蟲框架侧蘸,對于編程經(jīng)驗少的人來說相當適合學習。
- xcrawler鹉梨,輕量級的爬蟲框架讳癌。個人很簡易從讀輕量級的爬蟲框架的源代碼入手,這樣能夠由淺入深存皂,學地更有意思晌坤。
-
cola,也是很強大的分布式爬蟲框架旦袋,只是可惜不支持
python 3
以上骤菠。 - fetchman, 國人寫的爬蟲框架,采用grequests來并發(fā)請求疤孕∩毯酰看過源代碼,寫的容易理解祭阀,所以對于新手來說很實用鹉戚。
- gain, 使用```asyncio``來異步爬取的輕量級爬蟲框架。代碼很容易理解专控,利于學習抹凳。
Java
Java
接觸的不是很多,所以知道的爬蟲框架不多伦腐。
-
webmagic赢底,這個是國人寫的爬蟲框架,很好用柏蘑,也很強大颖系。源代碼的閱讀體驗也不錯,推薦寫
java
的可以去熟悉熟悉辩越。 - crawler4j嘁扼, 比較好的爬蟲架構,對于學習和理解爬蟲框架很有用黔攒。
-
SeimiCrawler趁啸, 分布式爬蟲框架强缘,也是受到
scrapy
啟發(fā)。支持動態(tài)渲染的頁面爬蟲不傅。 - elves, 輕量級的爬蟲框架旅掂,國人寫的。易于學習和理解访娶。
Node
node
接觸的更加不多商虐,但是也淘到了不錯的幾個框架。
-
node-crawler,強大且流行崖疤。采用
Cheerio
這個包解析網(wǎng)頁結構秘车。 -
webster,高性能的
NodeJs
爬蟲框架,可爬取動態(tài)渲染的內容(通過headless Chrome
)劫哼。
C#
C#
作為筆者除了Python
以外比較熟悉的語言了叮趴。但是發(fā)現(xiàn)其爬蟲框架少的可憐。哎权烧,不禁嘆息眯亦。
-
DotnetSpider,整體架構參照了
WebMagic
和Scrapy
般码,是C#
中比較強大的存在妻率。目前已經(jīng)支持.net core 2.0
,所以板祝,喜歡C#
的可以去玩玩宫静。還是比較不錯的支持Entity Framework
。 - WebCrawler扔字,國人寫的輕量級的爬蟲框架∥录迹可以去學習學習~~~
就這樣吧~ 不知道下回什么時候寫文章革为。繼續(xù)去看書了!6媪邸震檩!再見~~想想,下回寫個什么東西玩玩呢蜓堕。