2021最新爬蟲教程

爬蟲框架就是一些爬蟲項(xiàng)目的半成品，可以將些爬蟲常用的功能寫好赔蒲。然后留下一些接口谷婆，在不同的爬蟲項(xiàng)目當(dāng)中案狠，調(diào)用適合自己項(xiàng)目的接口，再編寫少量的代碼實(shí)現(xiàn)自己需要的功能。因?yàn)榭蚣苤幸呀?jīng)實(shí)現(xiàn)了爬蟲常用的功能，所以為開(kāi)發(fā)人員節(jié)省了很多精力與時(shí)間。

Scrapy

Scrapy框架是一套比較成熟的Python爬蟲框架令杈，簡(jiǎn)單輕巧，并且非常方便碴倾《贺可以高效事的爬取 Web頁(yè)面井從頁(yè)面中提取結(jié)構(gòu)化的數(shù)據(jù)掉丽。

重要的是Scrapy 是一套開(kāi)源的框架，所以在使用時(shí)不需要擔(dān)心收取費(fèi)用的問(wèn)題异雁。

Scrapy是一個(gè)為了爬取網(wǎng)站數(shù)據(jù)捶障，提取結(jié)構(gòu)性數(shù)據(jù)而編寫的應(yīng)用框架「俚叮可以應(yīng)用在包括數(shù)據(jù)挖掘项炼，信息處理或存儲(chǔ)歷史數(shù)據(jù)等一系列的程序中∈景恚可以用它輕松的爬下來(lái)如亞馬遜商品信息之類的數(shù)據(jù)锭部。

Scrapy 的官網(wǎng)地址為:

https://scrapy.org/

Crawley

Crawley也是Python開(kāi)發(fā)出的爬蟲框架，該框架致力于改變?nèi)藗儚幕ヂ?lián)網(wǎng)中提取數(shù)據(jù)的方式Crawley的具體特性如下：

基于Eventlet構(gòu)建的高速網(wǎng)絡(luò)爬蟲框架面褐。

可以將數(shù)據(jù)存儲(chǔ)在關(guān)系數(shù)據(jù)庫(kù)中拌禾，例如，Postgres, Mysql. Oracle. Sqlite.

可以將爬取的數(shù)據(jù)導(dǎo)入為Json. XML格式展哭。

支持非關(guān)系數(shù)據(jù)跨湃窍，例如，Mongodb 和Couchdb.

支持命令行工具匪傍。

可以使用喜歡的工具進(jìn)行數(shù)據(jù)的提取您市，例如，XPath 或Pyquery工具析恢。

支持使用Cookie登錄或訪問(wèn)那些只有登錄才可以訪問(wèn)的網(wǎng)頁(yè)墨坚。

Crawley的官網(wǎng)地址：

http://project.crawley-cloud.com/

PySpider

相對(duì)于Scrapy 框架而言，PySpider 框架是一支新秀映挂。它采用Pyho語(yǔ)言編寫，分布式架構(gòu)盗尸，支持多種數(shù)據(jù)庫(kù)后端柑船，強(qiáng)大的WebUl支持腳本編輯器、任務(wù)監(jiān)視器泼各、項(xiàng)目管理器以及結(jié)果查看器鞍时。PSpier 的具體特性如下:

Python 腳本控制，可以用任何你喜歡的html解析包(內(nèi)置pyquery)扣蜻。

Web界面編寫調(diào)試腳本逆巍、起停腳本、監(jiān)控執(zhí)行狀態(tài)莽使、查看活動(dòng)歷史锐极、獲取結(jié)果產(chǎn)出。

支持MySQL芳肌、MongoDB灵再、 Redis. SQLite肋层、Elasticsearch, PostgreSQL與SQLAlchemy 。

支持RabbitMQ翎迁、Beanstalk栋猖、 Redis 和Kombu作為消息隊(duì)列。

支持抓取JavaSeript的頁(yè)面汪榔。

強(qiáng)大的調(diào)度控制蒲拉，支持超時(shí)重爬及優(yōu)先級(jí)設(shè)置。

專組件可替換痴腌，支持單機(jī)/分布式部署全陨，支持Docker部署。

項(xiàng)目地址：

https://github.com/binux/pyspider

Portia

Portia是一個(gè)開(kāi)源可視化爬蟲工具衷掷，可讓您在不需要任何編程知識(shí)的情況下爬取網(wǎng)站!簡(jiǎn)單地注釋您感興趣的頁(yè)面辱姨，Portia將創(chuàng)建一個(gè)蜘蛛來(lái)從類似的頁(yè)面提取數(shù)據(jù)。

Newspaper

Newspaper可以用來(lái)提取新聞戚嗅、文章和內(nèi)容分析雨涛。使用多線程，支持10多種語(yǔ)言等懦胞。

Newspaper框架是Python爬蟲框架中在GitHub上點(diǎn)贊排名第三的爬蟲框架替久，適合抓取新聞網(wǎng)頁(yè)。它的操作非常簡(jiǎn)單易學(xué)躏尉，即使對(duì)完全沒(méi)了解過(guò)爬蟲的初學(xué)者也非常的友好蚯根，簡(jiǎn)單學(xué)習(xí)就能輕易上手，因?yàn)槭褂盟恍枰紤]header胀糜、IP代理颅拦，也不需要考慮網(wǎng)頁(yè)解析，網(wǎng)頁(yè)源代碼架構(gòu)等問(wèn)題教藻。這個(gè)是它的優(yōu)點(diǎn)距帅，但也是它的缺點(diǎn)，不考慮這些會(huì)導(dǎo)致它訪問(wèn)網(wǎng)頁(yè)時(shí)會(huì)有被直接拒絕的可能括堤。

Newspaper功能如下：

多線程文章下載框架

新聞網(wǎng)址識(shí)別

從html中提取文本

從html中提取頂部圖像

從html中提取所有圖像

從文本中提取關(guān)鍵字

從文本中提取摘要

從文本中提取作者

Google趨勢(shì)術(shù)語(yǔ)提取碌秸。

使用10種以上語(yǔ)言（英語(yǔ)，中文悄窃，德語(yǔ)讥电，阿拉伯語(yǔ)......）

Beautiful Soup

Beautiful Soup 是一個(gè)可以從HTML或XML文件中提取數(shù)據(jù)的Python庫(kù).它能夠通過(guò)你喜歡的轉(zhuǎn)換器實(shí)現(xiàn)慣用的文檔導(dǎo)航,查找,修改文檔的方式.Beautiful Soup會(huì)幫你節(jié)省數(shù)小時(shí)甚至數(shù)天的工作時(shí)間。

與Scrapy不同的是Beautiful Soup并不是一個(gè)框架轧抗，而是一個(gè)模塊恩敌；與Scrapy相比，bs4中間多了一道解析的過(guò)程（Scrapy是URL返回什么數(shù)據(jù)鸦致，程序就接受什么數(shù)據(jù)進(jìn)行過(guò)濾）潮剪，bs4則在接收數(shù)據(jù)和進(jìn)行過(guò)濾之間多了一個(gè)解析的過(guò)程涣楷，根據(jù)解析器的不同，最終處理的數(shù)據(jù)也有所不同抗碰，加上這一步驟的優(yōu)點(diǎn)是可以根據(jù)輸入數(shù)據(jù)的不同進(jìn)行針對(duì)性的解析狮斗；同一選擇lxml解析器；

Beautiful Soup的查找數(shù)據(jù)的方法更加靈活方便弧蝇，不但可以通過(guò)標(biāo)簽查找碳褒，還可以通過(guò)標(biāo)簽屬性來(lái)查找，而且bs4還可以配合第三方的解析器看疗，可以針對(duì)性的對(duì)網(wǎng)頁(yè)進(jìn)行解析沙峻，使得bs4威力更加強(qiáng)大，方便两芳。

Grab爬蟲框架

Grab是一個(gè)用于構(gòu)建Web刮板的Python框架摔寨。借助Grab，您可以構(gòu)建各種復(fù)雜的網(wǎng)頁(yè)抓取工具怖辆，從簡(jiǎn)單的5行腳本到處理數(shù)百萬(wàn)個(gè)網(wǎng)頁(yè)的復(fù)雜異步網(wǎng)站抓取工具是复。Grab提供一個(gè)API用于執(zhí)行網(wǎng)絡(luò)請(qǐng)求和處理接收到的內(nèi)容，例如與HTML文檔的DOM樹(shù)進(jìn)行交互竖螃。

Cola爬蟲框架

Cola是一個(gè)分布式的爬蟲框架淑廊，對(duì)于用戶來(lái)說(shuō)，只需編寫幾個(gè)特定的函數(shù)特咆，而無(wú)需關(guān)注分布式運(yùn)行的細(xì)節(jié)季惩。任務(wù)會(huì)自動(dòng)分配到多臺(tái)機(jī)器上，整個(gè)過(guò)程對(duì)用戶是透明的腻格。

文末福利：

2021最新黑馬程序員爬蟲教程画拾！

從最簡(jiǎn)答的html語(yǔ)法到進(jìn)階的scrap爬蟲框架。新年福利荒叶。送送送碾阁！

微?G眾號(hào)回復(fù)‘爬蟲教程’ 送你黑馬程序員最新爬蟲教程

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個(gè)濱河市些楣，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌宪睹，老刑警劉巖愁茁，帶你破解...
沈念sama閱讀 217,406評(píng)論 6贊 503
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場(chǎng)離奇詭異亭病，居然都是意外死亡鹅很，警方通過(guò)查閱死者的電腦和手機(jī)，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 92,732評(píng)論 3贊 393
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門罪帖，熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)促煮，“玉大人邮屁，你說(shuō)我怎么就攤上這事〔こ荩” “怎么了佑吝？”我有些...
開(kāi)封第一講書人閱讀 163,711評(píng)論 0贊 353
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長(zhǎng)绳匀。經(jīng)常有香客問(wèn)我芋忿，道長(zhǎng)，這世上最難降的妖魔是什么疾棵？我笑而不...
開(kāi)封第一講書人閱讀 58,380評(píng)論 1贊 293
?港島之戀（遺憾婚禮）
正文為了忘掉前任戈钢，我火速辦了婚禮，結(jié)果婚禮上是尔，老公的妹妹穿的比我還像新娘殉了。我一直安慰自己，他們只是感情好拟枚，可當(dāng)我...
茶點(diǎn)故事閱讀 67,432評(píng)論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來(lái)的
文/花漫我一把揭開(kāi)白布薪铜。她就那樣靜靜地躺著，像睡著了一般梨州。火紅的嫁衣襯著肌膚如雪痕囱。梳的紋絲不亂的頭發(fā)上，一...
開(kāi)封第一講書人閱讀 51,301評(píng)論 1贊 301
城市分裂傳說(shuō)
那天暴匠，我揣著相機(jī)與錄音鞍恢，去河邊找鬼。笑死每窖，一個(gè)胖子當(dāng)著我的面吹牛帮掉，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播窒典，決...
沈念sama閱讀 40,145評(píng)論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開(kāi)眼蟆炊，長(zhǎng)吁一口氣：“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼！你這毒婦竟也來(lái)了瀑志？” 一聲冷哼從身側(cè)響起涩搓，我...
開(kāi)封第一講書人閱讀 39,008評(píng)論 0贊 276
萬(wàn)榮殺人案實(shí)錄
序言：老撾萬(wàn)榮一對(duì)情侶失蹤，失蹤者是張志新（化名）和其女友劉穎劈猪，沒(méi)想到半個(gè)月后昧甘，有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 45,443評(píng)論 1贊 314
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡战得，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,649評(píng)論 3贊 334
?白月光啟示錄
正文我和宋清朗相戀三年充边，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片常侦。...
茶點(diǎn)故事閱讀 39,795評(píng)論 1贊 347
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡浇冰，死狀恐怖贬媒，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情肘习，我是刑警寧澤际乘，帶...
沈念sama閱讀 35,501評(píng)論 5贊 345
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站井厌，受9級(jí)特大地震影響蚓庭，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜仅仆，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,119評(píng)論 3贊 328
男人毒藥：我在死后第九天來(lái)索命
文/蒙蒙一器赞、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧墓拜，春花似錦港柜、人聲如沸。這莊子的主人今日做“春日...
開(kāi)封第一講書人閱讀 31,731評(píng)論 0贊 22
一樁弒父案夏醉，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)。三九已至涌韩，卻和暖如春畔柔，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背臣樱。一陣腳步聲響...
開(kāi)封第一講書人閱讀 32,865評(píng)論 1贊 269
情欲美人皮
我被黑心中介騙來(lái)泰國(guó)打工靶擦，沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留，地道東北人雇毫。一個(gè)月前我還...
沈念sama閱讀 47,899評(píng)論 2贊 370
代替公主和親
正文我出身青樓玄捕，卻偏偏與公主長(zhǎng)得像，于是被迫代替她去往敵國(guó)和親棚放。傳聞我的和親對(duì)象是個(gè)殘疾皇子枚粘，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 44,724評(píng)論 2贊 354

2021最新爬蟲教程

推薦閱讀更多精彩內(nèi)容