10個Python爬蟲框架推薦齿穗,你使用的是哪個呢傲隶?

實(shí)現(xiàn)爬蟲技術(shù)的編程環(huán)境有很多種,Java窃页、Python跺株、C++等都可以用來爬蟲。但很多人選擇Python來寫爬蟲脖卖,為什么呢乒省?因?yàn)镻ython確實(shí)很適合做爬蟲,豐富的第三方庫十分強(qiáng)大畦木,簡單幾行代碼便可實(shí)現(xiàn)你想要的功能袖扛。更重要的,Python也是數(shù)據(jù)挖掘和分析的好能手。那么蛆封,Python爬蟲一般用什么框架比較好唇礁?

一般來講,只有在遇到比較大型的需求時惨篱,才會使用Python爬蟲框架盏筐。這樣的做的主要目的,是為了方便管理以及擴(kuò)展砸讳。本文我將向大家推薦十個Python爬蟲框架琢融。

1、Scrapy:Scrapy是一個為了爬取網(wǎng)站數(shù)據(jù)绣夺,提取結(jié)構(gòu)性數(shù)據(jù)而編寫的應(yīng)用框架吏奸。 可以應(yīng)用在包括數(shù)據(jù)挖掘,信息處理或存儲歷史數(shù)據(jù)等一系列的程序中陶耍。它是很強(qiáng)大的爬蟲框架奋蔚,可以滿足簡單的頁面爬取,比如可以明確獲知url pattern的情況烈钞。用這個框架可以輕松爬下來如亞馬遜商品信息之類的數(shù)據(jù)泊碑。但是對于稍微復(fù)雜一點(diǎn)的頁面,如weibo的頁面信息毯欣,這個框架就滿足不了需求了馒过。它的特性有:HTML, XML源數(shù)據(jù) 選擇及提取 的內(nèi)置支持;提供了一系列在spider之間共享的可復(fù)用的過濾器(即 Item Loaders)酗钞,對智能處理爬取數(shù)據(jù)提供了內(nèi)置支持腹忽。

2、Crawley:高速爬取對應(yīng)網(wǎng)站的內(nèi)容砚作,支持關(guān)系和非關(guān)系數(shù)據(jù)庫窘奏,數(shù)據(jù)可以導(dǎo)出為JSON、XML等葫录。

3着裹、Portia:是一個開源可視化爬蟲工具,可讓使用者在不需要任何編程知識的情況下爬取網(wǎng)站米同!簡單地注釋自己感興趣的頁面骇扇,Portia將創(chuàng)建一個蜘蛛來從類似的頁面提取數(shù)據(jù)。簡單來講面粮,它是基于scrapy內(nèi)核少孝;可視化爬取內(nèi)容,不需要任何開發(fā)專業(yè)知識熬苍;動態(tài)匹配相同模板的內(nèi)容韭山。

4、newspaper:可以用來提取新聞冷溃、文章和內(nèi)容分析钱磅。使用多線程,支持10多種語言等似枕。作者從requests庫的簡潔與強(qiáng)大得到靈感盖淡,使用Python開發(fā)的可用于提取文章內(nèi)容的程序。支持10多種語言并且所有的都是unicode編碼凿歼。

5褪迟、Python-goose:Java寫的文章提取工具。Python-goose框架可提取的信息包括:文章主體內(nèi)容答憔、文章主要圖片味赃、文章中嵌入的任何Youtube/Vimeo視頻、元描述虐拓、元標(biāo)簽心俗。

6、Beautiful Soup:名氣大蓉驹,整合了一些常用爬蟲需求城榛。它是一個可以從HTML或XML文件中提取數(shù)據(jù)的Python庫。它能夠通過你喜歡的轉(zhuǎn)換器實(shí)現(xiàn)慣用的文檔導(dǎo)航,查找,修改文檔的方式.Beautiful Soup會幫你節(jié)省數(shù)小時甚至數(shù)天的工作時間态兴。Beautiful Soup的缺點(diǎn)是不能加載JS狠持。

7、mechanize:它的優(yōu)點(diǎn)是可以加載JS瞻润。當(dāng)然它也有缺點(diǎn)喘垂,比如文檔嚴(yán)重缺失。不過通過官方的example以及人肉嘗試的方法绍撞,還是勉強(qiáng)能用的正勒。

8、selenium:這是一個調(diào)用瀏覽器的driver楚午,通過這個庫你可以直接調(diào)用瀏覽器完成某些操作昭齐,比如輸入驗(yàn)證碼。Selenium是自動化測試工具矾柜,它支持各種瀏覽器阱驾,包括 Chrome,Safari怪蔑,F(xiàn)irefox等主流界面式瀏覽器里覆,如果在這些瀏覽器里面安裝一個 Selenium 的插件,可以方便地實(shí)現(xiàn)Web界面的測試. Selenium支持瀏覽器驅(qū)動缆瓣。Selenium支持多種語言開發(fā)喧枷,比如 Java,C,Ruby等等隧甚,PhantomJS 用來渲染解析JS车荔,Selenium 用來驅(qū)動以及與Python的對接,Python進(jìn)行后期的處理戚扳。

9忧便、cola:是一個分布式的爬蟲框架,對于用戶來說帽借,只需編寫幾個特定的函數(shù)珠增,而無需關(guān)注分布式運(yùn)行的細(xì)節(jié)。任務(wù)會自動分配到多臺機(jī)器上砍艾,整個過程對用戶是透明的蒂教。項(xiàng)目整體設(shè)計有點(diǎn)糟,模塊間耦合度較高脆荷。

10凝垛、PySpider:一個國人編寫的強(qiáng)大的網(wǎng)絡(luò)爬蟲系統(tǒng)并帶有強(qiáng)大的WebUI。采用Python語言編寫简烘,分布式架構(gòu)苔严,支持多種數(shù)據(jù)庫后端,強(qiáng)大的WebUI支持腳本編輯器孤澎,任務(wù)監(jiān)視器届氢,項(xiàng)目管理器以及結(jié)果查看器。Python腳本控制覆旭,可以用任何你喜歡的html解析包退子。

以上就是我分享的Python爬蟲一般用的十大主流框架。如果對您有幫助的話嗎型将,麻煩點(diǎn)個關(guān)注再走喔~謝謝閱讀寂祥。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市七兜,隨后出現(xiàn)的幾起案子丸凭,更是在濱河造成了極大的恐慌,老刑警劉巖腕铸,帶你破解...
    沈念sama閱讀 221,198評論 6 514
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件惜犀,死亡現(xiàn)場離奇詭異,居然都是意外死亡狠裹,警方通過查閱死者的電腦和手機(jī)虽界,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,334評論 3 398
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來涛菠,“玉大人莉御,你說我怎么就攤上這事撇吞。” “怎么了礁叔?”我有些...
    開封第一講書人閱讀 167,643評論 0 360
  • 文/不壞的土叔 我叫張陵牍颈,是天一觀的道長。 經(jīng)常有香客問我晴圾,道長颂砸,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 59,495評論 1 296
  • 正文 為了忘掉前任死姚,我火速辦了婚禮,結(jié)果婚禮上勤篮,老公的妹妹穿的比我還像新娘都毒。我一直安慰自己,他們只是感情好碰缔,可當(dāng)我...
    茶點(diǎn)故事閱讀 68,502評論 6 397
  • 文/花漫 我一把揭開白布账劲。 她就那樣靜靜地躺著,像睡著了一般金抡。 火紅的嫁衣襯著肌膚如雪瀑焦。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 52,156評論 1 308
  • 那天梗肝,我揣著相機(jī)與錄音榛瓮,去河邊找鬼。 笑死巫击,一個胖子當(dāng)著我的面吹牛禀晓,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播坝锰,決...
    沈念sama閱讀 40,743評論 3 421
  • 文/蒼蘭香墨 我猛地睜開眼粹懒,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了顷级?” 一聲冷哼從身側(cè)響起凫乖,我...
    開封第一講書人閱讀 39,659評論 0 276
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎弓颈,沒想到半個月后帽芽,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 46,200評論 1 319
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡恨豁,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,282評論 3 340
  • 正文 我和宋清朗相戀三年嚣镜,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片橘蜜。...
    茶點(diǎn)故事閱讀 40,424評論 1 352
  • 序言:一個原本活蹦亂跳的男人離奇死亡菊匿,死狀恐怖付呕,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情跌捆,我是刑警寧澤徽职,帶...
    沈念sama閱讀 36,107評論 5 349
  • 正文 年R本政府宣布,位于F島的核電站佩厚,受9級特大地震影響姆钉,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜抄瓦,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,789評論 3 333
  • 文/蒙蒙 一潮瓶、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧钙姊,春花似錦毯辅、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,264評論 0 23
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至膊毁,卻和暖如春胀莹,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背婚温。 一陣腳步聲響...
    開封第一講書人閱讀 33,390評論 1 271
  • 我被黑心中介騙來泰國打工描焰, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人缭召。 一個月前我還...
    沈念sama閱讀 48,798評論 3 376
  • 正文 我出身青樓栈顷,卻偏偏與公主長得像,于是被迫代替她去往敵國和親嵌巷。 傳聞我的和親對象是個殘疾皇子萄凤,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,435評論 2 359

推薦閱讀更多精彩內(nèi)容