利用Scrapy框架爬取豆瓣TOP250

一苍糠、Scrapy是什么

百度是這么說的:
1雅镊、Scrapy左刽，Python開發(fā)的一個快速捺信、高層次的屏幕抓取和web抓取框架，用于抓取web站點并從頁面中提取結(jié)構(gòu)化的數(shù)據(jù)欠痴。Scrapy用途廣泛迄靠，可以用于數(shù)據(jù)挖掘、監(jiān)測和自動化測試
其實說白了Scrapy就是Python網(wǎng)絡(luò)爬蟲的一個很強的框架
2喇辽、怎么安裝Scrapy...
這個先略過不懂的自己先百度去掌挚，因為里面的坑比較多
3、看看scrapy的原理圖 :
Scrapy使用了Twisted異步網(wǎng)絡(luò)庫來處理網(wǎng)絡(luò)通訊

image.png

注明：圖片來源于互聯(lián)網(wǎng)

(1)菩咨、Scrapy Engine（Scrapy引擎）

Scrapy引擎是用來控制整個系統(tǒng)的數(shù)據(jù)處理流程吠式，并進行事務(wù)處理的觸發(fā)。更多的詳細內(nèi)容可以看下面的數(shù)據(jù)處理流程抽米。

(2)特占、Scheduler（調(diào)度）

調(diào)度程序從Scrapy引擎接受請求并排序列入隊列，并在Scrapy引擎發(fā)出請求后返還給他們云茸。

(3)是目、Downloader（下載器）

下載器的主要職責(zé)是抓取網(wǎng)頁并將網(wǎng)頁內(nèi)容返還給蜘蛛( Spiders)。

(4)标捺、Spiders（蜘蛛）

蜘蛛是有Scrapy用戶自己定義用來解析網(wǎng)頁并抓取制定URL返回的內(nèi)容的類懊纳，每個蜘蛛都能處理一個域名或一組域名。換句話說就是用來定義特定網(wǎng)站的抓取和解析規(guī)則亡容。
原理圖大家看看大概可以理解就行

二嗤疯、Scrapy創(chuàng)建項目

捕獲.JPG

里面的命令都很清晰吧
scrapy startproject xxx
xxx表示爬蟲的名字:

捕獲3.JPG

這個是它的結(jié)構(gòu)創(chuàng)建成功之后會自動生成的一些配置和spider文件

scrapy shell http://www.baidu.com

捕獲1.JPG

200表示請求數(shù)據(jù)成功

三、開始爬取豆瓣top250

1.JPG

我們要獲取的數(shù)據(jù)這個<div class="article"></div>標(biāo)簽里面
可以用xpath或者CSS都可以,我用的是xpath解析數(shù)據(jù)萍倡，可以自己去下載一個xpath helper然后拖到Google瀏覽器里面去
1)新建douban

2.JPG

2)定義items

4.JPG

3)xapth解析數(shù)據(jù)

7.JPG

如何運行這個爬蟲身弊？命令行：
scrapy crawl douban_spider

也可以這樣子

9.JPG

最后附上一張圖

577.jpg

1111.jpg

1438.png

下一篇文章告訴大家怎么把爬取的數(shù)據(jù)保存為TXT或者json數(shù)據(jù)和MySQL里面去

最后編輯于：2018.10.10 23:12:33

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市列敲，隨后出現(xiàn)的幾起案子阱佛，更是在濱河造成了極大的恐慌，老刑警劉巖戴而，帶你破解...
沈念sama閱讀 211,123評論 6贊 490
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件凑术，死亡現(xiàn)場離奇詭異，居然都是意外死亡所意，警方通過查閱死者的電腦和手機淮逊，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 90,031評論 2贊 384
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門催首，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人泄鹏，你說我怎么就攤上這事郎任。” “怎么了备籽？”我有些...
開封第一講書人閱讀 156,723評論 0贊 345
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵舶治，是天一觀的道長。經(jīng)常有香客問我车猬，道長霉猛，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 56,357評論 1贊 283
?港島之戀（遺憾婚禮）
正文為了忘掉前任珠闰，我火速辦了婚禮惜浅，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘伏嗜。我一直安慰自己坛悉，他們只是感情好，可當(dāng)我...
茶點故事閱讀 65,412評論 5贊 384
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布阅仔。她就那樣靜靜地躺著吹散，像睡著了一般。火紅的嫁衣襯著肌膚如雪八酒。梳的紋絲不亂的頭發(fā)上空民，一...
開封第一講書人閱讀 49,760評論 1贊 289
城市分裂傳說
那天，我揣著相機與錄音羞迷，去河邊找鬼界轩。笑死，一個胖子當(dāng)著我的面吹牛衔瓮，可吹牛的內(nèi)容都是我干的浊猾。我是一名探鬼主播，決...
沈念sama閱讀 38,904評論 3贊 405
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼热鞍，長吁一口氣：“原來是場噩夢啊……” “哼葫慎！你這毒婦竟也來了？” 一聲冷哼從身側(cè)響起薇宠，我...
開封第一講書人閱讀 37,672評論 0贊 266
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤偷办，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后澄港，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體椒涯，經(jīng)...
沈念sama閱讀 44,118評論 1贊 303
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 36,456評論 2贊 325
?白月光啟示錄
正文我和宋清朗相戀三年回梧，在試婚紗的時候發(fā)現(xiàn)自己被綠了废岂。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片祖搓。...
茶點故事閱讀 38,599評論 1贊 340
活死人
序言：一個原本活蹦亂跳的男人離奇死亡，死狀恐怖湖苞，靈堂內(nèi)的尸體忽然破棺而出拯欧，到底是詐尸還是另有隱情，我是刑警寧澤袒啼，帶...
沈念sama閱讀 34,264評論 4贊 328
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布哈扮，位于F島的核電站，受9級特大地震影響蚓再，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜包各，卻給世界環(huán)境...
茶點故事閱讀 39,857評論 3贊 312
男人毒藥：我在死后第九天來索命
文/蒙蒙一摘仅、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧问畅，春花似錦娃属、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 30,731評論 0贊 21
一樁弒父案矾端，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至卵皂，卻和暖如春秩铆，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背灯变。一陣腳步聲響...
開封第一講書人閱讀 31,956評論 1贊 264
情欲美人皮
我被黑心中介騙來泰國打工殴玛，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留，地道東北人添祸。一個月前我還...
沈念sama閱讀 46,286評論 2贊 360
代替公主和親
正文我出身青樓滚粟，卻偏偏與公主長得像，于是被迫代替她去往敵國和親刃泌。傳聞我的和親對象是個殘疾皇子凡壤，可洞房花燭夜當(dāng)晚...
茶點故事閱讀 43,465評論 2贊 348

利用Scrapy框架爬取豆瓣TOP250

推薦閱讀更多精彩內(nèi)容