scrapy 爬電影抓取數(shù)據(jù)

前段時間學(xué)python學(xué)完了基礎(chǔ)的知識當(dāng)然是要來點實際的東西玩玩了揭糕。爬蟲鹦付，這個對于python再適合不過，今天就先來爬一個電影網(wǎng)站卿拴，下一篇我們來爬美女圖片，這篇就做為一個爬蟲基礎(chǔ)練練手梨与。將他有的資源信息爬下來保存成一個csv文件堕花。

序

環(huán)境 mac python3.6.1 pycharm

Step1

默認(rèn)scrapy的環(huán)境是安裝好的。我們在終端里輸入scrapy startproject 工程名新建一個爬蟲項目粥鞋，scrapy會為我們初始化一個基本結(jié)構(gòu)如下圖：

image.png

其中Id97Index.py是我們編寫邏輯的文件缘挽，也是我們自己建的。除此之外都會在新建項目時生成呻粹。

Step2

在items.py中創(chuàng)建我們的實體類：

image.png

分別為“封面”壕曼、“電影名”、“評分”等浊、“類型”
該實體類會在后面提交數(shù)據(jù)時scrapy進行寫入需要用到的腮郊，總之呢。你需要存什么數(shù)據(jù)就寫對應(yīng)字段筹燕，后面保存文件后你就明白了

Step3

現(xiàn)在可以開始寫我們爬蟲的邏輯了
如Step1我們在spiders文件夾下新建一個Index97Index.py再新建類Id97Movie繼承CrawlSpider如下：

image.png

其中name為我們啟動項目的名字
host主要為后面做一些拼接
allowed_domains主域名
start_urls需要請求爬的初始urls

image.png

從源碼可以看到name和start_urls是必要的參數(shù)轧飞，并且一開始的請求是循環(huán)start_urls，所以一定不能忘記庄萎，名字也不能定義踪少。

Step4

覆寫parse方法

image.png

根據(jù)chrome中查看到每個item內(nèi)容都在紅框中這個標(biāo)簽內(nèi)塘安，我們可以右鍵選擇copy xpath(xpath知識可以google兩分鐘就會)進行xpath選取
獲取下一頁url糠涛，同樣找到下一頁的xpath。這里我是把最下面的"上一頁兼犯，下一頁頁碼"都拿來忍捡。因為下一頁這個標(biāo)簽總在倒數(shù)第二個就可以使用pages[-2]獲取下一頁的url
for循環(huán)處理每個列表列的內(nèi)容使用parse_item方法處理
最后yield Request(nextPageUrl, callback=self.parse)再次請求下一頁的內(nèi)容，依然使用parse方法處理這樣循環(huán)直到最后一頁
parse_item代碼：

image.png

Step5

設(shè)置settings.py我們需要一個存放路徑及格式

image.png

Step6

到該項目的目錄下在終端執(zhí)行scrapy crawl name(step3中所說的name='id97')切黔，也可將命令直接放在python文件中進行執(zhí)行

image.png

至此這個爬蟲就基本結(jié)束了砸脊。settings.py中還有一些優(yōu)化配置網(wǎng)上還是比較多的∥诚迹可以自行配置試試看
源代碼：https://github.com/EasonHolmes/Spider_Movie

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末凌埂，一起剝皮案震驚了整個濱河市，隨后出現(xiàn)的幾起案子诗芜，更是在濱河造成了極大的恐慌瞳抓，老刑警劉巖埃疫，帶你破解...
沈念sama閱讀 222,865評論 6贊 518
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場離奇詭異孩哑，居然都是意外死亡栓霜，警方通過查閱死者的電腦和手機，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 95,296評論 3贊 399
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門横蜒，熙熙樓的掌柜王于貴愁眉苦臉地迎上來胳蛮，“玉大人，你說我怎么就攤上這事丛晌〗龃叮” “怎么了？”我有些...
開封第一講書人閱讀 169,631評論 0贊 364
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵茵乱，是天一觀的道長茂洒。經(jīng)常有香客問我，道長瓶竭，這世上最難降的妖魔是什么督勺？我笑而不...
開封第一講書人閱讀 60,199評論 1贊 300
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮斤贰，結(jié)果婚禮上智哀，老公的妹妹穿的比我還像新娘。我一直安慰自己荧恍，他們只是感情好瓷叫，可當(dāng)我...
茶點故事閱讀 69,196評論 6贊 398
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著送巡，像睡著了一般摹菠。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上骗爆，一...
開封第一講書人閱讀 52,793評論 1贊 314
城市分裂傳說
那天次氨，我揣著相機與錄音，去河邊找鬼摘投。笑死煮寡，一個胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的犀呼。我是一名探鬼主播幸撕，決...
沈念sama閱讀 41,221評論 3贊 423
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼外臂！你這毒婦竟也來了坐儿？” 一聲冷哼從身側(cè)響起，我...
開封第一講書人閱讀 40,174評論 0贊 277
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎貌矿，沒想到半個月后累铅，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 46,699評論 1贊 320
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡站叼，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 38,770評論 3贊 343
?白月光啟示錄
正文我和宋清朗相戀三年娃兽，在試婚紗的時候發(fā)現(xiàn)自己被綠了。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片尽楔。...
茶點故事閱讀 40,918評論 1贊 353
活死人
序言：一個原本活蹦亂跳的男人離奇死亡投储，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出阔馋，到底是詐尸還是另有隱情玛荞，我是刑警寧澤，帶...
沈念sama閱讀 36,573評論 5贊 351
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布呕寝，位于F島的核電站勋眯，受9級特大地震影響，放射性物質(zhì)發(fā)生泄漏下梢。R本人自食惡果不足惜客蹋，卻給世界環(huán)境...
茶點故事閱讀 42,255評論 3贊 336
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望孽江。院中可真熱鬧讶坯，春花似錦、人聲如沸岗屏。這莊子的主人今日做“春日...
開封第一講書人閱讀 32,749評論 0贊 25
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽这刷。三九已至婉烟，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間暇屋，已是汗流浹背似袁。一陣腳步聲響...
開封第一講書人閱讀 33,862評論 1贊 274
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留率碾，地道東北人叔营。一個月前我還...
沈念sama閱讀 49,364評論 3贊 379
代替公主和親
正文我出身青樓屋彪，卻偏偏與公主長得像所宰，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子畜挥，可洞房花燭夜當(dāng)晚...
茶點故事閱讀 45,926評論 2贊 361

scrapy 爬電影 抓取數(shù)據(jù)

序

Step1

Step2

Step3

Step4

Step5

Step6

推薦閱讀更多精彩內(nèi)容

scrapy 爬電影抓取數(shù)據(jù)