scrapy 爬電影 抓取數(shù)據(jù)

前段時間學(xué)python學(xué)完了基礎(chǔ)的知識當(dāng)然是要來點實際的東西玩玩了揭糕。爬蟲鹦付,這個對于python再適合不過,今天就先來爬一個電影網(wǎng)站卿拴,下一篇我們來爬美女圖片,這篇就做為一個爬蟲基礎(chǔ)練練手梨与。將他有的資源信息爬下來保存成一個csv文件堕花。

環(huán)境 mac python3.6.1 pycharm

Step1

默認(rèn)scrapy的環(huán)境是安裝好的。我們在終端里輸入scrapy startproject 工程名新建一個爬蟲項目粥鞋,scrapy會為我們初始化一個基本結(jié)構(gòu)如下圖:

image.png

其中Id97Index.py是我們編寫邏輯的文件缘挽,也是我們自己建的。除此之外都會在新建項目時生成呻粹。

Step2

在items.py中創(chuàng)建我們的實體類:


image.png

分別為“封面”壕曼、“電影名”、“評分”等浊、“類型”
該實體類會在后面提交數(shù)據(jù)時scrapy進行寫入需要用到的腮郊,總之呢。你需要存什么數(shù)據(jù)就寫對應(yīng)字段筹燕,后面保存文件后你就明白了

Step3

現(xiàn)在可以開始寫我們爬蟲的邏輯了
如Step1我們在spiders文件夾下新建一個Index97Index.py再新建類Id97Movie繼承CrawlSpider如下:

image.png

其中name為我們啟動項目的名字
host主要為后面做一些拼接
allowed_domains主域名
start_urls需要請求爬的初始urls

image.png
image.png

從源碼可以看到namestart_urls是必要的參數(shù)轧飞,并且一開始的請求是循環(huán)start_urls,所以一定不能忘記庄萎,名字也不能定義踪少。

Step4

覆寫parse方法

image.png

image.png
  • 根據(jù)chrome中查看到每個item內(nèi)容都在紅框中這個標(biāo)簽內(nèi)塘安,我們可以右鍵選擇copy xpath(xpath知識可以google兩分鐘就會)進行xpath選取
  • 獲取下一頁url糠涛,同樣找到下一頁的xpath。這里我是把最下面的"上一頁兼犯,下一頁 頁碼"都拿來忍捡。因為下一頁這個標(biāo)簽總在倒數(shù)第二個就可以使用pages[-2]獲取下一頁的url
  • for循環(huán)處理每個列表列的內(nèi)容使用parse_item方法處理
  • 最后yield Request(nextPageUrl, callback=self.parse)再次請求下一頁的內(nèi)容,依然使用parse方法處理這樣循環(huán)直到最后一頁
    parse_item代碼:
    image.png

Step5

設(shè)置settings.py我們需要一個存放路徑及格式

image.png

Step6

到該項目的目錄下在終端執(zhí)行scrapy crawl name(step3中所說的name='id97')切黔,也可將命令直接放在python文件中進行執(zhí)行

image.png

至此這個爬蟲就基本結(jié)束了砸脊。settings.py中還有一些優(yōu)化配置網(wǎng)上還是比較多的∥诚迹可以自行配置試試看
源代碼:https://github.com/EasonHolmes/Spider_Movie

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末凌埂,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子诗芜,更是在濱河造成了極大的恐慌瞳抓,老刑警劉巖埃疫,帶你破解...
    沈念sama閱讀 222,865評論 6 518
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異孩哑,居然都是意外死亡栓霜,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 95,296評論 3 399
  • 文/潘曉璐 我一進店門横蜒,熙熙樓的掌柜王于貴愁眉苦臉地迎上來胳蛮,“玉大人,你說我怎么就攤上這事丛晌〗龃叮” “怎么了?”我有些...
    開封第一講書人閱讀 169,631評論 0 364
  • 文/不壞的土叔 我叫張陵茵乱,是天一觀的道長茂洒。 經(jīng)常有香客問我,道長瓶竭,這世上最難降的妖魔是什么督勺? 我笑而不...
    開封第一講書人閱讀 60,199評論 1 300
  • 正文 為了忘掉前任,我火速辦了婚禮斤贰,結(jié)果婚禮上智哀,老公的妹妹穿的比我還像新娘。我一直安慰自己荧恍,他們只是感情好瓷叫,可當(dāng)我...
    茶點故事閱讀 69,196評論 6 398
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著送巡,像睡著了一般摹菠。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上骗爆,一...
    開封第一講書人閱讀 52,793評論 1 314
  • 那天次氨,我揣著相機與錄音,去河邊找鬼摘投。 笑死煮寡,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的犀呼。 我是一名探鬼主播幸撕,決...
    沈念sama閱讀 41,221評論 3 423
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼外臂!你這毒婦竟也來了坐儿?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 40,174評論 0 277
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎貌矿,沒想到半個月后累铅,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 46,699評論 1 320
  • 正文 獨居荒郊野嶺守林人離奇死亡站叼,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 38,770評論 3 343
  • 正文 我和宋清朗相戀三年娃兽,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片尽楔。...
    茶點故事閱讀 40,918評論 1 353
  • 序言:一個原本活蹦亂跳的男人離奇死亡投储,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出阔馋,到底是詐尸還是另有隱情玛荞,我是刑警寧澤,帶...
    沈念sama閱讀 36,573評論 5 351
  • 正文 年R本政府宣布呕寝,位于F島的核電站勋眯,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏下梢。R本人自食惡果不足惜客蹋,卻給世界環(huán)境...
    茶點故事閱讀 42,255評論 3 336
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望孽江。 院中可真熱鬧讶坯,春花似錦、人聲如沸岗屏。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,749評論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽这刷。三九已至婉烟,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間暇屋,已是汗流浹背似袁。 一陣腳步聲響...
    開封第一講書人閱讀 33,862評論 1 274
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留率碾,地道東北人叔营。 一個月前我還...
    沈念sama閱讀 49,364評論 3 379
  • 正文 我出身青樓屋彪,卻偏偏與公主長得像所宰,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子畜挥,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 45,926評論 2 361

推薦閱讀更多精彩內(nèi)容

  • scrapy是python最有名的爬蟲框架之一仔粥,可以很方便的進行web抓取,并且提供了很強的定制型,這里記錄簡單學(xué)...
    bomo閱讀 2,128評論 1 11
  • scrapy學(xué)習(xí)筆記(有示例版) 我的博客 scrapy學(xué)習(xí)筆記1.使用scrapy1.1創(chuàng)建工程1.2創(chuàng)建爬蟲模...
    陳思煜閱讀 12,713評論 4 46
  • 1 安裝Scrapy Scrapy是一個為了爬取網(wǎng)站數(shù)據(jù)躯泰,提取結(jié)構(gòu)性數(shù)據(jù)而編寫的應(yīng)用框架谭羔。 可以應(yīng)用在包括數(shù)據(jù)挖掘...
    superzhan閱讀 1,439評論 0 11
  • 竹葉竹枝竹爬節(jié), 松針?biāo)晒蓾M椏麦向。 戀君八年如八日瘟裸, 密降藤蘿不嫌多。 思君八日似八年诵竭, 苦心秤砣不移挪话告。 此生無...
    喜詩的_蒼梧閱讀 215評論 4 2
  • 這一個禮拜真不經(jīng)的個過啊卵慰!又到禮拜五了沙郭,兒子最喜歡禮拜五了,不用寫作業(yè)裳朋,明天還不用上學(xué)病线,可這個禮拜就...
    b88e3d08d5fb閱讀 145評論 0 0