用 Scrapy 從零寫(xiě)一個(gè)爬蟲(chóng)

開(kāi)頭

這兩天后臺(tái)收到了很多讀者發(fā)消息說(shuō)：“看了之前寫(xiě)的關(guān)于爬蟲(chóng)的文章之后，自己也想寫(xiě)一個(gè)爬蟲(chóng)但不知從何下手”哲身。那么我今天就分享一個(gè)簡(jiǎn)單的案例辩涝，和大家一起從零寫(xiě)一個(gè)簡(jiǎn)單的爬蟲(chóng)。

在開(kāi)始分享之前勘天，我想提一件事情怔揩。

我知道，爬蟲(chóng)其實(shí)在部分外行人心目中一直是一個(gè)低劣或者低俗的人才做的事误辑。那么沧踏，不管你是不是這么想，我只能說(shuō)一句：要是沒(méi)有爬蟲(chóng)我相信很多公司根本就沒(méi)法起來(lái)巾钉。

那么，今天我主要通過(guò)一個(gè)爬蟲(chóng)框架 Scrapy 來(lái)一步步實(shí)現(xiàn)爬取 V2EX 首頁(yè)所有的熱門文章秘案，旨在讓你掌握這個(gè)框架來(lái)爬取對(duì)自己有用的數(shù)據(jù)砰苍。

正文

一、Scrapy 是什么阱高？

官網(wǎng)：
http://scrapy-chs.readthedocs.io/zh_CN/latest/intro/overview.html

Scrapy是一個(gè)為了爬取網(wǎng)站數(shù)據(jù)赚导，提取結(jié)構(gòu)性數(shù)據(jù)而編寫(xiě)的應(yīng)用框架〕嗑可以應(yīng)用到數(shù)據(jù)挖掘吼旧，信息處理或存儲(chǔ)歷史數(shù)據(jù)等一系列的程序中。

其最初是為了頁(yè)面爬任粗邸（更確切的來(lái)說(shuō)圈暗，網(wǎng)絡(luò)爬取）所設(shè)計(jì)的裕膀，也可以應(yīng)用在獲取API所返回的數(shù)據(jù)或者通用的網(wǎng)絡(luò)爬蟲(chóng)员串。

Scrapy是一個(gè)非常強(qiáng)大且好用的爬蟲(chóng)框架，它不僅提供了一些開(kāi)箱即用的基礎(chǔ)組件昼扛，還提供了強(qiáng)大的自定義功能寸齐。

框架的學(xué)習(xí)就是修改配置文件，填充代碼就可以了。

二渺鹦、安裝 Scrapy扰法？

由于我是用 Mac 來(lái)開(kāi)發(fā)的，所以安裝命令也是 Mac 下的毅厚，至于 Window 和 Linux 可以參考安裝迹恐。

pip install scrapy

當(dāng)然，一開(kāi)始你得有 Python 的開(kāi)發(fā)環(huán)境卧斟，這里就不安利 Python 的安裝方法了危纫。直接百度即可奄毡。

三、用 Scrapy 創(chuàng)建一個(gè)項(xiàng)目

Scrapy 中提供了 startproject 命令來(lái)創(chuàng)建爬蟲(chóng)項(xiàng)目。命令如下：

scrapy startproject V2EX

我們創(chuàng)建一個(gè)項(xiàng)目 V2EX 用來(lái)爬取 V2 首頁(yè)文章的所有信息麦箍。

其中：

spiders 文件夾下就是你要實(shí)現(xiàn)爬蟲(chóng)功能的核心代碼。在 spiders 文件夾下創(chuàng)建一個(gè) spider 漩勤，用來(lái)爬取 V2 首頁(yè)文章具篇。

scrapy.cfg 是項(xiàng)目的配置文件。

settings.py用于設(shè)置請(qǐng)求的參數(shù)募逞，使用代理蛋铆，爬蟲(chóng)數(shù)據(jù)后文件保存等等的。

四放接、Scrapy 爬取 V2 首頁(yè)文章

1刺啦、新建 v2exSpider

在 spiders 文件夾下新建一個(gè)文件， v2exSpider.py

如上圖纠脾，start_urls 中添加 v2ex 的首頁(yè)地址玛瘸，同時(shí)重寫(xiě) parse 方法。這樣 Spider 將基于 start_urls 中的地址進(jìn)行訪問(wèn)苟蹈，并將數(shù)據(jù)回調(diào)給 parse 方法糊渊。

其中，response 就是返回的網(wǎng)頁(yè)數(shù)據(jù)慧脱。

處理好的數(shù)據(jù)放在 items 中渺绒，在 items.py 設(shè)置好要處理哪些數(shù)據(jù)字段。這里我們來(lái)抓取 V2 首頁(yè)的：作者地址菱鸥、作者頭像宗兼、文章地址、所屬節(jié)點(diǎn)采缚、作者昵稱针炉、最后一次回復(fù)者昵稱、最后一次回復(fù)者地址扳抽、最后一次回復(fù)時(shí)間篡帕。

那么殖侵，要解析處理哪些數(shù)據(jù)在 items.py 中定義好，也就相當(dāng)于 java 中的實(shí)體類:

2镰烧、 分析 V2EX 首頁(yè)各元素的 xpath

xpath 的概念可以在 60行代碼拿到10G國(guó)外xx視頻... 中了解拢军，當(dāng)然你可以直接看這個(gè)教程：

http://www.w3school.com.cn/xpath/index.asp

通過(guò) Chrome 打開(kāi) v2ex.com ，同時(shí)在當(dāng)前頁(yè)面空白處點(diǎn)擊右鍵怔鳖，選中 inspect 茉唉，這樣就可以看到當(dāng)前頁(yè)面的 Elements 。

（圖片略大结执，耐心訪問(wèn)）

在這里我們可以分析出來(lái)每一篇文章的標(biāo)題度陆、地址等等的 xpath 路徑。

同時(shí)献幔，發(fā)現(xiàn)首頁(yè)的50篇文章都是屬于 div[@class='cell item'] 的數(shù)據(jù)懂傀，因此我們可以通過(guò)
selector.xpath('//div[@class="cell item"]')
拿到所有文章的數(shù)據(jù)，然后再分析出具體數(shù)據(jù)的 xpath 蜡感，從而拿到了所有需要的數(shù)據(jù)蹬蚁。

解析的數(shù)據(jù)保存：

這時(shí)數(shù)據(jù)分析處理好了，還有最重要的一步郑兴，提交：

yield v2Item

OK犀斋！萬(wàn)事俱備，數(shù)據(jù)保存在哪里情连，什么格式叽粹？

在 settings.py 中加入兩行代碼:

如何運(yùn)行這個(gè)爬蟲(chóng)？
scrapy crawl v2exSpider

這樣就可以把 V2EX 的首頁(yè)文章信息都爬取到了本地的 csv 文件中了蒙具。

最后球榆，你會(huì)發(fā)現(xiàn)當(dāng)前代碼只能爬取 V2 中首頁(yè)的文章，這時(shí)候你就需要分析到 v2ex 中下一頁(yè)的 xpath 禁筏，然后拿到這個(gè) url ，通過(guò) yield Request(next_link,callback=self.parse)衡招，這樣就可以一直爬取到 v2 最后一頁(yè)的數(shù)據(jù)篱昔。
來(lái)看看數(shù)據(jù)：

總結(jié)

爬蟲(chóng)需謹(jǐn)慎，爬蟲(chóng)需有度州刽。
本篇文章中項(xiàng)目的源代碼托管在 Github，點(diǎn)擊【閱讀原文】浪箭。
....end...

行為藝術(shù)要持之以恒穗椅，iOS專用贊賞通道。

長(zhǎng)摁‘識(shí)別二維碼’奶栖，一起進(jìn)步

生活不止眼前的茍且匹表，還有手下的代碼门坷、
和嘴上的扯淡
——
個(gè)人博客: http://xiyoumc.0x2048.com
Github:https://www.github.com/xiyouMc

來(lái)自公眾號(hào) : DeveloperPython

最后編輯于：2017.12.08 19:44:21

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個(gè)濱河市袍镀，隨后出現(xiàn)的幾起案子默蚌，更是在濱河造成了極大的恐慌，老刑警劉巖苇羡，帶你破解...
沈念sama閱讀 219,490評(píng)論 6贊 508
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件绸吸，死亡現(xiàn)場(chǎng)離奇詭異，居然都是意外死亡设江，警方通過(guò)查閱死者的電腦和手機(jī)锦茁，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 93,581評(píng)論 3贊 395
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)叉存，“玉大人码俩，你說(shuō)我怎么就攤上這事○呐郑” “怎么了握玛？”我有些...
開(kāi)封第一講書(shū)人閱讀 165,830評(píng)論 0贊 356
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長(zhǎng)甫菠。經(jīng)常有香客問(wèn)我挠铲，道長(zhǎng)，這世上最難降的妖魔是什么寂诱？我笑而不...
開(kāi)封第一講書(shū)人閱讀 58,957評(píng)論 1贊 295
?港島之戀（遺憾婚禮）
正文為了忘掉前任拂苹，我火速辦了婚禮，結(jié)果婚禮上痰洒，老公的妹妹穿的比我還像新娘瓢棒。我一直安慰自己，他們只是感情好丘喻，可當(dāng)我...
茶點(diǎn)故事閱讀 67,974評(píng)論 6贊 393
惡毒庶女頂嫁案：這布局不是一般人想出來(lái)的
文/花漫我一把揭開(kāi)白布脯宿。她就那樣靜靜地躺著，像睡著了一般泉粉。火紅的嫁衣襯著肌膚如雪连霉。梳的紋絲不亂的頭發(fā)上，一...
開(kāi)封第一講書(shū)人閱讀 51,754評(píng)論 1贊 307
城市分裂傳說(shuō)
那天嗡靡，我揣著相機(jī)與錄音跺撼，去河邊找鬼。笑死讨彼，一個(gè)胖子當(dāng)著我的面吹牛歉井，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播哈误，決...
沈念sama閱讀 40,464評(píng)論 3贊 420
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開(kāi)眼哩至，長(zhǎng)吁一口氣：“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼躏嚎！你這毒婦竟也來(lái)了？” 一聲冷哼從身側(cè)響起憨募，我...
開(kāi)封第一講書(shū)人閱讀 39,357評(píng)論 0贊 276
萬(wàn)榮殺人案實(shí)錄
序言：老撾萬(wàn)榮一對(duì)情侶失蹤紧索，失蹤者是張志新（化名）和其女友劉穎，沒(méi)想到半個(gè)月后菜谣，有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體珠漂，經(jīng)...
沈念sama閱讀 45,847評(píng)論 1贊 317
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,995評(píng)論 3贊 338
?白月光啟示錄
正文我和宋清朗相戀三年尾膊，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了媳危。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點(diǎn)故事閱讀 40,137評(píng)論 1贊 351
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡冈敛，死狀恐怖待笑，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情抓谴，我是刑警寧澤暮蹂，帶...
沈念sama閱讀 35,819評(píng)論 5贊 346
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站癌压，受9級(jí)特大地震影響仰泻，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜滩届，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,482評(píng)論 3贊 331
男人毒藥：我在死后第九天來(lái)索命
文/蒙蒙一集侯、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧帜消，春花似錦棠枉、人聲如沸。這莊子的主人今日做“春日...
開(kāi)封第一講書(shū)人閱讀 32,023評(píng)論 0贊 22
一樁弒父案辈讶，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)。三九已至娄猫，卻和暖如春荞估，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背稚新。一陣腳步聲響...
開(kāi)封第一講書(shū)人閱讀 33,149評(píng)論 1贊 272
情欲美人皮
我被黑心中介騙來(lái)泰國(guó)打工，沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留跪腹，地道東北人褂删。一個(gè)月前我還...
沈念sama閱讀 48,409評(píng)論 3贊 373
代替公主和親
正文我出身青樓，卻偏偏與公主長(zhǎng)得像冲茸，于是被迫代替她去往敵國(guó)和親屯阀。傳聞我的和親對(duì)象是個(gè)殘疾皇子缅帘，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 45,086評(píng)論 2贊 355