Mac使用Scrapy爬蟲(一)

近期項目需要,要對一個動態(tài)加載的網(wǎng)站進行爬蟲吮炕。而且由于對于性能要求較高参淹,且需要數(shù)據(jù)持久化醉锄,因此采用現(xiàn)有較或的爬蟲框架Scrapy。
Scrapy最早是在Python2下完成浙值。由于現(xiàn)在Python3的發(fā)展恳不,Scrapy對于Python3已經(jīng)有了非常好的支持。目前2.7和3.4或以上的python版本都可以支持Scrapy开呐。本次先安裝Scrapy

一.安裝Virtualenv(非必須烟勋,但建議):

scarpy官網(wǎng)提供了各種版本的安裝方法,在此講述mac版本的:
由于傳統(tǒng)pip安裝下负蚊,安裝的python模塊都會放在一個系統(tǒng)Library之中神妹,這樣如果同一模塊在不同項目中需求的版本不同的話,就會產(chǎn)生沖突家妆。因此virtualenv應(yīng)用而生鸵荠。他是一個python的虛擬環(huán)境。激活他之后伤极,系統(tǒng)默認python模塊的地址會發(fā)生相應(yīng)變化蛹找,因此在給環(huán)境下安裝的模塊姨伤,不會影響到該環(huán)境之外,也就是產(chǎn)生了一個隔離沙箱庸疾。
MacOs下可以使用homebrew安裝virtualenv:
$:brew install virtualenv
安裝完成之后運行 $: virtualenv --version查看是否安裝成功
安裝成功之后可以開始創(chuàng)建一個環(huán)境乍楚,例如叫ScrapyEnv(專門用來Scrapy爬蟲的環(huán)境)
$:virtualenv ScrapyEnv
然后激活沙箱:
$:source ScrapyEnv/bin/activate
可以看到在命令行前面會呈現(xiàn)如下:


之前

之后

這樣證明已經(jīng)激活了該環(huán)境,之后使用
$:deactivate
命令來退出此環(huán)境

二.安裝Scrapy所需要依賴

所需依賴

需要先安裝Scrapy所需依賴届慈。對于Python3+來說徒溪,除了twisted模塊之外,其他四項在運行pip install Scrapy時候都會自動安裝金顿。因此我們需要先安裝twisted模塊臊泌,否則會導(dǎo)致Scrapy安裝失敗。我們使用官網(wǎng)下載揍拆,自行安裝twisted渠概。
twisted下載地址:https://pypi.org/project/Twisted/#files
Window版本,可以現(xiàn)在twisted官網(wǎng)下載響應(yīng)的whl文件嫂拴,然后在pip安裝wheel模塊之后播揪,運行
$:pip install ./(the source of the whl file you just download)
即可安裝。
MacOs版本筒狠,需要下載源碼版本猪狈,然后cd進入該文件夾(別忘了,在激活virtualenv之后在進入)窟蓝,運行python setup.py install罪裹。如果其中報錯,就按照提示安裝相應(yīng)的模塊即可运挫。

三.安裝Scrapy

由于Scrapy需要使用C lang 的編譯器和development headers(官網(wǎng)用詞,不知含義)套耕,在mac系統(tǒng)下谁帕,以上是有xcode提供,因此先安裝xcode命令行工具:
$:xcode-select --install
以來安裝完成之后冯袍,即可運行pip install scrapy匈挖,運行完成之后,運行
$:Scrapy startproject yourProject 進行創(chuàng)建康愤±苎可以看到,在該目錄下產(chǎn)生了一個文件夾征冷。

四.Scrapy項目結(jié)構(gòu)

項目結(jié)構(gòu)圖

crawlServer為我創(chuàng)建的project择膝。
其中:
1、spiders文件夾:爬蟲文件主目錄
2检激、init.py:將改文件夾變?yōu)橐粋€python模塊
3肴捉、items.py:定義所需要爬蟲的項目
4腹侣、middlewares.py:爬蟲中間件
5、pipelines.py:管道文件
6齿穗、settings.py:設(shè)置文件

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末傲隶,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子窃页,更是在濱河造成了極大的恐慌跺株,老刑警劉巖,帶你破解...
    沈念sama閱讀 206,839評論 6 482
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件脖卖,死亡現(xiàn)場離奇詭異乒省,居然都是意外死亡,警方通過查閱死者的電腦和手機胚嘲,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,543評論 2 382
  • 文/潘曉璐 我一進店門作儿,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人馋劈,你說我怎么就攤上這事攻锰。” “怎么了妓雾?”我有些...
    開封第一講書人閱讀 153,116評論 0 344
  • 文/不壞的土叔 我叫張陵娶吞,是天一觀的道長。 經(jīng)常有香客問我械姻,道長妒蛇,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 55,371評論 1 279
  • 正文 為了忘掉前任楷拳,我火速辦了婚禮绣夺,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘欢揖。我一直安慰自己陶耍,他們只是感情好,可當我...
    茶點故事閱讀 64,384評論 5 374
  • 文/花漫 我一把揭開白布她混。 她就那樣靜靜地躺著烈钞,像睡著了一般。 火紅的嫁衣襯著肌膚如雪坤按。 梳的紋絲不亂的頭發(fā)上毯欣,一...
    開封第一講書人閱讀 49,111評論 1 285
  • 那天,我揣著相機與錄音臭脓,去河邊找鬼酗钞。 笑死,一個胖子當著我的面吹牛,可吹牛的內(nèi)容都是我干的算吩。 我是一名探鬼主播留凭,決...
    沈念sama閱讀 38,416評論 3 400
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼偎巢!你這毒婦竟也來了蔼夜?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 37,053評論 0 259
  • 序言:老撾萬榮一對情侶失蹤压昼,失蹤者是張志新(化名)和其女友劉穎求冷,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體窍霞,經(jīng)...
    沈念sama閱讀 43,558評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡匠题,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,007評論 2 325
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了但金。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片韭山。...
    茶點故事閱讀 38,117評論 1 334
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖冷溃,靈堂內(nèi)的尸體忽然破棺而出钱磅,到底是詐尸還是另有隱情,我是刑警寧澤似枕,帶...
    沈念sama閱讀 33,756評論 4 324
  • 正文 年R本政府宣布盖淡,位于F島的核電站,受9級特大地震影響凿歼,放射性物質(zhì)發(fā)生泄漏褪迟。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 39,324評論 3 307
  • 文/蒙蒙 一答憔、第九天 我趴在偏房一處隱蔽的房頂上張望味赃。 院中可真熱鬧,春花似錦虐拓、人聲如沸洁桌。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,315評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至谱轨,卻和暖如春戒幔,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背土童。 一陣腳步聲響...
    開封第一講書人閱讀 31,539評論 1 262
  • 我被黑心中介騙來泰國打工诗茎, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 45,578評論 2 355
  • 正文 我出身青樓敢订,卻偏偏與公主長得像王污,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子楚午,可洞房花燭夜當晚...
    茶點故事閱讀 42,877評論 2 345

推薦閱讀更多精彩內(nèi)容