Scrapy資料

  • 1. Scrapy 介紹

經(jīng)常發(fā)現(xiàn)使用python編寫(xiě)爬蟲(chóng)的相關(guān)文章,可以使用urllib2便可以簡(jiǎn)單的實(shí)現(xiàn)(Python爬蟲(chóng)入門(mén)三之Urllib庫(kù)的基本使用)溜哮,當(dāng)然如果涉及到更進(jìn)階的東西比如爬取時(shí)的網(wǎng)站認(rèn)證瞻鹏、內(nèi)容的分析處理郊酒、重復(fù)抓取、分布式爬取等等也時(shí)間很復(fù)雜的事。所以實(shí)現(xiàn)一個(gè)魯棒护桦,功能豐富的爬蟲(chóng)也并不是容易的事。

本著不重復(fù)造輪子的原則渣慕,在google上或通過(guò)GitHub可以檢索到相關(guān)并成熟的針對(duì)網(wǎng)站爬取的框架嘶炭,Scrapy就是最著名并被廣泛認(rèn)可與使用的框架之一,源碼托管在GitHub上逊桦。
源代碼
Scrapy官網(wǎng)

官方文檔對(duì)其詳細(xì)描述:
“Scrapy是一個(gè)為了爬取網(wǎng)站數(shù)據(jù)眨猎,提取結(jié)構(gòu)性數(shù)據(jù)而編寫(xiě)的應(yīng)用框架。 可以應(yīng)用在包括數(shù)據(jù)挖掘强经,信息處理或存儲(chǔ)歷史數(shù)據(jù)等一系列的程序中睡陪。其最初是為了頁(yè)面抓取 (更確切來(lái)說(shuō), 網(wǎng)絡(luò)抓取 )所設(shè)計(jì)的, 也可以應(yīng)用在獲取API所返回的數(shù)據(jù)(例如 Amazon Associates Web Services ) 或者通用的網(wǎng)絡(luò)爬蟲(chóng)匿情±计龋”

  • 2. 知識(shí)準(zhǔn)備以及相關(guān)資料

看完介紹便可以確定你對(duì)它是否存在需求。筆者也是對(duì)網(wǎng)絡(luò)爬蟲(chóng)感興趣炬称,慢慢接觸Scrapy并決定寫(xiě)一系列教程汁果。關(guān)于爬蟲(chóng)學(xué)習(xí)曲線(xiàn),曾經(jīng)在知乎上發(fā)現(xiàn)一篇文章玲躯,現(xiàn)轉(zhuǎn)載過(guò)來(lái):作者:謝科 問(wèn)題:Python 爬蟲(chóng)如何入門(mén)學(xué)習(xí)据德?

需要學(xué)習(xí)的內(nèi)容:

  1. 基本的爬蟲(chóng)工作原理
  2. 基本的http抓取工具,scrapy
  3. Bloom Filter
  4. 如果需要大規(guī)模網(wǎng)頁(yè)抓取跷车,你需要學(xué)習(xí)分布式爬蟲(chóng)的概念棘利。其實(shí)沒(méi)那么玄乎,你只要學(xué)會(huì)怎樣維護(hù)一個(gè)所有集群機(jī)器能夠有效分享的分布式隊(duì)列就好朽缴。最簡(jiǎn)單的實(shí)現(xiàn)是python-redis
  5. redis和Scrapy的結(jié)合:Scrapy-redis
  6. 后續(xù)處理善玫,網(wǎng)頁(yè)析取:Python-goose密强,存儲(chǔ):Mongodb

入門(mén)資料

  1. 學(xué)習(xí)Scrapy入門(mén)
  2. Scrapy 1.0.5 文檔
  3. Redis快速入門(mén)
  4. Python教程 廖雪峰
  5. Xpath教程
  6. Python正則表達(dá)式
  7. Bloom Filter(布隆過(guò)濾器)的概念和原理
  8. 基于Redis的Bloomfilter去重(附Python代碼)
  • 3. Scrapy 安裝

  1. Linux安裝
    直接通過(guò)命令安裝:pip install scrapy

  2. Windows安裝
    Windows安裝Scrapy教程

  3. Scrapy文檔安裝指南

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末茅郎,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子或渤,更是在濱河造成了極大的恐慌只洒,老刑警劉巖,帶你破解...
    沈念sama閱讀 222,627評(píng)論 6 517
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件劳坑,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡成畦,警方通過(guò)查閱死者的電腦和手機(jī)距芬,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 95,180評(píng)論 3 399
  • 文/潘曉璐 我一進(jìn)店門(mén)涝开,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人框仔,你說(shuō)我怎么就攤上這事舀武。” “怎么了离斩?”我有些...
    開(kāi)封第一講書(shū)人閱讀 169,346評(píng)論 0 362
  • 文/不壞的土叔 我叫張陵银舱,是天一觀(guān)的道長(zhǎng)。 經(jīng)常有香客問(wèn)我跛梗,道長(zhǎng)寻馏,這世上最難降的妖魔是什么? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 60,097評(píng)論 1 300
  • 正文 為了忘掉前任核偿,我火速辦了婚禮诚欠,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘漾岳。我一直安慰自己轰绵,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 69,100評(píng)論 6 398
  • 文/花漫 我一把揭開(kāi)白布尼荆。 她就那樣靜靜地躺著左腔,像睡著了一般。 火紅的嫁衣襯著肌膚如雪捅儒。 梳的紋絲不亂的頭發(fā)上液样,一...
    開(kāi)封第一講書(shū)人閱讀 52,696評(píng)論 1 312
  • 那天,我揣著相機(jī)與錄音野芒,去河邊找鬼蓄愁。 笑死,一個(gè)胖子當(dāng)著我的面吹牛狞悲,可吹牛的內(nèi)容都是我干的撮抓。 我是一名探鬼主播,決...
    沈念sama閱讀 41,165評(píng)論 3 422
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼摇锋,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼丹拯!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起荸恕,我...
    開(kāi)封第一講書(shū)人閱讀 40,108評(píng)論 0 277
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤乖酬,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后融求,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體咬像,經(jīng)...
    沈念sama閱讀 46,646評(píng)論 1 319
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,709評(píng)論 3 342
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了县昂。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片肮柜。...
    茶點(diǎn)故事閱讀 40,861評(píng)論 1 353
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖倒彰,靈堂內(nèi)的尸體忽然破棺而出审洞,到底是詐尸還是另有隱情,我是刑警寧澤待讳,帶...
    沈念sama閱讀 36,527評(píng)論 5 351
  • 正文 年R本政府宣布芒澜,位于F島的核電站,受9級(jí)特大地震影響创淡,放射性物質(zhì)發(fā)生泄漏痴晦。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 42,196評(píng)論 3 336
  • 文/蒙蒙 一辩昆、第九天 我趴在偏房一處隱蔽的房頂上張望阅酪。 院中可真熱鬧,春花似錦汁针、人聲如沸术辐。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 32,698評(píng)論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)辉词。三九已至,卻和暖如春猾骡,著一層夾襖步出監(jiān)牢的瞬間瑞躺,已是汗流浹背。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 33,804評(píng)論 1 274
  • 我被黑心中介騙來(lái)泰國(guó)打工兴想, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留幢哨,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 49,287評(píng)論 3 379
  • 正文 我出身青樓嫂便,卻偏偏與公主長(zhǎng)得像捞镰,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子毙替,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,860評(píng)論 2 361

推薦閱讀更多精彩內(nèi)容

  • Scrapy介紹 Scrapy是一個(gè)為了爬取網(wǎng)站數(shù)據(jù)岸售,提取結(jié)構(gòu)性數(shù)據(jù)而編寫(xiě)的應(yīng)用框架。 可以應(yīng)用在包括數(shù)據(jù)挖掘厂画,信...
    JasonDing閱讀 122,523評(píng)論 15 126
  • Scrapy 入門(mén)教程### 安裝Scrapy lxml很容易出問(wèn)題 凸丸。 定義 Item em是保存爬取到的數(shù)據(jù)...
    ASulee閱讀 1,355評(píng)論 1 0
  • 爬蟲(chóng)文章 in 簡(jiǎn)書(shū)程序員專(zhuān)題: like:128-Python 爬取落網(wǎng)音樂(lè) like:127-【圖文詳解】py...
    喜歡吃栗子閱讀 21,760評(píng)論 4 411
  • 工作于我只是一種生活下去的支撐,我不喜歡我的工作袱院,我不想要變成一個(gè)很職業(yè)的人屎慢,變得執(zhí)著瞭稼,焦慮,天天像打了雞血...
    夜深微雨閱讀 144評(píng)論 0 0
  • 【默默耕耘】2017.0203 day 72 Friday 1. 生活環(huán)境認(rèn)字:去給孩子辦理護(hù)照腻惠,助教讀出了沂水便...
    ysmalina閱讀 184評(píng)論 0 0