通用爬蟲

創(chuàng)建項(xiàng)目
scrapy startproject 項(xiàng)目名字

創(chuàng)建爬蟲
scrapy genspider -t crawl 爬蟲名字域

rules 規(guī)則屬性的參數(shù)：是一個(gè)元阻，可以放多個(gè)Rule 對(duì)象

創(chuàng)建Rule:
LinkExtractor:設(shè)定提取的規(guī)則
（allow,deny,allow_dome...）

callback 設(shè)置回調(diào)函數(shù)

follwer 是否跟進(jìn)

 rules = (
      allow:一般跟一個(gè)正則表達(dá)式追迟，表示允許的url*********************
      deny:表示一個(gè)正則表達(dá)式，符合正則表達(dá)式的鏈接悍及，我們不鏈接酗失，優(yōu)先級(jí)比allow高
      allowed_domains:提取額鏈接，必須在我設(shè)置的域下面
      deny_domains:提取鏈接時(shí)擎析，一定不能提取deny_domains設(shè)置的域下
      restrict_xpaths:剛提取連接的時(shí)候我們可以定位到耨一些標(biāo)簽，提取標(biāo)簽下符合規(guī)則的鏈接********
      tags:可以指定要提取那些標(biāo)簽
      attrs:;;可以提取哪一屬性
  restrict_css:當(dāng)提取連接時(shí)可以使用css語(yǔ)法  **************
  process_links:設(shè)置一個(gè)函數(shù)，根據(jù)正則獲取的url,可以在回調(diào)函數(shù)中獲取到
  process_request:設(shè)置一個(gè)函數(shù)横浑，可以在這個(gè)回調(diào)方法中攔截所有根據(jù)正則規(guī)則提取到的url構(gòu)建的Request對(duì)象
      Rule(LinkExtractor(
      allow=('.*?qwd=&p=\d+',),
      deny=(),
      allowed_domains=(),
      deny_domains=(),
      restrict_xpaths=(),
      tags=(),
      attrs=(),
      restrict_css=()
   ),

注意：設(shè)置回調(diào)的時(shí)候一定不能重寫parse方法
2园担、要活取起始url的響應(yīng)結(jié)果奏纪，必須重寫parse_start_url
3、在設(shè)置Rule對(duì)象的時(shí)候京髓，如果沒(méi)有callback回調(diào)函數(shù)，表示默認(rèn)跟進(jìn)
什么時(shí)候會(huì)用到用用爬蟲商架？
當(dāng)提取數(shù)據(jù)的目標(biāo)網(wǎng)站的網(wǎng)址很有規(guī)律堰怨，并且各個(gè)模塊很清晰，我們就可以使用通用爬蟲

最后編輯于：2018.11.05 20:42:27

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末蛇摸，一起剝皮案震驚了整個(gè)濱河市备图，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌赶袄，老刑警劉巖揽涮，帶你破解...
沈念sama閱讀 219,270評(píng)論 6贊 508
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場(chǎng)離奇詭異饿肺，居然都是意外死亡蒋困，警方通過(guò)查閱死者的電腦和手機(jī)，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 93,489評(píng)論 3贊 395
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門敬辣，熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)雪标，“玉大人，你說(shuō)我怎么就攤上這事溉跃〈迮伲” “怎么了？”我有些...
開封第一講書人閱讀 165,630評(píng)論 0贊 356
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵撰茎，是天一觀的道長(zhǎng)嵌牺。經(jīng)常有香客問(wèn)我，道長(zhǎng)龄糊，這世上最難降的妖魔是什么逆粹？我笑而不...
開封第一講書人閱讀 58,906評(píng)論 1贊 295
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮绎签，結(jié)果婚禮上枯饿，老公的妹妹穿的比我還像新娘酝锅。我一直安慰自己诡必，他們只是感情好，可當(dāng)我...
茶點(diǎn)故事閱讀 67,928評(píng)論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來(lái)的
文/花漫我一把揭開白布搔扁。她就那樣靜靜地躺著爸舒，像睡著了一般。火紅的嫁衣襯著肌膚如雪稿蹲。梳的紋絲不亂的頭發(fā)上扭勉，一...
開封第一講書人閱讀 51,718評(píng)論 1贊 305
城市分裂傳說(shuō)
那天，我揣著相機(jī)與錄音苛聘，去河邊找鬼涂炎。笑死忠聚，一個(gè)胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的唱捣。我是一名探鬼主播两蟀，決...
沈念sama閱讀 40,442評(píng)論 3贊 420
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長(zhǎng)吁一口氣：“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼震缭！你這毒婦竟也來(lái)了赂毯？” 一聲冷哼從身側(cè)響起，我...
開封第一講書人閱讀 39,345評(píng)論 0贊 276
萬(wàn)榮殺人案實(shí)錄
序言：老撾萬(wàn)榮一對(duì)情侶失蹤拣宰，失蹤者是張志新（化名）和其女友劉穎党涕，沒(méi)想到半個(gè)月后，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體巡社，經(jīng)...
沈念sama閱讀 45,802評(píng)論 1贊 317
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡膛堤，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,984評(píng)論 3贊 337
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了重贺。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片骑祟。...
茶點(diǎn)故事閱讀 40,117評(píng)論 1贊 351
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡，死狀恐怖气笙，靈堂內(nèi)的尸體忽然破棺而出次企，到底是詐尸還是另有隱情，我是刑警寧澤潜圃，帶...
沈念sama閱讀 35,810評(píng)論 5贊 346
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布缸棵，位于F島的核電站，受9級(jí)特大地震影響谭期，放射性物質(zhì)發(fā)生泄漏堵第。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,462評(píng)論 3贊 331
男人毒藥：我在死后第九天來(lái)索命
文/蒙蒙一隧出、第九天我趴在偏房一處隱蔽的房頂上張望踏志。院中可真熱鬧，春花似錦胀瞪、人聲如沸针余。這莊子的主人今日做“春日...
開封第一講書人閱讀 32,011評(píng)論 0贊 22
一樁弒父案凄诞，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)圆雁。三九已至，卻和暖如春帆谍，著一層夾襖步出監(jiān)牢的瞬間伪朽，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 33,139評(píng)論 1贊 272
情欲美人皮
我被黑心中介騙來(lái)泰國(guó)打工汛蝙，沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留烈涮，地道東北人朴肺。一個(gè)月前我還...
沈念sama閱讀 48,377評(píng)論 3贊 373
代替公主和親
正文我出身青樓，卻偏偏與公主長(zhǎng)得像坚洽，于是被迫代替她去往敵國(guó)和親宇挫。傳聞我的和親對(duì)象是個(gè)殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 45,060評(píng)論 2贊 355

通用爬蟲

推薦閱讀更多精彩內(nèi)容