learning scrapy 讀書筆記

通過閱讀《learning scrapy》這本書提高自己的爬蟲知識水平垃你，記錄些覺得比較有意思的地方吧

1 xpath

xpath是查找元素節(jié)點(diǎn)的重要工具默终。入門的話自行百度徘钥，下面是幾個有意思的例子

任意div下面的a "http://div//a"
任意a的文本 "http://a/text()"
任意a的href "http://a/@href"
任意div下的子節(jié)點(diǎn) "http://div/*"
任意含有href屬性的a "http://a[@href]"
任意含有href屬性并且href含有qq的a "http://a[contains(@href,"qq")]
任意含有href屬性并且href以https開頭的a "http://a[starts-with(@href,"https)]"
任意含有href屬性并且href不以https開頭的a "http://a[not(starts-with(@href,"https))]"
獲得id為firstHeading的h1節(jié)點(diǎn)的子節(jié)點(diǎn)的span的文案 //h1[@id="firstHeading"]/span/text()
獲得任意class含有l(wèi)tr和skin-vector的節(jié)點(diǎn)下的任意子孫節(jié)點(diǎn)h1的文案 //*[contains(@class,"ltr") and contains(@class,"skin-vector")]//
h1//text()
獲得文案為References 的節(jié)點(diǎn)的父節(jié)點(diǎn)之后的所有兄弟節(jié)點(diǎn)下的a標(biāo)簽 //*[text()="References"]/../following-sibling::div//a

xpath查找小提示：

避免用 @class=“xxx”的方式查找蝎困，因?yàn)閡i改版css class 變動的概率很大莫其，而用contains會好很多
用有特定意義的class定位比通用的好用，例如用 “miaosha” 好過用“green”
3.id通常不會變溜畅，而且通常有唯一性捏卓，所以能用id定位盡量使用id

2. settings

scrapy 的setting配置是非常重要的一部分，按照功能模塊劃分一下主要的設(shè)置項

2.1 Analysis 分析用

Analysis 的參數(shù)

2.1.1 Logging

Scrapy 有不同等級的log： DEBUG (lowest level), INFO,
WARNING, ERROR, CRITICAL (highest level), SILENT(no logging). 可以設(shè)置log 文件只接受基本大于等于目標(biāo)level.通過LOG_LEVEL設(shè)置
LOG_STDOUT 是是否所有輸出含print 寫入日志文件
其他的可自己去查文檔

2.1.2 Stats

STATS_DUMP ：默認(rèn)為True ,是否在結(jié)束時將統(tǒng)計數(shù)據(jù)寫入log文件慈格，關(guān)于統(tǒng)計數(shù)據(jù)后面會寫
DOWNLOADER_STATS ：默認(rèn) True怠晴，是否啟用下載統(tǒng)計收集
DEPTH_STATS : 默認(rèn)True，是否收集爬取深度統(tǒng)計信息
DEPTH_STATS_VERBOSE：默認(rèn)False浴捆，收集爬取深度的完整信息
STATSMAILER_RCPTS ：爬取完成后發(fā)生統(tǒng)計信息的通知郵箱列表如 ['my@mail.com']

2.1.3 telnet 是在爬取過程中能夠訪問爬取狀態(tài)的方式

scrapy 運(yùn)行過程中能夠通過 telnet 控制 pause continue 和 stop
TELNETCONSOLE_ENABLED 控制是否啟用telnet 蒜田，默認(rèn)為True
TELNETCONSOLE_PORT 是端口號，不用設(shè)置程序會自己分配好
shell啟動scrapy后輸出

[scrapy] DEBUG: Telnet console listening on 127.0.0.1:6023:6023

這樣的控制臺信息
然后可以通過

telnet localhost 6023

連接

通過

>>> engine.pause()
>>> engine.unpause()
>>> engine.stop()

控制

2.2 Performance性能相關(guān)

性能這塊后面會細(xì)講选泻，這里只是描述下設(shè)置項

Performance性能相關(guān)

CONCURRENT_REQUESTS ：并發(fā)數(shù)
CONCURRENT_REQUESTS_PER_DOMAIN 和CONCURRENT_REQUESTS_PER_IP 顧名思義是控制每個域名和ip的爬取并發(fā)數(shù)冲粤，
如果 CONCURRENT_REQUESTS_PER_IP不為0那么CONCURRENT_REQUESTS_PER_DOMAIN的配置會忽略
DOWNLOAD_TIMEOUT 是request發(fā)起后downloader的等待時間美莫，超時取消request，默認(rèn)180s
DOWNLOAD_DELAY 請求完成到下一次發(fā)起的間隔
RANDOMIZE_DOWNLOAD_DELAY Ture 表示對DOWNLOAD_DELAY進(jìn)行+-%50區(qū)間的隨機(jī)處理
DNSCACHE_ENABLED ：默認(rèn)Ture 使用內(nèi)存中的dns緩存

2.3 中斷和使用緩存

中斷和使用緩存

滿足設(shè)置好的條件后spider可以自己停止爬取如
CLOSESPIDER_ITEMCOUNT：itempipeline處理了超過xx個item后 spider處理完未處理的任務(wù)后停止
CLOSESPIDER_TIMEOUT ：爬取超時 xx秒后停止梯捕，0的話為不會因?yàn)槌瑫r停止
CLOSESPIDER_PAGECOUNT：處理了xx個response后停止
CLOSESPIDER_ERRORCOUNT：發(fā)生錯誤xx次停止如http錯誤 404 500....厢呵，默認(rèn)不會因?yàn)殄e誤停止
如果使用了 HttpCacheMiddleware 的話可以使用緩存設(shè)置
HTTPCACHE_ENABLED ：是否使用緩存，默認(rèn)False
HTTPCACHE_DIR ：緩存路徑
HTTPCACHE_POLICY ：Cache策略的實(shí)現(xiàn)類傀顾，默認(rèn)是scrapy.extensions.httpcache.DummyPolicy
HTTPCACHE_STORAGE ：緩存的存儲方式襟铭，默認(rèn)是 scrapy.extensions.httpcache.FilesystemCacheStorage
HTTPCACHE_DBM_MODULE ：數(shù)據(jù)庫模塊默認(rèn)是anydbm
這一塊如果用處大可以獨(dú)立搞一套

3 Twisted

Scrapy是基于Twisted開發(fā)的，了解Scrapy之前學(xué)習(xí)一下Twisted對于理解也會加強(qiáng)吧
需要記得Twisted是基于事件驅(qū)動的網(wǎng)絡(luò)框架短曾，細(xì)節(jié)可以自行百度
deferred 是基礎(chǔ)單位寒砖，可以用來構(gòu)成事件驅(qū)動
簡單的用法如下

from twisted.internet import defer
d=defer.Deferred()
print(d.called) #False
d.callback(3)
print(d.called) #True
print(d.result) #3
def addval(v):
    print("inputval is"+str(v))
    return v+1;
d=defer.Deferred()
d.addCallback(addval)

d.callback(3) # 驅(qū)動 addval(3)
print(d.result) #4

通過addCallback的方式可以改變回調(diào)事件鏈

from twisted.internet import defer
a=defer.Deferred()
b=defer.Deferred()


def a_callback(v):
    print(v)
    return {"value":v}
def b_callback(v):
    print(v)
    #返回deferred讓事件鏈改變
    return b

def c_callback(v):
    print("ccallback",end=" ")
    print(v)
a.addCallback(a_callback).addCallback(b_callback).addCallback(c_callback)
a.callback(3)
#print 3 然后print {'value': 3}
b.callback(99)
# ccallback 99

DeferredList用來構(gòu)建事件鏈，只有參與構(gòu)建的Deferred 全部有了callback 才會回調(diào)callback 事件嫉拐，

import time
from twisted.internet import defer
from concurrent import futures
def done(v):
    print("done with ",end="")
    print(v)
deferreds=[defer.Deferred() for  x in range(5)]
times=[1,2,2,1]
join=defer.DeferredList(deferreds)
join.addCallback(done)
def timesleep(sleepsecond,x):
    print("sleep %s"%(sleepsecond))
    time.sleep(sleepsecond)
    deferreds[x].callback(x)
    print("%s callbak %s"%(sleepsecond,x))
with futures.ThreadPoolExecutor(8) as pool:
    for x in range(4):
        append=pool.submit(timesleep,times[x],x)
deferreds[4].callback(99)
#全部完成后會打印
#done with [(True, 0), (True, 1), (True, 2), (True, 3), (True, 99)]
#如果使用了 errback 哩都，True會變?yōu)镕alse

通過inlineCallbacks 可以進(jìn)行事件調(diào)度，下面的流程就是
d1 callback完婉徘，調(diào) next 代碼繼續(xù)走執(zhí)行 d2 callback next 然后執(zhí)行return 調(diào)用最外層的callback

from twisted.internet import reactor, defer


def loadRemoteData(callback):
    import time
    time.sleep(1)
    callback(1)


def loadRemoteData2(callback):
    import time
    time.sleep(1)
    callback(2)


@defer.inlineCallbacks
def getRemoteData():
    d1 = defer.Deferred()
    reactor.callInThread(loadRemoteData, d1.callback)
    r1 = yield d1

    d2 = defer.Deferred()
    reactor.callInThread(loadRemoteData2, d2.callback)
    r2 = yield d2

    return r1 + r2


def getResult(v):
    print("result=", v)


if __name__ == '__main__':
    d = getRemoteData()
    d.addCallback(getResult)

    reactor.callLater(4, reactor.stop);
    reactor.run()

4 scrapy 程序框架簡述

可以先看下scrapy的工作框架圖

scrapy的工作框架

我們寫的spiders是工作架構(gòu)的核心漠嵌，它們用于創(chuàng)建request 、解析response 并且產(chǎn)出items和更多的requests

itemPipeline 是我們用來處理的item的管道
process_item() 可以用來處理item判哥，我們處理完了item 可以return item献雅，讓下一個pipeline處理，也可以 raising DropItem exception 以結(jié)束這個item的后續(xù)處理流程
open_spider() 方法會在初始化spider的回調(diào)
close_spider() 方法會在spider結(jié)束的時候回調(diào)

downloader middlewares 是下載和請求的中間件塌计，默認(rèn)的下載中間件的源碼可以在github上查看 SPIDER_MIDDLEWARES_BASE setting in settings/default_settings.py

4.1 itemPipeline 示例

from datetime import datetime
class TidyUp(object):
def process_item(self, item, spider):
item['date'] = map(datetime.isoformat, item['date'])
return item

然后修改setting.py的內(nèi)容挺身，滿足

TEM_PIPELINES = {'properties.pipelines.tidyup.TidyUp': 100 }

properties.pipelines.tidyup.TidyUp為自定義的pipeline的完整類名

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市锌仅，隨后出現(xiàn)的幾起案子章钾，更是在濱河造成了極大的恐慌，老刑警劉巖热芹，帶你破解...
沈念sama閱讀 218,755評論 6贊 507
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件贱傀，死亡現(xiàn)場離奇詭異，居然都是意外死亡伊脓，警方通過查閱死者的電腦和手機(jī)府寒，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 93,305評論 3贊 395
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來报腔，“玉大人株搔，你說我怎么就攤上這事〈慷辏” “怎么了纤房？”我有些...
開封第一講書人閱讀 165,138評論 0贊 355
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長翻诉。經(jīng)常有香客問我炮姨，道長捌刮，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 58,791評論 1贊 295
?港島之戀（遺憾婚禮）
正文為了忘掉前任舒岸，我火速辦了婚禮绅作，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘蛾派。我一直安慰自己棚蓄，他們只是感情好，可當(dāng)我...
茶點(diǎn)故事閱讀 67,794評論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布碍脏。她就那樣靜靜地躺著，像睡著了一般稍算。火紅的嫁衣襯著肌膚如雪典尾。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 51,631評論 1贊 305
城市分裂傳說
那天糊探，我揣著相機(jī)與錄音钾埂，去河邊找鬼。笑死科平，一個胖子當(dāng)著我的面吹牛褥紫，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播瞪慧，決...
沈念sama閱讀 40,362評論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼髓考，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了弃酌？” 一聲冷哼從身側(cè)響起氨菇，我...
開封第一講書人閱讀 39,264評論 0贊 276
萬榮殺人案實(shí)錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎妓湘，沒想到半個月后查蓉，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 45,724評論 1贊 315
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡榜贴，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,900評論 3贊 336
?白月光啟示錄
正文我和宋清朗相戀三年豌研，在試婚紗的時候發(fā)現(xiàn)自己被綠了。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片唬党。...
茶點(diǎn)故事閱讀 40,040評論 1贊 350
活死人
序言：一個原本活蹦亂跳的男人離奇死亡鹃共，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出初嘹，到底是詐尸還是另有隱情及汉，我是刑警寧澤，帶...
沈念sama閱讀 35,742評論 5贊 346
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布屯烦，位于F島的核電站坷随，受9級特大地震影響房铭，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜温眉，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,364評論 3贊 330
男人毒藥：我在死后第九天來索命
文/蒙蒙一缸匪、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧类溢，春花似錦凌蔬、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,944評論 0贊 22
一樁弒父案砂心，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至蛇耀，卻和暖如春辩诞，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背纺涤。一陣腳步聲響...
開封第一講書人閱讀 33,060評論 1贊 270
情欲美人皮
我被黑心中介騙來泰國打工译暂，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留，地道東北人撩炊。一個月前我還...
沈念sama閱讀 48,247評論 3贊 371
代替公主和親
正文我出身青樓外永，卻偏偏與公主長得像，于是被迫代替她去往敵國和親拧咳。傳聞我的和親對象是個殘疾皇子伯顶，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 44,979評論 2贊 355