scrapy調(diào)試小技巧

因朋友推薦,最近又重新上手了scrapy拧粪,和上一次(一年前)用確實有不同的感受了橱野。上次感覺scrapy中的東西完全是一個黑盒朽缴,用起來很不順手。這次重點看了它的整個架構(gòu)圖水援,搞懂了它的數(shù)據(jù)流向茅郎。然后花了兩天把它的整個文檔都仔細讀了一遍,現(xiàn)在用起來感覺十分好用或渤。這次簡單說說使用scrapy進行調(diào)試的一些小技巧系冗。

1.使用scrapy.shell.inspect_response

當運行scrapy spiders薪鹦,代碼走到inspect_response()的時候掌敬,會直接起一個終端,非常方便的是池磁,這個終端中包含了運行之前所有的變量涝开,如response,這對于調(diào)試來講十分有用框仔。

2.在終端使用scrapy shell舀武。

有的時候,我們并不想立即編寫代碼离斩,二是希望直接使用scrapy提供的shell來做一些開發(fā)和調(diào)試工作银舱。下面是我想分享的幾個點:

  1. 如何在終端自定義請求的各個參數(shù)?比如我想抓取 https://rookiefly.cn這個網(wǎng)站跛梗,并且使用偽裝的headers. 我們知道寻馏,在 scrapy 項目中,只需要在下載中間件中做一次處理就夠了核偿,那么在scrapy shell中呢诚欠?可以使用如下的方式自定義 scrapy request
from scrapy.http import Request
req = Request('https://rookiefly.cn')
req.headers.setdefault('User-Agent', 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36')
# 或者像下面這樣
req = Request('https://rookielfy.cn', headers={'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36'})

fetch(req)

其實主要方法就是根據(jù)help(Request)來看看Request初始化可以傳入什么參數(shù),根據(jù)dir(Request)來看看scrapy.http.Request的實例有些啥屬性漾岳。

  1. 如何通過htmltext來生成scrapy.http.Response轰绵?這一點最開始也挺令我疑惑的。因為有的時候我需要將 requests請求得到的response content 扔到 scrapy shell 中用scrapy的api去解析和調(diào)試尼荆,如果能生成Response左腔,那么還可以通過view(response)這個功能來檢查返回頁面的結(jié)果。這個不能直接使用scrapy.http.Response來初始化實例捅儒,需要這樣
resp = requests.get('https://rookielfy.cn')
from scrapy.http import HtmlResponse
response = HtmlResponse(url='https://rookielfy.cn',  body=resp.content)

這樣就初始化了一個最簡單的response了液样。

  1. 如何讓scrapy shell讀入spiders的配置文件 settings.py?有這個疑問是因為有的時候巧还,項目有眾多中間件鞭莽,而我想直接用scrapy shell進行調(diào)試。比如scrapy-splash麸祷,在終端有如下代碼
req = SplashRequest('https://httpbin.org/user-agent',
        args={
            'wait': 2,
        },
        splash_url='http://127.0.0.1:8050',
        headers={'User-Agent': 'i am a fake user agent'}
    )
fetch(req)

如果不引用splash的中間件澎怒,那么直接在終端執(zhí)行fetch(req),請求不會通過splash的摇锋,所以在啟動終端的時候丹拯,載入指定的配置就很重要站超。那么如何做呢?其實比較簡單乖酬,我們只需要在項目根目錄(含有scrapy.cfg文件)下啟動scrapy shell即可死相。


以上就是近期使用scrapy shell總結(jié)出來的小技巧。現(xiàn)在發(fā)現(xiàn)scrapy這套爬蟲框架的生態(tài)非常豐富咬像,還有很多可以挖掘的東西算撮。學(xué)海無涯,以后再做總結(jié)和分享县昂。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末肮柜,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子倒彰,更是在濱河造成了極大的恐慌审洞,老刑警劉巖,帶你破解...
    沈念sama閱讀 218,607評論 6 507
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件待讳,死亡現(xiàn)場離奇詭異芒澜,居然都是意外死亡,警方通過查閱死者的電腦和手機创淡,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,239評論 3 395
  • 文/潘曉璐 我一進店門痴晦,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人琳彩,你說我怎么就攤上這事誊酌。” “怎么了露乏?”我有些...
    開封第一講書人閱讀 164,960評論 0 355
  • 文/不壞的土叔 我叫張陵碧浊,是天一觀的道長。 經(jīng)常有香客問我施无,道長辉词,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,750評論 1 294
  • 正文 為了忘掉前任猾骡,我火速辦了婚禮,結(jié)果婚禮上敷搪,老公的妹妹穿的比我還像新娘兴想。我一直安慰自己,他們只是感情好赡勘,可當我...
    茶點故事閱讀 67,764評論 6 392
  • 文/花漫 我一把揭開白布嫂便。 她就那樣靜靜地躺著,像睡著了一般闸与。 火紅的嫁衣襯著肌膚如雪毙替。 梳的紋絲不亂的頭發(fā)上岸售,一...
    開封第一講書人閱讀 51,604評論 1 305
  • 那天,我揣著相機與錄音厂画,去河邊找鬼凸丸。 笑死,一個胖子當著我的面吹牛袱院,可吹牛的內(nèi)容都是我干的屎慢。 我是一名探鬼主播,決...
    沈念sama閱讀 40,347評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼忽洛,長吁一口氣:“原來是場噩夢啊……” “哼腻惠!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起欲虚,我...
    開封第一講書人閱讀 39,253評論 0 276
  • 序言:老撾萬榮一對情侶失蹤集灌,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后复哆,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體绝页,經(jīng)...
    沈念sama閱讀 45,702評論 1 315
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,893評論 3 336
  • 正文 我和宋清朗相戀三年寂恬,在試婚紗的時候發(fā)現(xiàn)自己被綠了续誉。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 40,015評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡初肉,死狀恐怖酷鸦,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情牙咏,我是刑警寧澤臼隔,帶...
    沈念sama閱讀 35,734評論 5 346
  • 正文 年R本政府宣布,位于F島的核電站妄壶,受9級特大地震影響摔握,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜丁寄,卻給世界環(huán)境...
    茶點故事閱讀 41,352評論 3 330
  • 文/蒙蒙 一氨淌、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧伊磺,春花似錦盛正、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,934評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春续崖,著一層夾襖步出監(jiān)牢的瞬間敲街,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,052評論 1 270
  • 我被黑心中介騙來泰國打工严望, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留多艇,地道東北人。 一個月前我還...
    沈念sama閱讀 48,216評論 3 371
  • 正文 我出身青樓著蟹,卻偏偏與公主長得像墩蔓,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子萧豆,可洞房花燭夜當晚...
    茶點故事閱讀 44,969評論 2 355

推薦閱讀更多精彩內(nèi)容