scrapy調(diào)試小技巧

因朋友推薦，最近又重新上手了scrapy拧粪，和上一次（一年前）用確實有不同的感受了橱野。上次感覺scrapy中的東西完全是一個黑盒朽缴，用起來很不順手。這次重點看了它的整個架構(gòu)圖水援，搞懂了它的數(shù)據(jù)流向茅郎。然后花了兩天把它的整個文檔都仔細讀了一遍，現(xiàn)在用起來感覺十分好用或渤。這次簡單說說使用scrapy進行調(diào)試的一些小技巧系冗。

1.使用scrapy.shell.inspect_response 。

當運行scrapy spiders薪鹦，代碼走到inspect_response()的時候掌敬，會直接起一個終端，非常方便的是池磁，這個終端中包含了運行之前所有的變量涝开，如response，這對于調(diào)試來講十分有用框仔。

2.在終端使用scrapy shell舀武。

有的時候，我們并不想立即編寫代碼离斩，二是希望直接使用scrapy提供的shell來做一些開發(fā)和調(diào)試工作银舱。下面是我想分享的幾個點:

如何在終端自定義請求的各個參數(shù)？比如我想抓取 https://rookiefly.cn這個網(wǎng)站跛梗，并且使用偽裝的headers. 我們知道寻馏，在 scrapy 項目中，只需要在下載中間件中做一次處理就夠了核偿，那么在scrapy shell中呢诚欠？可以使用如下的方式自定義 scrapy request

from scrapy.http import Request
req = Request('https://rookiefly.cn')
req.headers.setdefault('User-Agent', 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36')
# 或者像下面這樣
req = Request('https://rookielfy.cn', headers={'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36'})

fetch(req)

其實主要方法就是根據(jù)help(Request)來看看Request初始化可以傳入什么參數(shù)，根據(jù)dir(Request)來看看scrapy.http.Request的實例有些啥屬性漾岳。

如何通過htmltext來生成scrapy.http.Response轰绵？這一點最開始也挺令我疑惑的。因為有的時候我需要將 requests請求得到的response content 扔到 scrapy shell 中用scrapy的api去解析和調(diào)試尼荆，如果能生成Response左腔，那么還可以通過view(response)這個功能來檢查返回頁面的結(jié)果。這個不能直接使用scrapy.http.Response來初始化實例捅儒，需要這樣

resp = requests.get('https://rookielfy.cn')
from scrapy.http import HtmlResponse
response = HtmlResponse(url='https://rookielfy.cn',  body=resp.content)

這樣就初始化了一個最簡單的response了液样。

如何讓scrapy shell讀入spiders的配置文件 settings.py？有這個疑問是因為有的時候巧还，項目有眾多中間件鞭莽，而我想直接用scrapy shell進行調(diào)試。比如scrapy-splash麸祷，在終端有如下代碼

req = SplashRequest('https://httpbin.org/user-agent',
        args={
            'wait': 2,
        },
        splash_url='http://127.0.0.1:8050',
        headers={'User-Agent': 'i am a fake user agent'}
    )
fetch(req)

如果不引用splash的中間件澎怒，那么直接在終端執(zhí)行fetch(req)，請求不會通過splash的摇锋，所以在啟動終端的時候丹拯，載入指定的配置就很重要站超。那么如何做呢？其實比較簡單乖酬，我們只需要在項目根目錄（含有scrapy.cfg文件）下啟動scrapy shell即可死相。

以上就是近期使用scrapy shell總結(jié)出來的小技巧。現(xiàn)在發(fā)現(xiàn)scrapy這套爬蟲框架的生態(tài)非常豐富咬像，還有很多可以挖掘的東西算撮。學(xué)海無涯，以后再做總結(jié)和分享县昂。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末肮柜，一起剝皮案震驚了整個濱河市，隨后出現(xiàn)的幾起案子倒彰，更是在濱河造成了極大的恐慌审洞，老刑警劉巖，帶你破解...
沈念sama閱讀 218,607評論 6贊 507
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件待讳，死亡現(xiàn)場離奇詭異芒澜，居然都是意外死亡，警方通過查閱死者的電腦和手機创淡，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 93,239評論 3贊 395
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門痴晦，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人琳彩，你說我怎么就攤上這事誊酌。” “怎么了露乏？”我有些...
開封第一講書人閱讀 164,960評論 0贊 355
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵碧浊，是天一觀的道長。經(jīng)常有香客問我施无，道長辉词，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 58,750評論 1贊 294
?港島之戀（遺憾婚禮）
正文為了忘掉前任猾骡，我火速辦了婚禮，結(jié)果婚禮上敷搪，老公的妹妹穿的比我還像新娘兴想。我一直安慰自己，他們只是感情好赡勘，可當我...
茶點故事閱讀 67,764評論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布嫂便。她就那樣靜靜地躺著，像睡著了一般闸与。火紅的嫁衣襯著肌膚如雪毙替。梳的紋絲不亂的頭發(fā)上岸售，一...
開封第一講書人閱讀 51,604評論 1贊 305
城市分裂傳說
那天，我揣著相機與錄音厂画，去河邊找鬼凸丸。笑死，一個胖子當著我的面吹牛袱院，可吹牛的內(nèi)容都是我干的屎慢。我是一名探鬼主播，決...
沈念sama閱讀 40,347評論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼忽洛，長吁一口氣：“原來是場噩夢啊……” “哼腻惠！你這毒婦竟也來了？” 一聲冷哼從身側(cè)響起欲虚，我...
開封第一講書人閱讀 39,253評論 0贊 276
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤集灌，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后复哆，有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體绝页，經(jīng)...
沈念sama閱讀 45,702評論 1贊 315
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 37,893評論 3贊 336
?白月光啟示錄
正文我和宋清朗相戀三年寂恬，在試婚紗的時候發(fā)現(xiàn)自己被綠了续誉。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點故事閱讀 40,015評論 1贊 348
活死人
序言：一個原本活蹦亂跳的男人離奇死亡初肉，死狀恐怖酷鸦，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情牙咏，我是刑警寧澤臼隔，帶...
沈念sama閱讀 35,734評論 5贊 346
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站妄壶，受9級特大地震影響摔握，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜丁寄，卻給世界環(huán)境...
茶點故事閱讀 41,352評論 3贊 330
男人毒藥：我在死后第九天來索命
文/蒙蒙一氨淌、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧伊磺，春花似錦盛正、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,934評論 0贊 22
一樁弒父案豪筝，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至，卻和暖如春续崖，著一層夾襖步出監(jiān)牢的瞬間敲街，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 33,052評論 1贊 270
情欲美人皮
我被黑心中介騙來泰國打工严望，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留多艇，地道東北人。一個月前我還...
沈念sama閱讀 48,216評論 3贊 371
代替公主和親
正文我出身青樓著蟹，卻偏偏與公主長得像墩蔓，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子萧豆，可洞房花燭夜當晚...
茶點故事閱讀 44,969評論 2贊 355

scrapy調(diào)試小技巧

推薦閱讀更多精彩內(nèi)容