Scrapy筆記-常用指令

常用指令

創(chuàng)建項目

設置一個新的Scrapy項目芜飘。

scrapy startproject projectname

運行爬蟲

scrapy crawl spidername

數(shù)據(jù)提取測試

scrapy shell 'hhttp://www.xxx.com'

css選擇器

使用 shell，您可以嘗試使用帶有 response 對象的 CSS 選擇元素：

>>> response.css('title')
[<Selector xpath='descendant-or-self::title' data='<title>Quotes to Scrape</title>'>]

要從上面的標題中提取文本，您可以：

>>> response.css('title::text').extract()
['Quotes to Scrape']

我們在CSS查詢中添加了 ::text 喘批，這意味著我們只想直接在 <title> 元素中選擇文本元素撩荣。如果我們不指定 ::text ，我們將獲得完整的 title 元素饶深，包括其標簽：

>>> response.css('title').extract()
['<title>Quotes to Scrape</title>']

可以使用 re 方法使用正則表達式進行提炔筒堋：

>>> response.css('title::text').re(r'Quotes.*')
['Quotes to Scrape']
>>> response.css('title::text').re(r'Q\w+')
['Quotes']
>>> response.css('title::text').re(r'(\w+) to (\w+)')
['Quotes', 'Scrape']

Xpath

Scrapy 選擇器還支持使用 XPath 表達式：

>>> response.xpath('//title')
[<Selector xpath='//title' data='<title>Quotes to Scrape</title>'>]
>>> response.xpath('//title/text()').extract_first()
'Quotes to Scrape'

數(shù)據(jù)存儲

Feed

存儲抓取數(shù)據(jù)的最簡單方法是使用 Feed 導出(Feed exports)

scrapy crawl spidername -o xxxx.json

這將生成一個 quotes.json 文件，其中包含所有被抓取的項目敌厘，以 JSON 序列化台猴。

使用其他格式，如JSON Lines：

scrapy crawl spidername -o xxxx.jl

由于每條記錄都是單獨的行俱两，因此您可以處理大文件饱狂，而無需將所有內容都放在內存中

爬蟲參數(shù)

在運行爬蟲時，可以使用 -a 選項為您的爬蟲提供命令行參數(shù)：

scrapy crawl spidername -o xxxx-humor.json -a tag=xxx

這些參數(shù)傳遞給 Spider 的 __init__ 方法宪彩，默認成為spider屬性休讳。

您可以使用此方法使您的爬蟲根據(jù)參數(shù)構建 URL來實現(xiàn)僅抓取帶有特定tag的數(shù)據(jù)：

def start_requests(self):
        url = 'http://quotes.toscrape.com/'
        tag = getattr(self, 'tag', None)
        if tag is not None:
            url = url + 'tag/' + tag
        yield scrapy.Request(url, self.parse)

?著作權歸作者所有,轉載或內容合作請聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市尿孔，隨后出現(xiàn)的幾起案子俊柔，更是在濱河造成了極大的恐慌，老刑警劉巖活合，帶你破解...
沈念sama閱讀 217,185評論 6贊 503
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件雏婶，死亡現(xiàn)場離奇詭異，居然都是意外死亡白指，警方通過查閱死者的電腦和手機留晚，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 92,652評論 3贊 393
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來告嘲，“玉大人倔丈，你說我怎么就攤上這事∽次希” “怎么了需五？”我有些...
開封第一講書人閱讀 163,524評論 0贊 353
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長轧坎。經(jīng)常有香客問我宏邮，道長，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 58,339評論 1贊 293
?港島之戀（遺憾婚禮）
正文為了忘掉前任蜜氨，我火速辦了婚禮械筛，結果婚禮上，老公的妹妹穿的比我還像新娘飒炎。我一直安慰自己埋哟，他們只是感情好，可當我...
茶點故事閱讀 67,387評論 6贊 391
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布郎汪。她就那樣靜靜地躺著赤赊，像睡著了一般。火紅的嫁衣襯著肌膚如雪煞赢。梳的紋絲不亂的頭發(fā)上抛计，一...
開封第一講書人閱讀 51,287評論 1贊 301
城市分裂傳說
那天，我揣著相機與錄音照筑，去河邊找鬼吹截。笑死，一個胖子當著我的面吹牛凝危，可吹牛的內容都是我干的波俄。我是一名探鬼主播，決...
沈念sama閱讀 40,130評論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼蛾默，長吁一口氣：“原來是場噩夢啊……” “哼弟断！你這毒婦竟也來了？” 一聲冷哼從身側響起趴生，我...
開封第一講書人閱讀 38,985評論 0贊 275
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤阀趴，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后苍匆，有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體刘急，經(jīng)...
沈念sama閱讀 45,420評論 1贊 313
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內容為張勛視角年9月15日...
茶點故事閱讀 37,617評論 3贊 334
?白月光啟示錄
正文我和宋清朗相戀三年浸踩，在試婚紗的時候發(fā)現(xiàn)自己被綠了叔汁。大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點故事閱讀 39,779評論 1贊 348
活死人
序言：一個原本活蹦亂跳的男人離奇死亡检碗，死狀恐怖据块，靈堂內的尸體忽然破棺而出，到底是詐尸還是另有隱情折剃，我是刑警寧澤另假，帶...
沈念sama閱讀 35,477評論 5贊 345
?日本核電站爆炸內幕
正文年R本政府宣布，位于F島的核電站怕犁，受9級特大地震影響边篮，放射性物質發(fā)生泄漏己莺。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點故事閱讀 41,088評論 3贊 328
男人毒藥：我在死后第九天來索命
文/蒙蒙一戈轿、第九天我趴在偏房一處隱蔽的房頂上張望凌受。院中可真熱鬧，春花似錦思杯、人聲如沸胜蛉。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,716評論 0贊 22
一樁弒父案色乾，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽誊册。三九已至，卻和暖如春杈湾，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背攘须。一陣腳步聲響...
開封第一講書人閱讀 32,857評論 1贊 269
情欲美人皮
我被黑心中介騙來泰國打工漆撞，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留，地道東北人于宙。一個月前我還...
沈念sama閱讀 47,876評論 2贊 370
代替公主和親
正文我出身青樓浮驳，卻偏偏與公主長得像，于是被迫代替她去往敵國和親捞魁。傳聞我的和親對象是個殘疾皇子至会，可洞房花燭夜當晚...
茶點故事閱讀 44,700評論 2贊 354