scrapy筆記

scrapy源碼https://github.com/scrapy/scrapy/tree/master/scrapy

第一章揩页、scrapy的模塊

有spiders,selector,http,linkextractors，item,loader市咽，exceptions,pipeline等包。
其中萄涯，在scrapy的目錄下含有一些快捷的函數(shù)副编，如

scrapy.Spider()（繼承于spiders包）懂傀，
scrapy.Selector()（繼承于selector包），脑慧，
scrapy.Item() (繼承于item包）呻待，
scrapy.Request/FormRequest（繼承于http包）。

spiders模塊

常用Rule外臂，CrawlSpider等函數(shù)。

一般爬蟲scrapy.spiders.Spider,其他爬蟲都是繼承此爬蟲律胀。
鏈接爬蟲scrapy.spiders.CrawlSpider,
網(wǎng)站爬蟲scrapy.spiders.SitemapSpider
XML源爬蟲scrapy.spiders.XMLFeedSpider
CSV源爬蟲scrapy.spiders.CSVFeedSpider

linkextractors模塊

常用LinkExtractor()函數(shù)宋光。

http模塊

常用HtmlResponse()函數(shù)
scrapy.http.Request()
scrapy.http.FormRequest()

item模塊

常用Item(),Field()函數(shù)

loader模塊

常用ItemLoader函數(shù)

exceptions模塊

常用DropItem函數(shù)

pipeline

常用image,file包函數(shù)

第二章、選擇器 scrapy.selector.Selector(response=None, text=None, type=None)

在scrapy中使用選擇器對response進行解析炭菌。如response.xpath()罪佳。此時response已經(jīng)自動被scrapy轉(zhuǎn)化成了選擇器。選擇器可以由文本或者TextResponse構(gòu)造形成黑低，如：

from scrapy.http import HtmlResponse```
文本構(gòu)造

 Selector(text=body).xpath('//span/text()').extract()```
TextResponse構(gòu)造
 ```response = HtmlResponse(url='http://example.com', body=body)
 Selector(response=response).xpath('//span/text()').extract()```

選擇器常用方法xpath()或者css().如sel.xpath(),sel.css()xuan.兩者都返回新的選擇器赘艳。
選擇器還有re(),extract(),re_first(),extract_first()方法，前兩個返回字符串列表克握，后兩個返回字符串列表的第一個字符串蕾管。

##xpath
xpath("http://div")會得到文檔所有的div節(jié)點構(gòu)成的選擇器
> ```for p in divs.xpath('.//p')： # extracts all <p> inside
...     print p.extract()```

或者  
>```for p in divs.xpath('p')： #extracts all <p> inside
 print p.extract()```

xpath獲取多個標(biāo)簽下的文本
> ```sel.xpath("http://div").xpath("string(.)").extract()#返回一個列表，每個元素都是一個div節(jié)點下所有的文本菩暗。```

獲取指定文本值的元素
 >```sel.xpath("http://a[contains(., 'Next Page')]").extract()
sel.xpath("http://a[text()='Next Page']").extract()```

選擇器掰曾，在選擇標(biāo)簽易變的文本時記得用
>```xpath("string(.)")```

在數(shù)據(jù)項易減少的文本時，用
>```xpath("http://div[contains(text(),'word')]")```

可以利用兄弟父子節(jié)點選取停团。

#第三章婴梧、itempipeline
itempipeline是對spider產(chǎn)生的item進行處理。有清洗客蹋，驗證塞蹭，檢查，儲存等功能讶坯。itempipeline含有四個方法：
>open_spider(self, spider)番电，
close_spider(self, spider)，
from_crawler(cls, crawler)辆琅，
process_item(self, item, spider).

##不同的item處理
>```if isinstance(item, Aitem):
    pass
elif isinstance(item, Bitem):
    pass
else:
    pass```

##儲存到mongoDB
在settings文件里輸入
>```
MONGODB_URI = 'mongodb://localhost:27017'
MONGODB_DATABASE = 'scrapy'
DOWNLOAD_DELAY = 0.25 #用于防止被ban```

然后在pipeline文件直接用官網(wǎng)的代碼漱办。只需要改動process_items函數(shù)的代碼和集合名。
>```
import pymongo
import pymongo
from scrapy.conf import settings
from scrapy.exceptions import DropItem
from myproject.items import myitem
class myPipeline(object):
    collection_name = 'scrapy_items'
    def __init__(self, mongo_uri, mongo_db):
        self.mongo_uri = mongo_uri
        self.mongo_db = mongo_db
    @classmethod
    def from_crawler(cls, crawler):
        return cls(
            mongo_uri=crawler.settings.get('MONGO_URI'),
            mongo_db=crawler.settings.get('MONGO_DATABASE', 'items')
        )
    def open_spider(self, spider):
        self.client = pymongo.MongoClient(self.mongo_uri)
        self.db = self.client[self.mongo_db]
    def close_spider(self, spider):
        self.client.close()
    def process_item(self, item, spider):
        self.db[self.collection_name].insert(dict(item))
        return item```

#第四章婉烟、圖片下載和文件下載 參考http://www.reibang.com/p/b5ae15cb131d
scrapy中圖片和文件下載暫時只支持存在系統(tǒng)目錄或者S3.
##圖片下載
在items文件中：
>```import scrapy
 class MyItem(scrapy.Item):
    image_urls = scrapy.Field() #用來存放圖片的SRC源地址
    images = scrapy.Field() #儲存下載結(jié)果娩井，當(dāng)文件下載完后，images字段將被填充為一個2元素的元組似袁。其中第一個為布爾值洞辣，表明是否成功下載咐刨，第二個是一個字典，含有相關(guān)信息扬霜。如
(True,  {'checksum': '2b00042f7481c7b056c4b410d28f33cf',
   'path': 'full/0a79c461a4062ac383dc4fade7bc09f1384a3910.jpg',
   'url': 'http://www.example.com/files/product1.pdf'})

同理文件下載的item
在settings文件中配置：保存目錄定鸟，失效時間，縮略圖生成著瓶，過濾小圖片

IMAGES_STORE = "./圖片" #圖片儲存路徑,為當(dāng)前項目目錄下的圖片文件夾
FILES_STORE = "./wenjian" #文件儲存路徑
FILES_EXPIRES = 90 #設(shè)置文件失效的時間
IMAGES_EXPIRES = 30 #設(shè)置圖片失效的時間```

IMAGES_THUMBS = {
'small': (50, 50),
'big': (270, 270),
} #設(shè)置縮略圖大小联予，當(dāng)你使用這個特性時，圖片管道將使用下面的格式來創(chuàng)建各個特定尺寸的縮略圖:
<IMAGES_STORE>/thumbs/<size_name>/<image_id>.jpg

IMAGES_MIN_HEIGHT = 110 #過濾小圖片
IMAGES_MIN_WIDTH = 110 #過濾小圖片```

pipeline

經(jīng)常需要在pipeline或者中間件中獲取settings的屬性材原，可以通過scrapy.crawler.Crawler.settings屬性或者
from scrapy.conf importsettings

@classmethod
def from_crawler(cls, crawler):
    settings = crawler.settings
    if settings['LOG_ENABLED']:
        print "log is enabled!"  ```

每個圖片item保存在不同的目錄

class MyImagesPipeline(ImagesPipeline):
spider = None

def get_media_requests(self, item, info):
    for url in item["image_urls"]:
        yield scrapy.Request(url,meta={'sch_name': item["sch_name"]})

#file_path函數(shù)重寫沸久，對圖片保存目錄進行設(shè)置

def file_path(self, request, response=None, info=None):
    image_guid = request.url.split('/')[-1]
    return "C:/pictures/full/%s/%s" % (request.meta['sch_name'],image_guid)

def item_completed(self, results, item, info):
        image_paths = [x['path'] for ok, x in results if ok]
        if not image_paths:
            raise DropItem("Item contains no images")            
        return item

最后編輯于：2017.12.06 15:10:58

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市余蟹，隨后出現(xiàn)的幾起案子麦向，更是在濱河造成了極大的恐慌，老刑警劉巖客叉，帶你破解...
沈念sama閱讀 207,113評論 6贊 481
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場離奇詭異话告，居然都是意外死亡兼搏，警方通過查閱死者的電腦和手機，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 88,644評論 2贊 381
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門沙郭，熙熙樓的掌柜王于貴愁眉苦臉地迎上來佛呻，“玉大人，你說我怎么就攤上這事病线∠胖” “怎么了？”我有些...
開封第一講書人閱讀 153,340評論 0贊 344
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵送挑，是天一觀的道長绑莺。經(jīng)常有香客問我，道長惕耕，這世上最難降的妖魔是什么纺裁？我笑而不...
開封第一講書人閱讀 55,449評論 1贊 279
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮司澎，結(jié)果婚禮上欺缘，老公的妹妹穿的比我還像新娘。我一直安慰自己挤安，他們只是感情好谚殊，可當(dāng)我...
茶點故事閱讀 64,445評論 5贊 374
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著蛤铜，像睡著了一般嫩絮。火紅的嫁衣襯著肌膚如雪丛肢。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 49,166評論 1贊 284
城市分裂傳說
那天絮记，我揣著相機與錄音摔踱，去河邊找鬼。笑死怨愤，一個胖子當(dāng)著我的面吹牛派敷，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播撰洗，決...
沈念sama閱讀 38,442評論 3贊 401
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼篮愉，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了差导？” 一聲冷哼從身側(cè)響起试躏，我...
開封第一講書人閱讀 37,105評論 0贊 261
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎设褐，沒想到半個月后颠蕴，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 43,601評論 1贊 300
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡助析，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 36,066評論 2贊 325
?白月光啟示錄
正文我和宋清朗相戀三年犀被，在試婚紗的時候發(fā)現(xiàn)自己被綠了。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片外冀。...
茶點故事閱讀 38,161評論 1贊 334
活死人
序言：一個原本活蹦亂跳的男人離奇死亡寡键，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出雪隧，到底是詐尸還是另有隱情西轩，我是刑警寧澤，帶...
沈念sama閱讀 33,792評論 4贊 323
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布脑沿，位于F島的核電站藕畔，受9級特大地震影響，放射性物質(zhì)發(fā)生泄漏庄拇。R本人自食惡果不足惜劫流，卻給世界環(huán)境...
茶點故事閱讀 39,351評論 3贊 307
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望丛忆。院中可真熱鬧祠汇，春花似錦、人聲如沸熄诡。這莊子的主人今日做“春日...
開封第一講書人閱讀 30,352評論 0贊 19
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽凰浮。三九已至我抠，卻和暖如春苇本，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背菜拓。一陣腳步聲響...
開封第一講書人閱讀 31,584評論 1贊 261
情欲美人皮
我被黑心中介騙來泰國打工瓣窄，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留，地道東北人纳鼎。一個月前我還...
沈念sama閱讀 45,618評論 2贊 355
代替公主和親
正文我出身青樓俺夕，卻偏偏與公主長得像，于是被迫代替她去往敵國和親贱鄙。傳聞我的和親對象是個殘疾皇子劝贸，可洞房花燭夜當(dāng)晚...
茶點故事閱讀 42,916評論 2贊 344

scrapy筆記

scrapy源碼https://github.com/scrapy/scrapy/tree/master/scrapy

第一章揩页、scrapy的模塊

spiders模塊

linkextractors模塊

http模塊

item模塊

loader模塊

exceptions模塊

pipeline

第二章、選擇器 scrapy.selector.Selector(response=None, text=None, type=None)

pipeline

每個圖片item保存在不同的目錄

推薦閱讀更多精彩內(nèi)容