Scrapy入門

Scrapy架構(gòu)圖(綠線是數(shù)據(jù)流向)

Scrapy Engine(引擎): 負(fù)責(zé)Spider们陆、ItemPipeline餐曹、Downloader摆屯、Scheduler中間的通訊馆纳，信號诗良、數(shù)據(jù)傳遞等。

Scheduler(調(diào)度器): 它負(fù)責(zé)接受引擎發(fā)送過來的Request請求鲁驶，并按照一定的方式進(jìn)行整理排列鉴裹，入隊，當(dāng)引擎需要時钥弯，交還給引擎径荔。

Downloader（下載器）：負(fù)責(zé)下載Scrapy Engine(引擎)發(fā)送的所有Requests請求，并將其獲取到的Responses交還給Scrapy Engine(引擎)寿羞，由引擎交給Spider來處理猖凛，

Spider（爬蟲）：它負(fù)責(zé)處理所有Responses,從中分析提取數(shù)據(jù)，獲取Item字段需要的數(shù)據(jù)绪穆，并將需要跟進(jìn)的URL提交給引擎辨泳，再次進(jìn)入Scheduler(調(diào)度器).

Item Pipeline(管道)：它負(fù)責(zé)處理Spider中獲取到的Item虱岂，并進(jìn)行進(jìn)行后期處理（詳細(xì)分析、過濾菠红、存儲等）的地方第岖。

Downloader Middlewares（下載中間件）：你可以當(dāng)作是一個可以自定義擴(kuò)展下載功能的組件。

Spider Middlewares（Spider中間件）：你可以理解為是一個可以自定擴(kuò)展和操作引擎和Spider中間通信的功能組件（比如進(jìn)入Spider的Responses;和從Spider出去的Requests）

制作 Scrapy 爬蟲一共需要4步：

1.新建項目 (scrapy startproject xxx)：新建一個新的爬蟲項目

scrapy startproject mySpider

scrapy.cfg: 項目的配置文件试溯。
mySpider/: 項目的Python模塊蔑滓，將會從這里引用代碼。
mySpider/items.py: 項目的目標(biāo)文件遇绞。
mySpider/pipelines.py: 項目的管道文件键袱。
mySpider/settings.py: 項目的設(shè)置文件。
mySpider/spiders/: 存儲爬蟲代碼目錄摹闽。```

2.明確目標(biāo) （編寫items.py）：明確你想要抓取的目標(biāo)

1.打開 mySpider 目錄下的 items.py蹄咖。

2.Item 定義結(jié)構(gòu)化數(shù)據(jù)字段，用來保存爬取到的數(shù)據(jù)付鹿，有點像 Python 中的 dict澜汤，但是提供了一些額外的保護(hù)減少錯誤。

3.可以通過創(chuàng)建一個 scrapy.Item 類舵匾，并且定義類型為 scrapy.Field 的類屬性來定義一個 Item（可以理解成類似于 ORM 的映射關(guān)系）

    import scrapy

    class ItcastItem(scrapy.Item):
       name = scrapy.Field()
       title = scrapy.Field()
       info = scrapy.Field()

3.制作爬蟲（spiders/xxspider.py）：制作爬蟲開始爬取網(wǎng)頁

(1) 在當(dāng)前目錄下輸入命令俊抵，將在mySpider/spider目錄下創(chuàng)建一個名為itcast的爬蟲，并指定爬取域的范圍：

scrapy genspider YingShi "66ys.tv"

YingShi 項目名字
66ys.tv 網(wǎng)址域名
(2) 打開 mySpider/spider目錄里的 itcast.py.然后增加代碼

4.存儲內(nèi)容（pipelines.py）：

scrapy保存信息的最簡單的方法主要有四種坐梯，-o 輸出指定格式的文件徽诲，命令如下：

scrapy crawl itcast -o teachers.json

json lines格式，默認(rèn)為Unicode編碼

scrapy crawl itcast -o teachers.jsonl

csv 逗號表達(dá)式烛缔，可用Excel打開

scrapy crawl itcast -o teachers.csv

xml格式

scrapy crawl itcast -o teachers.xml

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末馏段，一起剝皮案震驚了整個濱河市，隨后出現(xiàn)的幾起案子践瓷，更是在濱河造成了極大的恐慌院喜，老刑警劉巖，帶你破解...
沈念sama閱讀 206,839評論 6贊 482
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件晕翠，死亡現(xiàn)場離奇詭異喷舀，居然都是意外死亡，警方通過查閱死者的電腦和手機(jī)淋肾，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 88,543評論 2贊 382
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門硫麻，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人樊卓，你說我怎么就攤上這事拿愧。” “怎么了碌尔？”我有些...
開封第一講書人閱讀 153,116評論 0贊 344
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵浇辜，是天一觀的道長券敌。經(jīng)常有香客問我，道長柳洋，這世上最難降的妖魔是什么待诅？我笑而不...
開封第一講書人閱讀 55,371評論 1贊 279
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮熊镣，結(jié)果婚禮上卑雁，老公的妹妹穿的比我還像新娘。我一直安慰自己绪囱，他們只是感情好测蹲，可當(dāng)我...
茶點故事閱讀 64,384評論 5贊 374
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著毕箍，像睡著了一般弛房。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上而柑，一...
開封第一講書人閱讀 49,111評論 1贊 285
城市分裂傳說
那天，我揣著相機(jī)與錄音荷逞，去河邊找鬼媒咳。笑死，一個胖子當(dāng)著我的面吹牛种远，可吹牛的內(nèi)容都是我干的涩澡。我是一名探鬼主播，決...
沈念sama閱讀 38,416評論 3贊 400
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼坠敷，長吁一口氣：“原來是場噩夢啊……” “哼妙同！你這毒婦竟也來了？” 一聲冷哼從身側(cè)響起膝迎，我...
開封第一講書人閱讀 37,053評論 0贊 259
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤粥帚，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后限次，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體芒涡，經(jīng)...
沈念sama閱讀 43,558評論 1贊 300
?護(hù)林員之死
正文獨居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 36,007評論 2贊 325
?白月光啟示錄
正文我和宋清朗相戀三年卖漫，在試婚紗的時候發(fā)現(xiàn)自己被綠了费尽。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點故事閱讀 38,117評論 1贊 334
活死人
序言：一個原本活蹦亂跳的男人離奇死亡羊始，死狀恐怖旱幼，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情突委，我是刑警寧澤柏卤，帶...
沈念sama閱讀 33,756評論 4贊 324
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布叹誉，位于F島的核電站，受9級特大地震影響闷旧，放射性物質(zhì)發(fā)生泄漏长豁。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點故事閱讀 39,324評論 3贊 307
男人毒藥：我在死后第九天來索命
文/蒙蒙一忙灼、第九天我趴在偏房一處隱蔽的房頂上張望匠襟。院中可真熱鬧，春花似錦该园、人聲如沸酸舍。這莊子的主人今日做“春日...
開封第一講書人閱讀 30,315評論 0贊 19
一樁弒父案里初，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽啃勉。三九已至，卻和暖如春双妨，著一層夾襖步出監(jiān)牢的瞬間淮阐，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 31,539評論 1贊 262
情欲美人皮
我被黑心中介騙來泰國打工刁品，沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留泣特，地道東北人。一個月前我還...
沈念sama閱讀 45,578評論 2贊 355
代替公主和親
正文我出身青樓挑随，卻偏偏與公主長得像状您，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子兜挨，可洞房花燭夜當(dāng)晚...
茶點故事閱讀 42,877評論 2贊 345

Scrapy入門

Scrapy架構(gòu)圖(綠線是數(shù)據(jù)流向)

制作 Scrapy 爬蟲 一共需要4步：

1.新建項目 (scrapy startproject xxx)：新建一個新的爬蟲項目

2.明確目標(biāo) （編寫items.py）：明確你想要抓取的目標(biāo)

3.制作爬蟲 （spiders/xxspider.py）：制作爬蟲開始爬取網(wǎng)頁

4.存儲內(nèi)容 （pipelines.py）：

推薦閱讀更多精彩內(nèi)容

制作 Scrapy 爬蟲一共需要4步：

3.制作爬蟲（spiders/xxspider.py）：制作爬蟲開始爬取網(wǎng)頁

4.存儲內(nèi)容（pipelines.py）：