2018-08-12

Scrapy學(xué)習(xí)

《精通Scrapy網(wǎng)絡(luò)爬蟲》第八章--僅作為本人學(xué)習(xí)筆記鸳吸,如有侵權(quán)林束,請(qǐng)私信我刪除

1惹恃、項(xiàng)目需求

爬取http://books.toscrape.com/中的書籍信息庇茫,包括

書名

價(jià)格

評(píng)價(jià)等級(jí)

產(chǎn)品編碼

庫(kù)存量

評(píng)價(jià)數(shù)量

將爬取的結(jié)果保存到CSV文件中

2、頁(yè)面分析

除了使用F12之外搀菩,可以使用scrapy shell<URI>命令

使用之前要安裝好pip install pypiwin32

在此環(huán)境下常用的變量

*request

最近一次下載對(duì)應(yīng)的Request對(duì)象

*response

最近一次下載對(duì)應(yīng)的Response對(duì)象

*fetch(req_or_url)

該函數(shù)用于下載頁(yè)面呕臂,可傳入一個(gè)Request對(duì)象或url字符串,調(diào)用后會(huì)更新變量request和response

*view(response)

該函數(shù)用于在瀏覽器中顯示response中的頁(yè)面

>>>view(response)

跟在瀏覽器打開的頁(yè)面一樣秕磷,但是這個(gè)是由Scrapy爬蟲下載的頁(yè)面诵闭,使用view函數(shù)更加可靠

(我的理解就是:可以一步步看自己提取信息的命令是否正確,不必像普通爬蟲那樣寫好爬蟲代碼準(zhǔn)備爬取大量信息的時(shí)候報(bào)錯(cuò)才知道自己的提取命令寫得不對(duì))

>>>sel = response.css('div.product_main')

>>>sel.xpath('./h1/text()').extract_first()

'A Light in the Attic'

>>>sel.css('p.price_color::text').extract_first()

'£51.77'

>>>sel.css('p.star-rating::attr(class)').re_first('star-rating([A-Za-z]+)')

'Three'

把自己要提取的信息都嘗試一遍

分析完書籍頁(yè)面后接著分析如何再書籍列表頁(yè)面中提取每一個(gè)書籍頁(yè)面的鏈接

(使用fetch函數(shù)要先關(guān)閉terminal重啟scrapy shell)

用fetch函數(shù)下載第一個(gè)書籍列表頁(yè)面澎嚣,下載完后再調(diào)用view函數(shù)在瀏覽器中查看頁(yè)面

>>>fetch('http://books.toscrape.com/')

>>>view(response)

鏈接可在每個(gè)<article class="product_pod">中找到

使用LinkExtractor提取鏈接



完成分析工作

3、編碼實(shí)現(xiàn)

創(chuàng)建一個(gè)Scrapy項(xiàng)目瘟芝,取名為toscrape_book

scrapy startproject toscrape_book

通常我們不需要手工創(chuàng)建Spider文件以及Spider類

cd?toscrape_book

scrapy genspider books books.toscrape.com

兩個(gè)參數(shù)分別為Spider的名字和所要爬取的域(網(wǎng)站)



自動(dòng)生成的兩個(gè)東西都在


定義封裝書籍信息的類

實(shí)現(xiàn)Spider之前先定義封裝書籍信息的Item類


分5步完成BookSpider

*繼承Spider創(chuàng)建BookSpider類? *為Spider取名? *指定起始爬取點(diǎn) (都已完成)? ? ? ? ??

*實(shí)現(xiàn)書籍列表頁(yè)面的解析函數(shù)?? ? ?

*實(shí)現(xiàn)書籍頁(yè)面的解析函數(shù)??




指定各列次序







完成倒是完成了易桃,但是數(shù)據(jù)并沒(méi)有1000條


回去再找問(wèn)題吧,吃了一下午的二手煙了


自己依舊笨

終于找到了锌俱,因?yàn)槭歉粢恍械奈钪#跃湍敲炊嗔耍痪湍敲袋c(diǎn)代碼贸宏,還能是哪錯(cuò)呢造寝。[攤手.emoji]


最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市吭练,隨后出現(xiàn)的幾起案子诫龙,更是在濱河造成了極大的恐慌,老刑警劉巖鲫咽,帶你破解...
    沈念sama閱讀 211,290評(píng)論 6 491
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件签赃,死亡現(xiàn)場(chǎng)離奇詭異谷异,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī)锦聊,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,107評(píng)論 2 385
  • 文/潘曉璐 我一進(jìn)店門歹嘹,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人孔庭,你說(shuō)我怎么就攤上這事尺上。” “怎么了圆到?”我有些...
    開封第一講書人閱讀 156,872評(píng)論 0 347
  • 文/不壞的土叔 我叫張陵尖昏,是天一觀的道長(zhǎng)。 經(jīng)常有香客問(wèn)我构资,道長(zhǎng)抽诉,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 56,415評(píng)論 1 283
  • 正文 為了忘掉前任吐绵,我火速辦了婚禮迹淌,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘己单。我一直安慰自己唉窃,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,453評(píng)論 6 385
  • 文/花漫 我一把揭開白布纹笼。 她就那樣靜靜地躺著纹份,像睡著了一般。 火紅的嫁衣襯著肌膚如雪廷痘。 梳的紋絲不亂的頭發(fā)上蔓涧,一...
    開封第一講書人閱讀 49,784評(píng)論 1 290
  • 那天,我揣著相機(jī)與錄音笋额,去河邊找鬼元暴。 笑死,一個(gè)胖子當(dāng)著我的面吹牛兄猩,可吹牛的內(nèi)容都是我干的茉盏。 我是一名探鬼主播,決...
    沈念sama閱讀 38,927評(píng)論 3 406
  • 文/蒼蘭香墨 我猛地睜開眼枢冤,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼鸠姨!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起淹真,我...
    開封第一講書人閱讀 37,691評(píng)論 0 266
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤讶迁,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后趟咆,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體添瓷,經(jīng)...
    沈念sama閱讀 44,137評(píng)論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡梅屉,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,472評(píng)論 2 326
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了鳞贷。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片坯汤。...
    茶點(diǎn)故事閱讀 38,622評(píng)論 1 340
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖搀愧,靈堂內(nèi)的尸體忽然破棺而出惰聂,到底是詐尸還是另有隱情,我是刑警寧澤咱筛,帶...
    沈念sama閱讀 34,289評(píng)論 4 329
  • 正文 年R本政府宣布搓幌,位于F島的核電站,受9級(jí)特大地震影響迅箩,放射性物質(zhì)發(fā)生泄漏溉愁。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,887評(píng)論 3 312
  • 文/蒙蒙 一饲趋、第九天 我趴在偏房一處隱蔽的房頂上張望拐揭。 院中可真熱鬧,春花似錦奕塑、人聲如沸堂污。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,741評(píng)論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)盟猖。三九已至,卻和暖如春换棚,著一層夾襖步出監(jiān)牢的瞬間式镐,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,977評(píng)論 1 265
  • 我被黑心中介騙來(lái)泰國(guó)打工圃泡, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留碟案,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 46,316評(píng)論 2 360
  • 正文 我出身青樓颇蜡,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親辆亏。 傳聞我的和親對(duì)象是個(gè)殘疾皇子风秤,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,490評(píng)論 2 348

推薦閱讀更多精彩內(nèi)容

  • 思路持續(xù)混亂一段時(shí)間了,自己明白需要充電扮叨。同時(shí)缤弦,更知道,需要輸出彻磁。那么就從簡(jiǎn)書日更開始吧碍沐! 第一:?jiǎn)栕约喝齻€(gè)問(wèn)題 ...
    樂(lè)橙來(lái)了閱讀 172評(píng)論 0 0
  • 統(tǒng)計(jì)學(xué)習(xí)方法筆記(一) 1.1實(shí)現(xiàn)統(tǒng)計(jì)學(xué)習(xí)方法的步驟 1.得到一個(gè)有限的訓(xùn)練數(shù)據(jù)集狸捅。 2.確定包含所有可能的模型的...
    Neuromance_ea9a閱讀 270評(píng)論 0 0
  • 停更一個(gè)月的簡(jiǎn)書。我很愧疚 每天都會(huì)在惡心嘔吐中度過(guò)累提,曾經(jīng)愛吃的東西忽然一下子沒(méi)了食欲尘喝,這種滋味就像胃里有個(gè)東西壓...
    yuweido閱讀 315評(píng)論 2 0
  • JS原型鏈(三)-構(gòu)造函數(shù)與ES6中class間的關(guān)系 es6出來(lái)了,感覺要學(xué)好多新特性斋陪,比如大家很多時(shí)候用起cl...
    平凡的lily閱讀 579評(píng)論 0 0
  • 一座青灰色歐式二層小洋樓朽褪,僅從外觀看,除了能感受到老建筑特有的厚重與滄桑无虚,似乎并不起眼缔赠。如果不加說(shuō)明,也許會(huì)讓人誤...
    心語(yǔ)_f8a1閱讀 622評(píng)論 0 1