Python爬蟲:和我一起學(xué)習(xí)scrapy(二)

image

我們先上一波總結(jié)甸陌,當(dāng)我們抓取網(wǎng)頁的時候瞎惫,我們最常的任務(wù)就是從HTML中將數(shù)據(jù)提取出來,那我們就不得不學(xué)習(xí)數(shù)據(jù)提取庫了胎源。

對于爬取信息的解析棉钧,我們之前已經(jīng)介紹過了正則re、Xpath涕蚤、BeautifulSoup和PyQuery宪卿。而Scrapy還給我們提供了自己的數(shù)據(jù)解析方法,即Selector(選擇器)万栅。

Selector選擇器是基于lxml來構(gòu)建的佑钾,支持Xpath、CSS選擇器以及正則表達式烦粒。功能全面休溶。解析的速度與準(zhǔn)確率都是極高的。

Selector選擇器是一個可以獨立使用的模塊扰她。直接導(dǎo)入模塊就可以實例化使用兽掰。我們使用Scrapy shell來模擬請求實現(xiàn)命令行交互模式。

具體的使用方式可以看下面的代碼:

from scrapy import Selector


content = "<html><head><title>my html</title><body><h3>Hello World</h3></body></head></html>"
selector = Selector(text=content)
print(selector.xpath('/html/head/title/text()'))
# [<Selector xpath='/html/head/title/text()' data='my html'>]
print(selector.xpath('/html/head/title/text()').extract())
# ['my html']
print(selector.xpath('/html/head/title/text()').extract_first())
# my html
print(selector.css('h3::text').extract_first())
# Hello World

當(dāng)然Selector也是支持css選擇器的使用語法的徒役,接下來孽尽,我將使用兩種語法來獲取同一個數(shù)據(jù)。

其中的HTML如下所示:

<html>
 <head>
  <base  />
  <title>Example website</title>
 </head>
 <body>
  <div id='images'>
   <a href='image1.html'>Name: My image 1 <br /><img src='image1_thumb.jpg' /></a>
   <a href='image2.html'>Name: My image 2 <br /><img src='image2_thumb.jpg' /></a>
   <a href='image3.html'>Name: My image 3 <br /><img src='image3_thumb.jpg' /></a>
   <a href='image4.html'>Name: My image 4 <br /><img src='image4_thumb.jpg' /></a>
   <a href='image5.html'>Name: My image 5 <br /><img src='image5_thumb.jpg' /></a>
  </div>
 </body>
</html>

該網(wǎng)頁的鏈接如下:

https://docs.scrapy.org/en/latest/_static/selectors-sample1.html

因此忧勿,我打算在終端通過shell的方式杉女,一種交互模式展現(xiàn)給大家。

image

這部分內(nèi)容就是scrapy向目標(biāo)網(wǎng)站發(fā)起請求狐蜕,返回的結(jié)果宠纯。

通過輸入response.body,便可以查看到網(wǎng)頁的源代碼了层释。

image

接下來婆瓜,我會使用兩種數(shù)據(jù)提取的方式教大家把標(biāo)題文本提取出來。

image

既可以通過xpath語法獲取到數(shù)據(jù)贡羔,也可以通過css選擇器獲取到我們想要的數(shù)據(jù)廉白,是不是覺得很爽!乖寒!

下面的內(nèi)容我就不一一說明了猴蹂,因為我之前也是有寫過關(guān)于xpath和css的文章,如果看不懂楣嘁,建議回看文章磅轻。

# 文本一
response.xpath('//title/text()').extract()
response.css('title::text').extract()
response.selector.xpath("http://a/text()").extract()

# 文本 包括子節(jié)點
response.xpath("http://a[1]//text()").extract()

# 文本 包括子節(jié)點
response.xpath("string(//a[1])").extract()


# 屬性
response.xpath('//img/@src').extract()
response.css('img::attr(src)').extract()

# 混合
response.css('img').xpath('@src').extract()
response.xpath('//img').css('::attr(src)').extract()

本篇文章的內(nèi)容有點少珍逸,主要目的就是帶大家了解一下,scrapy中的Selector的使用方法聋溜,其實只要前面的基礎(chǔ)打得牢固的話谆膳,對于本篇內(nèi)容相信你不到5分鐘就可以掌握了。

最后我還是不得不說.......

最后

沒有什么事情是可以一蹴而就的撮躁,生活如此漱病,學(xué)習(xí)亦是如此!

因此把曼,哪里會有什么三天速成杨帽,七天速成的說法呢?

唯有堅持嗤军,方能成功注盈!

啃書君說

文章的每一個字都是我用心敲出來的,只希望對得起每一位關(guān)注我的人叙赚。在文章末尾點【】当凡,讓我知道,你們也在為自己的學(xué)習(xí)拼搏和努力纠俭。

路漫漫其修遠兮,吾將上下而求索浪慌。

我是啃書君冤荆,一個專注于學(xué)習(xí)的人,你懂的越多权纤,你不懂的越多钓简。更多精彩內(nèi)容,我們下期再見汹想!

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末外邓,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子古掏,更是在濱河造成了極大的恐慌损话,老刑警劉巖,帶你破解...
    沈念sama閱讀 219,490評論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件槽唾,死亡現(xiàn)場離奇詭異丧枪,居然都是意外死亡,警方通過查閱死者的電腦和手機庞萍,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,581評論 3 395
  • 文/潘曉璐 我一進店門拧烦,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人钝计,你說我怎么就攤上這事恋博∑爰眩” “怎么了?”我有些...
    開封第一講書人閱讀 165,830評論 0 356
  • 文/不壞的土叔 我叫張陵债沮,是天一觀的道長炼吴。 經(jīng)常有香客問我,道長秦士,這世上最難降的妖魔是什么缺厉? 我笑而不...
    開封第一講書人閱讀 58,957評論 1 295
  • 正文 為了忘掉前任,我火速辦了婚禮隧土,結(jié)果婚禮上提针,老公的妹妹穿的比我還像新娘。我一直安慰自己曹傀,他們只是感情好辐脖,可當(dāng)我...
    茶點故事閱讀 67,974評論 6 393
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著皆愉,像睡著了一般嗜价。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上幕庐,一...
    開封第一講書人閱讀 51,754評論 1 307
  • 那天久锥,我揣著相機與錄音,去河邊找鬼异剥。 笑死瑟由,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的冤寿。 我是一名探鬼主播歹苦,決...
    沈念sama閱讀 40,464評論 3 420
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼督怜!你這毒婦竟也來了殴瘦?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,357評論 0 276
  • 序言:老撾萬榮一對情侶失蹤号杠,失蹤者是張志新(化名)和其女友劉穎蚪腋,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體姨蟋,經(jīng)...
    沈念sama閱讀 45,847評論 1 317
  • 正文 獨居荒郊野嶺守林人離奇死亡辣吃,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,995評論 3 338
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了芬探。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片神得。...
    茶點故事閱讀 40,137評論 1 351
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖偷仿,靈堂內(nèi)的尸體忽然破棺而出哩簿,到底是詐尸還是另有隱情宵蕉,我是刑警寧澤,帶...
    沈念sama閱讀 35,819評論 5 346
  • 正文 年R本政府宣布节榜,位于F島的核電站羡玛,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏宗苍。R本人自食惡果不足惜稼稿,卻給世界環(huán)境...
    茶點故事閱讀 41,482評論 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望讳窟。 院中可真熱鬧让歼,春花似錦、人聲如沸丽啡。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,023評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽补箍。三九已至改执,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間坑雅,已是汗流浹背辈挂。 一陣腳步聲響...
    開封第一講書人閱讀 33,149評論 1 272
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留裹粤,地道東北人呢岗。 一個月前我還...
    沈念sama閱讀 48,409評論 3 373
  • 正文 我出身青樓,卻偏偏與公主長得像蛹尝,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子悉尾,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 45,086評論 2 355

推薦閱讀更多精彩內(nèi)容