Python爬蟲：和我一起學(xué)習(xí)scrapy（二）

image

我們先上一波總結(jié)甸陌，當(dāng)我們抓取網(wǎng)頁的時候瞎惫，我們最常的任務(wù)就是從HTML中將數(shù)據(jù)提取出來，那我們就不得不學(xué)習(xí)數(shù)據(jù)提取庫了胎源。

對于爬取信息的解析棉钧，我們之前已經(jīng)介紹過了正則re、Xpath涕蚤、BeautifulSoup和PyQuery宪卿。而Scrapy還給我們提供了自己的數(shù)據(jù)解析方法，即Selector（選擇器）万栅。

Selector選擇器是基于lxml來構(gòu)建的佑钾，支持Xpath、CSS選擇器以及正則表達式烦粒。功能全面休溶。解析的速度與準(zhǔn)確率都是極高的。

Selector選擇器是一個可以獨立使用的模塊扰她。直接導(dǎo)入模塊就可以實例化使用兽掰。我們使用Scrapy shell來模擬請求實現(xiàn)命令行交互模式。

具體的使用方式可以看下面的代碼：

from scrapy import Selector


content = "<html><head><title>my html</title><body><h3>Hello World</h3></body></head></html>"
selector = Selector(text=content)
print(selector.xpath('/html/head/title/text()'))
# [<Selector xpath='/html/head/title/text()' data='my html'>]
print(selector.xpath('/html/head/title/text()').extract())
# ['my html']
print(selector.xpath('/html/head/title/text()').extract_first())
# my html
print(selector.css('h3::text').extract_first())
# Hello World

當(dāng)然Selector也是支持css選擇器的使用語法的徒役，接下來孽尽，我將使用兩種語法來獲取同一個數(shù)據(jù)。

其中的HTML如下所示：

<html>
 <head>
  <base  />
  <title>Example website</title>
 </head>
 <body>
  <div id='images'>
   <a href='image1.html'>Name: My image 1 <br /><img src='image1_thumb.jpg' /></a>
   <a href='image2.html'>Name: My image 2 <br /><img src='image2_thumb.jpg' /></a>
   <a href='image3.html'>Name: My image 3 <br /><img src='image3_thumb.jpg' /></a>
   <a href='image4.html'>Name: My image 4 <br /><img src='image4_thumb.jpg' /></a>
   <a href='image5.html'>Name: My image 5 <br /><img src='image5_thumb.jpg' /></a>
  </div>
 </body>
</html>

該網(wǎng)頁的鏈接如下：

https://docs.scrapy.org/en/latest/_static/selectors-sample1.html

因此忧勿，我打算在終端通過shell的方式杉女，一種交互模式展現(xiàn)給大家。

image

這部分內(nèi)容就是scrapy向目標(biāo)網(wǎng)站發(fā)起請求狐蜕，返回的結(jié)果宠纯。

通過輸入response.body，便可以查看到網(wǎng)頁的源代碼了层释。

image

接下來婆瓜，我會使用兩種數(shù)據(jù)提取的方式教大家把標(biāo)題文本提取出來。

image

既可以通過xpath語法獲取到數(shù)據(jù)贡羔，也可以通過css選擇器獲取到我們想要的數(shù)據(jù)廉白，是不是覺得很爽！乖寒！

下面的內(nèi)容我就不一一說明了猴蹂，因為我之前也是有寫過關(guān)于xpath和css的文章，如果看不懂楣嘁，建議回看文章磅轻。

# 文本一
response.xpath('//title/text()').extract()
response.css('title::text').extract()
response.selector.xpath("http://a/text()").extract()

# 文本 包括子節(jié)點
response.xpath("http://a[1]//text()").extract()

# 文本 包括子節(jié)點
response.xpath("string(//a[1])").extract()


# 屬性
response.xpath('//img/@src').extract()
response.css('img::attr(src)').extract()

# 混合
response.css('img').xpath('@src').extract()
response.xpath('//img').css('::attr(src)').extract()

本篇文章的內(nèi)容有點少珍逸，主要目的就是帶大家了解一下，scrapy中的Selector的使用方法聋溜，其實只要前面的基礎(chǔ)打得牢固的話谆膳，對于本篇內(nèi)容相信你不到5分鐘就可以掌握了。

最后我還是不得不說.......

最后

沒有什么事情是可以一蹴而就的撮躁，生活如此漱病，學(xué)習(xí)亦是如此！

因此把曼，哪里會有什么三天速成杨帽，七天速成的說法呢？

唯有堅持嗤军，方能成功注盈！

啃書君說：

文章的每一個字都是我用心敲出來的，只希望對得起每一位關(guān)注我的人叙赚。在文章末尾點【贊】当凡，讓我知道，你們也在為自己的學(xué)習(xí)拼搏和努力纠俭。

路漫漫其修遠兮，吾將上下而求索浪慌。

我是啃書君冤荆，一個專注于學(xué)習(xí)的人，你懂的越多权纤，你不懂的越多钓简。更多精彩內(nèi)容，我們下期再見汹想！

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末外邓，一起剝皮案震驚了整個濱河市，隨后出現(xiàn)的幾起案子古掏，更是在濱河造成了極大的恐慌损话，老刑警劉巖，帶你破解...
沈念sama閱讀 219,490評論 6贊 508
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件槽唾，死亡現(xiàn)場離奇詭異丧枪，居然都是意外死亡，警方通過查閱死者的電腦和手機庞萍，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 93,581評論 3贊 395
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門拧烦，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人钝计，你說我怎么就攤上這事恋博∑爰眩” “怎么了？”我有些...
開封第一講書人閱讀 165,830評論 0贊 356
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵债沮，是天一觀的道長炼吴。經(jīng)常有香客問我，道長秦士，這世上最難降的妖魔是什么缺厉？我笑而不...
開封第一講書人閱讀 58,957評論 1贊 295
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮隧土，結(jié)果婚禮上提针，老公的妹妹穿的比我還像新娘。我一直安慰自己曹傀，他們只是感情好辐脖，可當(dāng)我...
茶點故事閱讀 67,974評論 6贊 393
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著皆愉，像睡著了一般嗜价。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上幕庐，一...
開封第一講書人閱讀 51,754評論 1贊 307
城市分裂傳說
那天久锥，我揣著相機與錄音，去河邊找鬼异剥。笑死瑟由，一個胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的冤寿。我是一名探鬼主播歹苦，決...
沈念sama閱讀 40,464評論 3贊 420
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼督怜！你這毒婦竟也來了殴瘦？” 一聲冷哼從身側(cè)響起，我...
開封第一講書人閱讀 39,357評論 0贊 276
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤号杠，失蹤者是張志新（化名）和其女友劉穎蚪腋，沒想到半個月后，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體姨蟋，經(jīng)...
沈念sama閱讀 45,847評論 1贊 317
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡辣吃，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 37,995評論 3贊 338
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時候發(fā)現(xiàn)自己被綠了芬探。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片神得。...
茶點故事閱讀 40,137評論 1贊 351
活死人
序言：一個原本活蹦亂跳的男人離奇死亡，死狀恐怖偷仿，靈堂內(nèi)的尸體忽然破棺而出哩簿，到底是詐尸還是另有隱情宵蕉，我是刑警寧澤，帶...
沈念sama閱讀 35,819評論 5贊 346
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布节榜，位于F島的核電站羡玛，受9級特大地震影響，放射性物質(zhì)發(fā)生泄漏宗苍。R本人自食惡果不足惜稼稿，卻給世界環(huán)境...
茶點故事閱讀 41,482評論 3贊 331
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望讳窟。院中可真熱鬧让歼，春花似錦、人聲如沸丽啡。這莊子的主人今日做“春日...
開封第一講書人閱讀 32,023評論 0贊 22
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽补箍。三九已至改执，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間坑雅，已是汗流浹背辈挂。一陣腳步聲響...
開封第一講書人閱讀 33,149評論 1贊 272
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留裹粤，地道東北人呢岗。一個月前我還...
沈念sama閱讀 48,409評論 3贊 373
代替公主和親
正文我出身青樓，卻偏偏與公主長得像蛹尝，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子悉尾，可洞房花燭夜當(dāng)晚...
茶點故事閱讀 45,086評論 2贊 355

Python爬蟲：和我一起學(xué)習(xí)scrapy（二）

最后

推薦閱讀更多精彩內(nèi)容