Python應(yīng)用現(xiàn)在如火如荼,應(yīng)用范圍很廣玉罐。因其效率高開發(fā)迅速的優(yōu)勢屈嗤,快速進(jìn)入編程語言排行榜前幾名。本系列文章致力于可以全面系統(tǒng)的介紹Python語言開發(fā)知識和相關(guān)知識總結(jié)吊输。希望大家能夠快速入門并學(xué)習(xí)Python這門語言饶号。
本文是在前一部分Python基礎(chǔ)之上Python實(shí)戰(zhàn):Python爬蟲學(xué)習(xí)教程,獲取電影排行榜季蚂,再次升級的Python網(wǎng)頁爬蟲實(shí)戰(zhàn)課程茫船。
1.項(xiàng)目概述。
利用XPath和requests模塊進(jìn)行網(wǎng)頁抓取與分析扭屁,達(dá)到網(wǎng)頁圖片下載的效果算谈。
抓爬圖片地址:http://www.2cto.com/meinv/
開發(fā)環(huán)境:python 2.7、PyCharm 5 Community
所需知識:神器XPath料滥、Requests模塊然眼、Python基本語法。
2.所需模塊介紹及安裝
Xpath
介紹:XPath其實(shí)是一門可以在XML中通過元素的屬性進(jìn)行查找提取信息的一門語言葵腹。它支持HTML高每。
與正則表達(dá)式相比,更簡單践宴。更強(qiáng)大
安裝:下載lxml庫進(jìn)行安裝操作鲸匿。下載地址:http://www.lfd.uci.edu/~gohlke/pythonlibs/#lxml。下載對應(yīng)版本的lxml
打開庫目錄運(yùn)行命令進(jìn)行安裝
下載完成之后阻肩,請把后綴名whl改為zip带欢。
解壓文件把lxml文件夾放入python安裝目錄的lib文件夾下。
Requests模塊安裝
具體詳細(xì)安裝步驟請參閱:Python實(shí)戰(zhàn):Python爬蟲學(xué)習(xí)教程,獲取電影排行榜中requests的安裝洪囤。
3.Xpath提取查找內(nèi)容詳解:
是語言都不例外徒坡,Xpath也有一定語法。
// 定位根節(jié)點(diǎn)
/ 往下層尋找
/text() 提取文本內(nèi)容
/@xxx 提取屬性內(nèi)容
4.項(xiàng)目主體代碼
from lxml import etree
selector = etree.HTML(網(wǎng)頁源代碼)
selector.xpath(xpath語法)
import requests
requests.get(url)
5.代碼演示:
效果展示:
小技巧:xpath簡單獲攘鏊酢:開發(fā)人員工具-定位要提取的標(biāo)簽-右鍵如圖所示可以復(fù)制xpath路徑喇完。
但尚需修改哦。
歡迎關(guān)注今日頭條:做全棧攻城獅剥啤。Python實(shí)戰(zhàn):美女圖片下載器锦溪,海量圖片任你下載。
QQ技術(shù)交流群: 538742639
項(xiàng)目源碼請關(guān)注微信公眾平臺:fullstackcourse 做全棧攻城獅府怯】陶铮回復(fù):”美女圖片下載器”獲取。