Xpath的使用
from: Mp
ps:此文為自我學(xué)習(xí)總結(jié)的一些常用的,熟知的東西馒过,復(fù)雜操作建議看官方文檔
xpath概念
XPath (XML Path Language) 是一門在 XML 文檔中查找信息的語言植袍,可用來在 XML 文檔中對元素和屬性進(jìn)行遍歷稿黍。
Xpath文檔
使用
一些常用的語法
/ 從根節(jié)點(diǎn)選取
// 從匹配選擇的當(dāng)前節(jié)點(diǎn)選擇文檔中的節(jié)點(diǎn)镣衡,而不考慮它們的位置
. 選取當(dāng)前節(jié)點(diǎn)
.. 選取當(dāng)前節(jié)點(diǎn)的父節(jié)點(diǎn)
@ 選取屬性
| 左右側(cè)表達(dá)式都成立
[] 在括號內(nèi)寫 @屬性,數(shù)字,last(), 判斷語句,是查找包含某個指定的值的節(jié)點(diǎn)
node() 匹配任何類型的節(jié)點(diǎn)嗤放。
在python中使用
安裝lxml
pip install lxml
使用lxml的etree思喊,可以將字符串解析成HTML文檔
lxml 可以自動修正 html 代碼
# 使用lxml的etree庫
from lxml import etree
# 利用etree.HTML,將字符串解析為HTML文檔
html = etree.HTML(text)
# 按字符串序列化HTML文檔
result = etree.tostring(html)
組合使用
# 在獲取response之后
html = response.content
html_obj = etree.HTML(html)
result = html_obj.xpath("http://a[@class='j_th_tit ']/@href") # 查找語句