xpath的使用
1.安裝:
pip install lxml
2.引用:
from lxml import etree
創(chuàng)建etree對象進行指定數據解析
1.本地
etree = etree.parse(‘本地路徑’)
etree.xpath(‘xpath表達式’)
2.網絡
etree = etree.HTML(‘網絡請求到頁面的數據’)
etree.xpath(‘xpath表達式’)
常用的xpath表達式:
屬性定位:
找到class屬性值為song的div標簽
div[@class=‘song’]
層級索引定位
找到class屬性值為tang的div的直系子標簽ul下的第二個子標簽li下的直系子標簽a
div[@class=‘tang’]/ul/li[2]/a
邏輯運算
找到href屬性值為空且class屬性值為du的a標簽
a[@href=’’ and @class=‘du’]
模糊匹配
- /表示獲取某個標簽下的文本內容 //div[@class=‘song’]/p[1]/text()
- //表示獲取某個標簽下的文本內容和所有子標簽下的文本內容 //div[@class=‘tang’]//text()
取屬性
- //div[@class=‘tang’]//li[2]/a/@href