當(dāng)我們在網(wǎng)頁中爬取數(shù)據(jù)中,如果我們需要從網(wǎng)頁的HTML標(biāo)簽中獲取數(shù)據(jù)時(shí),使用正則表達(dá)式進(jìn)行匹配會(huì)比較繁瑣,因此引入 xpath
個(gè)概念
簡介
XPath 是一門在 XML 文檔中查找信息的語言。XPath 可用來在 XML 文檔中對元素和屬性進(jìn)行遍歷趟卸。
在程序中使用xpath時(shí)需要lxm包的支持:
pip install lxml
# 程序中導(dǎo)入
from lxml import etree
XPATH 術(shù)語介紹
節(jié)點(diǎn)(Node)
請看下面這個(gè) XML 文檔:
<bookstore>
<book>
<title lang="en">Harry Potter</title>
<author>J K. Rowling</author>
<year>2005</year>
<price>29.99</price>
</book>
</bookstore>
上面的XML文檔中的節(jié)點(diǎn)例子:
<bookstore> (文檔節(jié)點(diǎn))
<author>J K. Rowling</author> (元素節(jié)點(diǎn))
lang="en" (屬性節(jié)點(diǎn))
基本值的例子:
J K. Rowling
"en"
節(jié)點(diǎn)之間的關(guān)系
父(Parent)
每個(gè)元素以及屬性都有一個(gè)父
在下面的例子中赠幕,book 元素是 title、author、year 以及 price 元素的父:
<book>
<title>Harry Potter</title>
<author>J K. Rowling</author>
<year>2005</year>
<price>29.99</price>
</book>
子(Children)
元素節(jié)點(diǎn)可有零個(gè)焦履、一個(gè)或多個(gè)子岛琼。
在下面的例子中,title仿滔、author惠毁、year 以及 price 元素都是 book 元素的子:
<book>
<title>Harry Potter</title>
<author>J K. Rowling</author>
<year>2005</year>
<price>29.99</price>
</book>
先輩(Ancestor)
某節(jié)點(diǎn)的父、父的父崎页,等等鞠绰。
在下面的例子中,title 元素的先輩是 book 元素和 bookstore 元素:
<bookstore>
<book>
<title>Harry Potter</title>
<author>J K. Rowling</author>
<year>2005</year>
<price>29.99</price>
</book>
</bookstore>
后代(Descendant)
某個(gè)節(jié)點(diǎn)的子飒焦,子的子蜈膨,等等。
在下面的例子中,bookstore 的后代是 book翁巍、title驴一、author、year 以及 price 元素:
<bookstore>
<book>
<title>Harry Potter</title>
<author>J K. Rowling</author>
<year>2005</year>
<price>29.99</price>
</book>
</bookstore>
選取節(jié)點(diǎn)
<?xml version="1.0" encoding="ISO-8859-1"?>
<bookstore>
<book>
<title lang="eng">Harry Potter</title>
<price>29.99</price>
</book>
<book>
<title lang="eng">Learning XML</title>
<price>39.95</price>
</book>
</bookstore>
表達(dá)式 | 描述 |
---|---|
nodename | 選取此節(jié)點(diǎn)的所有子節(jié)點(diǎn)曙咽。 |
/ | 從根節(jié)點(diǎn)選取蛔趴。 |
// | 從匹配選擇的當(dāng)前節(jié)點(diǎn)選擇文檔中的節(jié)點(diǎn),而不考慮它們的位置例朱。 |
. | 選取當(dāng)前節(jié)點(diǎn)孝情。 |
.. | 選取當(dāng)前節(jié)點(diǎn)的父節(jié)點(diǎn)。 |
@ | 選取屬性洒嗤。 |
實(shí)例
在下面的表格中箫荡,我們已列出了一些路徑表達(dá)式以及表達(dá)式的結(jié)果:
路徑表達(dá)式 | 結(jié)果 |
---|---|
bookstore | 選取 bookstore 元素的所有子節(jié)點(diǎn)。 |
/bookstore | 選取根元素 bookstore渔隶。 注釋:假如路徑起始于正斜杠( / )羔挡,則此路徑始終代表到某元素的絕對路徑! |
bookstore/book | 選取屬于 bookstore 的子元素的所有 book 元素间唉。 |
//book | 選取所有 book 子元素绞灼,而不管它們在文檔中的位置。 |
bookstore//book | 選擇屬于 bookstore 元素的后代的所有 book 元素呈野,而不管它們位于 bookstore 之下的什么位置低矮。 |
//@lang | 選取名為 lang 的所有屬性。 |
謂語(Predicates)
謂語用來查找某個(gè)特定的節(jié)點(diǎn)或者包含某個(gè)指定的值的節(jié)點(diǎn)被冒。
謂語被嵌在方括號(hào)中军掂。
實(shí)例
在下面的表格中,我們列出了帶有謂語的一些路徑表達(dá)式昨悼,以及表達(dá)式的結(jié)果:
路徑表達(dá)式 | 結(jié)果 |
---|---|
/bookstore/book[1] | 選取屬于 bookstore 子元素的第一個(gè) book 元素蝗锥。 |
/bookstore/book[last()] | 選取屬于 bookstore 子元素的最后一個(gè) book 元素。 |
/bookstore/book[last()-1] | 選取屬于 bookstore 子元素的倒數(shù)第二個(gè) book 元素率触。 |
/bookstore/book[position()<3] | 選取最前面的兩個(gè)屬于 bookstore 元素的子元素的 book 元素终议。 |
//title[@lang] | 選取所有擁有名為 lang 的屬性的 title 元素。 |
//title[@lang='eng'] | 選取所有 title 元素葱蝗,且這些元素?fù)碛兄禐?eng 的 lang 屬性痊剖。 |
/bookstore/book[price>35.00] | 選取 bookstore 元素的所有 book 元素,且其中的 price 元素的值須大于 35.00垒玲。 |
/bookstore/book[price>35.00]/title | 選取 bookstore 元素中的 book 元素的所有 title 元素,且其中的 price 元素的值須大于 35.00找颓。 |