XPath 語法
XPath 使用路徑表達式來選取 XML 文檔中的節(jié)點或節(jié)點集端三。節(jié)點是通過沿著路徑 (path) 或者步 (steps) 來選取的。
XML 實例文檔
我們將在下面的例子中使用這個 XML 文檔蜈膨。
<?xml version="1.0" encoding="UTF-8"?>
<bookstore>
<book>
<title lang="eng">Harry Potter</title>
<price>29.99</price>
</book>
<book>
<title lang="eng">Learning XML</title>
<price>39.95</price>
</book>
</bookstore>
選取節(jié)點
XPath 使用路徑表達式在 XML 文檔中選取節(jié)點。節(jié)點是通過沿著路徑或者 step 來選取的。 下面列出了最有用的路徑表達式:
表達式 描述
nodename 選取此節(jié)點的所有子節(jié)點鸥鹉。
/ 從根節(jié)點選取窃植。
// 從匹配選擇的當(dāng)前節(jié)點選擇文檔中的節(jié)點帝蒿,而不考慮它們的位置。
. 選取當(dāng)前節(jié)點巷怜。
.. 選取當(dāng)前節(jié)點的父節(jié)點葛超。
@ 選取屬性暴氏。
在下面的表格中,我們已列出了一些路徑表達式以及表達式的結(jié)果:
路徑表達式 結(jié)果
bookstore 選取 bookstore 元素的所有子節(jié)點绣张。
/bookstore
選取根元素 bookstore答渔。
注釋:假如路徑起始于正斜杠( / ),則此路徑始終代表到某元素的絕對路徑侥涵!
bookstore/book 選取屬于 bookstore 的子元素的所有 book 元素沼撕。
//book 選取所有 book 子元素,而不管它們在文檔中的位置芜飘。
bookstore//book 選擇屬于 bookstore 元素的后代的所有 book 元素务豺,而不管它們位于 bookstore 之下的什么位置。
//@lang 選取名為 lang 的所有屬性嗦明。
謂語(Predicates)
謂語用來查找某個特定的節(jié)點或者包含某個指定的值的節(jié)點笼沥。
謂語被嵌在方括號中。
在下面的表格中娶牌,我們列出了帶有謂語的一些路徑表達式奔浅,以及表達式的結(jié)果:
路徑表達式 結(jié)果
/bookstore/book[1] 選取屬于 bookstore 子元素的第一個 book 元素。
/bookstore/book[last()] 選取屬于 bookstore 子元素的最后一個 book 元素诗良。
/bookstore/book[last()-1] 選取屬于 bookstore 子元素的倒數(shù)第二個 book 元素汹桦。
/bookstore/book[position()<3] 選取最前面的兩個屬于 bookstore 元素的子元素的 book 元素。
//title[@lang] 選取所有擁有名為 lang 的屬性的 title 元素鉴裹。
//title[@lang='eng'] 選取所有 title 元素舞骆,且這些元素擁有值為 eng 的 lang 屬性。
/bookstore/book[price>35.00] 選取 bookstore 元素的所有 book 元素径荔,且其中的 price 元素的值須大于 35.00葛作。
/bookstore/book[price>35.00]/title 選取 bookstore 元素中的 book 元素的所有 title 元素,且其中的 price 元素的值須大于 35.00猖凛。
選取未知節(jié)點
XPath 通配符可用來選取未知的 XML 元素赂蠢。
通配符 描述
匹配任何元素節(jié)點。
@* 匹配任何屬性節(jié)點辨泳。
node() 匹配任何類型的節(jié)點虱岂。
在下面的表格中,我們列出了一些路徑表達式菠红,以及這些表達式的結(jié)果:
路徑表達式 結(jié)果
/bookstore/* 選取 bookstore 元素的所有子元素第岖。
//* 選取文檔中的所有元素。
//title[@*] 選取所有帶有屬性的 title 元素试溯。
選取若干路徑
通過在路徑表達式中使用"|"運算符蔑滓,您可以選取若干個路徑。
在下面的表格中,我們列出了一些路徑表達式键袱,以及這些表達式的結(jié)果:
路徑表達式 結(jié)果
//book/title | //book/price 選取 book 元素的所有 title 和 price 元素燎窘。
//title | //price 選取文檔中的所有 title 和 price 元素。
/bookstore/book/title | //price 選取屬于 bookstore 元素的 book 元素的所有 title 元素蹄咖,以及文檔中所有的 price 元素
<re正則
單字符匹配
. 匹配除了換行符之外的任意字符
\d 匹配數(shù)據(jù)0~9 => [0-9] => [^\D]
\D 匹配非數(shù)字 =>[^\d]
\s 匹配空白字符 空格 \n \r....
\S 匹配非空白字符
\w 匹配單詞字符[a-zA-Z0-9_]
\W 匹配非單詞字符 [^\w]
[a-z]
[1-34-9]
^ 匹配開頭
$ 匹配結(jié)尾
多字符匹配
- 匹配* 前的表達式任意次數(shù)
- 匹配+ 前的表達式至少1次
褐健? 匹配?前的表達式0~1次
{n,m} 匹配{n,m} 前的表達式n~m次
{n} 匹配{n} 前的表達式n次非貪婪匹配(竟可能少的匹配)
*澜汤?
+蚜迅?
??
| 或
() 分組
r 原始字符
\ 轉(zhuǎn)義符
import 導(dǎo)入re
re.compile(): 構(gòu)建正則表達式對象
re.match(): 從字符串起始位置匹配(第一個字符開始),匹配到結(jié)果,立即返回,否則俊抵,返回None谁不,單次匹配
re.search(): 從起始位置開始在整個字符串中匹配,匹配到結(jié)果,立即返回,否則徽诲,返回None拍谐,單次匹配
re.findall(): 匹配出字符串中所有符合正則表達式的結(jié)果,將匹配結(jié)果放入list中返回
re.finditer(): 匹配出字符串中所有符合正則表達式的結(jié)果,返回的是一個可迭代對象
re.split(): 根據(jù)正則表達式馏段,分割字符串
re.sub(): 根據(jù)正則表達式,替換字符串