XPath 語法
- XPath 使用路徑表達(dá)式來選取 XML 文檔中的節(jié)點或節(jié)點集。節(jié)點是通過沿著路徑 (path) 或者步 (steps) 來選取的。
選取節(jié)點
- XPath 使用路徑表達(dá)式在 XML 文檔中選取節(jié)點。節(jié)點是通過沿著路徑或者 step 來選 取的坚冀。 下面列出了最有用的路徑表達(dá)式:
表達(dá)式 描述
nodename 選取此節(jié)點的所有子節(jié)點。
/ 從根節(jié)點選取。
// 從匹配選擇的當(dāng)前節(jié)點選擇文檔中的節(jié)點扰法,而不考慮它們的位置。
. 選取當(dāng)前節(jié)點毅厚。
.. 選取當(dāng)前節(jié)點的父節(jié)點迹恐。
@ 選取屬性。
bookstore 選取 bookstore 元素的所有子節(jié)點卧斟。
/bookstore
選取根元素 bookstore殴边。
注釋:假如路徑起始于正斜杠( / ),則此路徑始終代表到某元素的絕對路徑珍语!
bookstore/book 選取屬于 bookstore 的子元素的所有 book 元素锤岸。
//book 選取所有 book 子元素,而不管它們在文檔中的位置板乙。
bookstore//book 選擇屬于 bookstore 元素的后代的所有 book 元素是偷,而不管它們位于 bookstore 之下的什么位置。
路徑表達(dá)式 (結(jié)果)
/bookstore/book[1] 選取屬于 bookstore 子元素的第一個 book 元素募逞。
/bookstore/book[last()] 選取屬于 bookstore 子元素的最后一個 book 元素蛋铆。
/bookstore/book[last()-1] 選取屬于 bookstore 子元素的倒數(shù)第二個 book 元素。
/bookstore/book[position()<3] 選取最前面的兩個屬于 bookstore 元素的子元素的 book 元素放接。
//title[@lang] 選取所有擁有名為 lang 的屬性的 title 元素刺啦。
//title[@lang='eng'] 選取所有 title 元素,且這些元素?fù)碛兄禐?eng 的 lang 屬性纠脾。
/bookstore/book[price>35.00] 選取 bookstore 元素的所有 book 元素玛瘸,且其中的 price 元素的值須大于 35.00。
/bookstore/book[price>35.00]/title 選取 bookstore 元素中的 book 元素的所有 title 元素苟蹈,且其中的 price 元素的值須大于 35.00糊渊。
選取未知節(jié)點
XPath 通配符可用來選取未知的 XML 元素。
通配符 描述
匹配任何元素節(jié)點慧脱。
@* 匹配任何屬性節(jié)點渺绒。
node() 匹配任何類型的節(jié)點。
在下面的表格中菱鸥,我們列出了一些路徑表達(dá)式宗兼,以及這些表達(dá)式的結(jié)果:
路徑表達(dá)式 結(jié)果
/bookstore/* 選取 bookstore 元素的所有子元素。
//* 選取文檔中的所有元素采缚。
//title[@*] 選取所有帶有屬性的 title 元素针炉。
選取若干路徑
- 通過在路徑表達(dá)式中使用"|"運(yùn)算符,您可以選取若干個路徑扳抽。
在下面的表格中篡帕,我們列出了一些路徑表達(dá)式,以及這些表達(dá)式的結(jié)果:
路徑表達(dá)式 結(jié)果
//book/title | //book/price 選取 book 元素的所有 title 和 price 元素贸呢。
//title | //price 選取文檔中的所有 title 和 price 元素镰烧。
/bookstore/book/title | //price 選取屬于 bookstore 元素的 book 元素的所有 title 元 素,以及文檔中所有的 price 元素
re正則
- 單字符匹配
匹配除了換行符之外的任意字符
\d 匹配數(shù)據(jù)0~9 => [0-9] => [^\D]
\D 匹配非數(shù)字 =>[^\d]
\s 匹配空白字符 空格 \n \r....
\S 匹配非空白字符
\w 匹配單詞字符[a-zA-Z0-9_]
\W 匹配非單詞字符 [^\w]
[a-z]
[1-34-9]
^ 匹配開頭
$ 匹配結(jié)尾
- 多字符匹配
*匹配 * 前的表達(dá)式任意次數(shù)
+匹配+ 前的表達(dá)式至少1次
楞陷? 匹配怔鳖?前的表達(dá)式0~1次
{n,m} 匹配{n,m} 前的表達(dá)式n~m次
{n} 匹配{n} 前的表達(dá)式n次
- 非貪婪匹配(竟可能少的匹配)
*?
+固蛾?
??
| 或
() 分組
r 原始字符
\ 轉(zhuǎn)義符
import 導(dǎo)入re
re.compile(): 構(gòu)建正則表達(dá)式對象
re.match(): 從字符串起始位置匹配(第一個字符開始),匹配到結(jié)果结执,立即返回,否 則度陆,返回None,單次匹配
re.search(): 從起始位置開始在整個字符串中匹配,匹配到結(jié)果献幔,立即返回,否則懂傀,返回 None,單次匹配
re.findall(): 匹配出字符串中所有符合正則表達(dá)式的結(jié)果蜡感,將匹配結(jié)果放入list中返回
re.finditer(): 匹配出字符串中所有符合正則表達(dá)式的結(jié)果,返回的是一個可迭代對象
re.split(): 根據(jù)正則表達(dá)式蹬蚁,分割字符串
re.sub(): 根據(jù)正則表達(dá)式,替換字符