一、正則表達(dá)式
^:以什么開始
.:任意字符
*:前面字符匹配任意多次
$:結(jié)尾字符必須是$符號(hào)之前的字符
?:非貪婪匹配模式
+:出現(xiàn)至少一次
{2}:限定前面字符出現(xiàn)的次數(shù)
{2,}:以上
{2,3}:之間
|:或關(guān)系
[abc]:滿足任意一個(gè)就可以
[a-z::區(qū)間中任意一個(gè)
[^1]:取反
\s:空格字符
\S:費(fèi)空格字符
\w:a-zA-Z0-9_
\W:
[\u4E00-\u9FA5]:漢字
\d:數(shù)字
二杨赤、xpath語(yǔ)法
xapth使用路徑表達(dá)式在xml和html中進(jìn)行導(dǎo)航
xpath包含標(biāo)準(zhǔn)函數(shù)庫(kù)
xpath是一個(gè)w3cb標(biāo)準(zhǔn)
1、父節(jié)點(diǎn)
2丹墨、子節(jié)點(diǎn)
3、兄弟節(jié)點(diǎn)
4无拗、先輩節(jié)點(diǎn)
5带到、后代節(jié)點(diǎn)
article: 獲取article元素的所有子節(jié)點(diǎn)
/article: 獲取根元素article
article/a: 獲取article下的子元素的a元素
//div: 獲取所有div元素
article//div: 獲取屬于article元素的后代div元素
//@class: 獲取所有名為class的屬性
/article/div[1]: 獲取article子元素的第一個(gè)div
/article/div[last()]: 獲取article子元素的最后一個(gè)div
/article/div[last()-1]: 獲取article子元素的倒數(shù)第二個(gè)div
//div[@class]: 獲取所有有class屬性的div
//div[@class='test’]: 獲取所有class屬性為test的div
//div/: 獲取div下的子元素
//: 獲取所有元素
//div[@*]: 獲取所有帶屬性的div值
//div/a | //div/p: 獲取所有div元素下的a元素和p元素
//span | //ul: 獲取所有的span元素和ul元素
article/div/p | //span:獲取屬于article元素的div元素的p元素和所有的span元素