Xpath選擇器
nodeName 選取此節(jié)點的所有節(jié)點
/ 從根節(jié)點選取
// 從匹配選擇的當(dāng)前節(jié)點選擇文檔中的節(jié)點谋梭,不考慮它們的位置
. 選擇當(dāng)前節(jié)點
.. 選取當(dāng)前節(jié)點的父節(jié)點
@ 選取屬性
* 匹配任何元素節(jié)點
@* 匹配任何屬性節(jié)點
Node() 匹配任何類型的節(jié)點
例
response.xpath('//a[@href="link4.html"]/..*/@class')#獲取herf為link4.html的a標(biāo)簽的父標(biāo)簽的class值
response.xpath('//a[@href="link4.html"]/..*/text()')#獲取herf為link4.html的a標(biāo)簽的父標(biāo)簽中的文本
參考:http://www.scrapyd.cn/doc/186.html
CSS選擇器
.class .color 選擇class=”color”的所有元素
#id #info 選擇id=”info”的所有元素
* * 選擇所有元素
element p 選擇所有的p元素
element,element div,p 選擇所有div元素和所有p元素
element element div p 選擇div標(biāo)簽內(nèi)部的所有p元素
[attribute] [target] 選擇帶有targe屬性的所有元素
[arrtibute=value] [target=_blank] 選擇target=”_blank”的所有元素
例
response.css('ul.td-category a::attr(href)')#獲取class為td-category的ul標(biāo)簽下的a標(biāo)簽的href屬性
response.css('ul.td-category a::text')#獲取class為td-category的ul標(biāo)簽下的a標(biāo)簽的的文本
參考:http://www.scrapyd.cn/doc/185.html
爬坑
- 忽略子標(biāo)簽谴忧,提取標(biāo)簽下的所有文本信息
HTML結(jié)構(gòu)
<p id="test3">ssssssssssss
<strong>dddddd</strong>
ssssssssssssssssssssss
<strong>ccccc</strong>
</p>
提取方法:結(jié)果返回一個四個元素的list
content_list= response.css("p").xpath('string(.)').extract()