xpath一些經(jīng)驗記錄

常做爬蟲的人肯定是對xpath非常地熟悉了，在這么多h5元素選擇器當中根竿，我還是最喜歡xpath截碴。
下面就來記錄一些xpath當中用到的東西:

class選擇器的問題

一般來說選擇某個元素的選擇器都是這樣子的：

from lxml import etree

html = "<div id="myDiv">123</div>"
HTML = etree,HTML(html)
# select div
div = HTML.xpath("http://div[@id='myDiv']")

但是在實際使用當中憔辫，需要選擇的內(nèi)容其實不會是有id的一般都是由class或者name這樣的屬性進行選擇的。
但是一般為了控制樣式金顿，class的屬性值一般都具有很多個臊泌，但是[@id="xxx"]這樣子的選擇器只能選擇value只有一個的屬性，這樣子用上面的id選擇器就沒辦法選擇了揍拆。

這時候就需要使用contains語法了渠概，像這樣：

from lxml import etree

html = "<div class="class1 class2">123</div>"
HTML = etree,HTML(html)
# select div
div = HTML.xpath("http://div[contains(@class, 'class1')]")
# if select both classed
div = HTML.xpath("http://div[contains(@class, 'class1') and div[contains(@class, 'class1') ]")

提取文本內(nèi)容問題

提取文本內(nèi)容使用的是/text()語法大家應該都很了解了，一個簡單的例子而言：

from lxml import etree

html = "<div id="myDiv">123</div>"
HTML = etree,HTML(html)
# select div
div = HTML.xpath("http://div[@id='myDiv'/text()]")

# output :
# 123

網(wǎng)上有人說,范式可以使用string(".")來提取所有的文本嫂拴，但是我這樣試過了高氮，提示我的是語法錯誤慧妄，不知道是我寫錯了，還是已經(jīng)棄用了剪芍，但是使用/text()標簽就可以很好地提取文本了塞淹，完全滿足需要。

for循環(huán)和子元素問題

這個問題在我剛開始使用xpath的使用困擾了我好久罪裹。
在我們實際的運用當中饱普，我們肯定要針對例如像列表，表格這樣的循環(huán)的元素進行提取状共。
在python當中套耕，也就涉及到了xpath的二次調(diào)用。
但是在第二次寫xpath的時候峡继，注意不要再帶上/了

from lxml import etree

html = "<ul><li><div></div></li><li><div></div></li></ul>"
HTML = etree,HTML(html)
# select div
li = HTML.xpath("http://li]")
for l in li:
    # wrong
    li_div = l.xpath("/div")
    # right
    li_div = l.xpath("div")

其他的遇到了再繼續(xù)添加...

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末冯袍，一起剝皮案震驚了整個濱河市，隨后出現(xiàn)的幾起案子碾牌，更是在濱河造成了極大的恐慌康愤，老刑警劉巖，帶你破解...
沈念sama閱讀 216,496評論 6贊 501
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件舶吗，死亡現(xiàn)場離奇詭異征冷，居然都是意外死亡，警方通過查閱死者的電腦和手機誓琼，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 92,407評論 3贊 392
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門检激，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人腹侣，你說我怎么就攤上這事叔收。” “怎么了傲隶？”我有些...
開封第一講書人閱讀 162,632評論 0贊 353
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵今穿，是天一觀的道長。經(jīng)常有香客問我伦籍，道長，這世上最難降的妖魔是什么腮出？我笑而不...
開封第一講書人閱讀 58,180評論 1贊 292
?港島之戀（遺憾婚禮）
正文為了忘掉前任帖鸦，我火速辦了婚禮，結(jié)果婚禮上胚嘲，老公的妹妹穿的比我還像新娘作儿。我一直安慰自己，他們只是感情好馋劈，可當我...
茶點故事閱讀 67,198評論 6贊 388
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布攻锰。她就那樣靜靜地躺著晾嘶，像睡著了一般。火紅的嫁衣襯著肌膚如雪娶吞。梳的紋絲不亂的頭發(fā)上垒迂，一...
開封第一講書人閱讀 51,165評論 1贊 299
城市分裂傳說
那天，我揣著相機與錄音妒蛇，去河邊找鬼机断。笑死，一個胖子當著我的面吹牛绣夺，可吹牛的內(nèi)容都是我干的吏奸。我是一名探鬼主播，決...
沈念sama閱讀 40,052評論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼陶耍，長吁一口氣：“原來是場噩夢啊……” “哼奋蔚！你這毒婦竟也來了？” 一聲冷哼從身側(cè)響起烈钞，我...
開封第一講書人閱讀 38,910評論 0贊 274
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤泊碑，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后棵磷，有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體蛾狗，經(jīng)...
沈念sama閱讀 45,324評論 1贊 310
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 37,542評論 2贊 332
?白月光啟示錄
正文我和宋清朗相戀三年仪媒，在試婚紗的時候發(fā)現(xiàn)自己被綠了沉桌。大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點故事閱讀 39,711評論 1贊 348
活死人
序言：一個原本活蹦亂跳的男人離奇死亡算吩，死狀恐怖留凭，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情偎巢，我是刑警寧澤蔼夜，帶...
沈念sama閱讀 35,424評論 5贊 343
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站压昼，受9級特大地震影響求冷，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜窍霞，卻給世界環(huán)境...
茶點故事閱讀 41,017評論 3贊 326
男人毒藥：我在死后第九天來索命
文/蒙蒙一匠题、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧但金，春花似錦韭山、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,668評論 0贊 22
一樁弒父案钱磅，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽梦裂。三九已至，卻和暖如春盖淡，著一層夾襖步出監(jiān)牢的瞬間年柠，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 32,823評論 1贊 269
情欲美人皮
我被黑心中介騙來泰國打工禁舷，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留彪杉，地道東北人。一個月前我還...
沈念sama閱讀 47,722評論 2贊 368
代替公主和親
正文我出身青樓牵咙，卻偏偏與公主長得像派近，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子洁桌，可洞房花燭夜當晚...
茶點故事閱讀 44,611評論 2贊 353

xpath一些經(jīng)驗記錄

class選擇器的問題

提取文本內(nèi)容問題

for循環(huán)和子元素問題

推薦閱讀更多精彩內(nèi)容