XPath語法和lxml模塊

XPath語法和lxml模塊

什么是XPath?

xpath(XML Path Language)是一門在XML和HTML文檔中查找信息的語言滑负,可用來在XML和HTML文檔中對元素和屬性進行遍歷。

XPath開發(fā)工具

  1. Chrome插件XPath Helper娃善。
  2. Firefox插件Try XPath憔涉。

XPath語法

選取節(jié)點:

XPath 使用路徑表達式來選取 XML 文檔中的節(jié)點或者節(jié)點集。這些路徑表達式和我們在常規(guī)的電腦文件系統(tǒng)中看到的表達式非常相似链嘀。

表達式 描述 示例 結(jié)果
nodename 選取此節(jié)點的所有子節(jié)點 bookstore 選取bookstore下所有的子節(jié)點
/ 如果是在最前面,代表從根節(jié)點選取档玻。否則選擇某節(jié)點下的某個節(jié)點 /bookstore 選取根元素下所有的bookstore節(jié)點
// 從全局節(jié)點中選擇節(jié)點怀泊,隨便在哪個位置 //book 從全局節(jié)點中找到所有的book節(jié)點
@ 選取某個節(jié)點的屬性 //book[@price] 選擇所有擁有price屬性的book節(jié)點
. 當前節(jié)點 ./a 選取當前節(jié)點下的a標簽

謂語:

謂語用來查找某個特定的節(jié)點或者包含某個指定的值的節(jié)點,被嵌在方括號中误趴。
在下面的表格中霹琼,我們列出了帶有謂語的一些路徑表達式,以及表達式的結(jié)果:

路徑表達式 描述
/bookstore/book[1] 選取bookstore下的第一個子元素
/bookstore/book[last()] 選取bookstore下的倒數(shù)第二個book元素凉当。
bookstore/book[position()<3] 選取bookstore下前面兩個子元素枣申。
//book[@price] 選取擁有price屬性的book元素
//book[@price=10] 選取所有屬性price等于10的book元素

通配符

*表示通配符。

通配符 描述 示例 結(jié)果
* 匹配任意節(jié)點 /bookstore/* 選取bookstore下的所有子元素看杭。
@* 匹配節(jié)點中的任何屬性 //book[@*] 選取所有帶有屬性的book元素忠藤。

選取多個路徑:

通過在路徑表達式中使用“|”運算符流码,可以選取若干個路徑类溢。
示例如下:

//bookstore/book | //book/title
# 選取所有book元素以及book元素下所有的title元素

lxml庫

lxml 是 一個HTML/XML的解析器,主要的功能是如何解析和提取 HTML/XML 數(shù)據(jù)简肴。

lxml和正則一樣贮缅,也是用 C 實現(xiàn)的榨咐,是一款高性能的 Python HTML/XML 解析器,我們可以利用之前學習的XPath語法谴供,來快速的定位特定元素以及節(jié)點信息祭芦。

lxml python 官方文檔:http://lxml.de/index.html

需要安裝C語言庫,可使用 pip 安裝:pip install lxml

基本使用:

我們可以利用他來解析HTML代碼憔鬼,并且在解析HTML代碼的時候,如果HTML代碼不規(guī)范胃夏,他會自動的進行補全轴或。示例代碼如下:

# 使用 lxml 的 etree 庫
from lxml import etree 

text = '''
<div>
    <ul>
         <li class="item-0"><a href="link1.html">first item</a></li>
         <li class="item-1"><a href="link2.html">second item</a></li>
         <li class="item-inactive"><a href="link3.html">third item</a></li>
         <li class="item-1"><a href="link4.html">fourth item</a></li>
         <li class="item-0"><a href="link5.html">fifth item</a> # 注意,此處缺少一個 </li> 閉合標簽
     </ul>
 </div>
'''

#利用etree.HTML仰禀,將字符串解析為HTML文檔
html = etree.HTML(text) 

# 按字符串序列化HTML文檔
result = etree.tostring(html) 

print(result)

輸入結(jié)果如下:

<html><body>
<div>
    <ul>
         <li class="item-0"><a href="link1.html">first item</a></li>
         <li class="item-1"><a href="link2.html">second item</a></li>
         <li class="item-inactive"><a href="link3.html">third item</a></li>
         <li class="item-1"><a href="link4.html">fourth item</a></li>
         <li class="item-0"><a href="link5.html">fifth item</a></li>
</ul>
 </div>
</body></html>

可以看到照雁。lxml會自動修改HTML代碼。例子中不僅補全了li標簽,還添加了body饺蚊,html標簽萍诱。

從文件中讀取html代碼:

除了直接使用字符串進行解析,lxml還支持從文件中讀取內(nèi)容污呼。我們新建一個hello.html文件:

<!-- hello.html -->
<div>
    <ul>
         <li class="item-0"><a href="link1.html">first item</a></li>
         <li class="item-1"><a href="link2.html">second item</a></li>
         <li class="item-inactive"><a href="link3.html"><span class="bold">third item</span></a></li>
         <li class="item-1"><a href="link4.html">fourth item</a></li>
         <li class="item-0"><a href="link5.html">fifth item</a></li>
     </ul>
 </div>

然后利用etree.parse()方法來讀取文件裕坊。示例代碼如下:

from lxml import etree

# 讀取外部文件 hello.html
html = etree.parse('hello.html')
result = etree.tostring(html, pretty_print=True)

print(result)

輸入結(jié)果和之前是相同的。

在lxml中使用XPath語法:

  1. 獲取所有l(wèi)i標簽:

     from lxml import etree
    
     html = etree.parse('hello.html')
     print type(html)  # 顯示etree.parse() 返回類型
    
     result = html.xpath('//li')
    
     print(result)  # 打印<li>標簽的元素集合
    
    
  2. 獲取所有l(wèi)i元素下的所有class屬性的值:

     from lxml import etree
    
     html = etree.parse('hello.html')
     result = html.xpath('//li/@class')
    
     print(result)
    
    
  3. 獲取li標簽下href為www.baidu.com的a標簽:

     from lxml import etree
    
     html = etree.parse('hello.html')
     result = html.xpath('//li/a[@href="www.baidu.com"]')
    
     print(result)
    
    
  4. 獲取li標簽下所有span標簽:

     from lxml import etree
    
     html = etree.parse('hello.html')
    
     #result = html.xpath('//li/span')
     #注意這么寫是不對的:
     #因為 / 是用來獲取子元素的燕酷,而 <span> 并不是 <li> 的子元素籍凝,所以,要用雙斜杠
    
     result = html.xpath('//li//span')
    
     print(result)
    
    
  5. 獲取li標簽下的a標簽里的所有class:

     from lxml import etree
    
     html = etree.parse('hello.html')
     result = html.xpath('//li/a//@class')
    
     print(result)
    
    
  6. 獲取最后一個li的a的href屬性對應的值:

     from lxml import etree
    
     html = etree.parse('hello.html')
    
     result = html.xpath('//li[last()]/a/@href')
     # 謂語 [last()] 可以找到最后一個元素
    
     print(result)
    
    
  7. 獲取倒數(shù)第二個li元素的內(nèi)容:

     from lxml import etree
    
     html = etree.parse('hello.html')
     result = html.xpath('//li[last()-1]/a')
    
     # text 方法可以獲取元素內(nèi)容
     print(result[0].text)
    
    
  8. 獲取倒數(shù)第二個li元素的內(nèi)容的第二種方式:

     from lxml import etree
    
     html = etree.parse('hello.html')
     result = html.xpath('//li[last()-1]/a/text()')
    
     print(result)
    
    

使用requests和xpath爬取電影天堂

示例代碼如下:

import requests
from lxml import etree

BASE_DOMAIN = 'http://www.dytt8.net'
HEADERS = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/61.0.3163.100 Safari/537.36',
    'Referer': 'http://www.dytt8.net/html/gndy/dyzz/list_23_2.html'
}

def spider():
    url = 'http://www.dytt8.net/html/gndy/dyzz/list_23_1.html'
    resp = requests.get(url,headers=HEADERS)
    # resp.content:經(jīng)過編碼后的字符串
    # resp.text:沒有經(jīng)過編碼苗缩,也就是unicode字符串
    # text:相當于是網(wǎng)頁中的源代碼了
    text = resp.content.decode('gbk')
    # tree:經(jīng)過lxml解析后的一個對象饵蒂,以后使用這個對象的xpath方法,就可以
    # 提取一些想要的數(shù)據(jù)了
    tree = etree.HTML(text)
    # xpath/beautifulsou4
    all_a = tree.xpath("http://div[@class='co_content8']//a")
    for a in all_a:
        title = a.xpath("text()")[0]
        href = a.xpath("@href")[0]
        if href.startswith('/'):
            detail_url = BASE_DOMAIN + href
            crawl_detail(detail_url)
            break

def crawl_detail(url):
    resp = requests.get(url,headers=HEADERS)
    text = resp.content.decode('gbk')
    tree = etree.HTML(text)
    create_time = tree.xpath("http://div[@class='co_content8']/ul/text()")[0].strip()
    imgs = tree.xpath("http://div[@id='Zoom']//img/@src")
    # 電影海報
    cover = imgs[0]
    # 電影截圖
    screenshoot = imgs[1]
    # 獲取span標簽下所有的文本
    infos = tree.xpath("http://div[@id='Zoom']//text()")
    for index,info in enumerate(infos):
        if info.startswith("◎年  代"):
            year = info.replace("◎年  代","").strip()

        if info.startswith("◎豆瓣評分"):
            douban_rating = info.replace("◎豆瓣評分",'').strip()
            print(douban_rating)

        if info.startswith("◎主  演"):
            # 從當前位置酱讶,一直往下面遍歷
            actors = [info]
            for x in range(index+1,len(infos)):
                actor = infos[x]
                if actor.startswith("◎"):
                    break
                actors.append(actor.strip())
            print(",".join(actors))


if __name__ == '__main__':
    spider()
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末退盯,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子泻肯,更是在濱河造成了極大的恐慌渊迁,老刑警劉巖,帶你破解...
    沈念sama閱讀 207,248評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件软免,死亡現(xiàn)場離奇詭異宫纬,居然都是意外死亡,警方通過查閱死者的電腦和手機膏萧,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,681評論 2 381
  • 文/潘曉璐 我一進店門漓骚,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人榛泛,你說我怎么就攤上這事蝌蹂。” “怎么了曹锨?”我有些...
    開封第一講書人閱讀 153,443評論 0 344
  • 文/不壞的土叔 我叫張陵孤个,是天一觀的道長。 經(jīng)常有香客問我沛简,道長齐鲤,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 55,475評論 1 279
  • 正文 為了忘掉前任椒楣,我火速辦了婚禮给郊,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘捧灰。我一直安慰自己淆九,他們只是感情好,可當我...
    茶點故事閱讀 64,458評論 5 374
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著炭庙,像睡著了一般饲窿。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上焕蹄,一...
    開封第一講書人閱讀 49,185評論 1 284
  • 那天逾雄,我揣著相機與錄音,去河邊找鬼擦盾。 笑死嘲驾,一個胖子當著我的面吹牛,可吹牛的內(nèi)容都是我干的迹卢。 我是一名探鬼主播辽故,決...
    沈念sama閱讀 38,451評論 3 401
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼腐碱!你這毒婦竟也來了誊垢?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 37,112評論 0 261
  • 序言:老撾萬榮一對情侶失蹤症见,失蹤者是張志新(化名)和其女友劉穎喂走,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體谋作,經(jīng)...
    沈念sama閱讀 43,609評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡芋肠,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,083評論 2 325
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了遵蚜。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片帖池。...
    茶點故事閱讀 38,163評論 1 334
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖吭净,靈堂內(nèi)的尸體忽然破棺而出睡汹,到底是詐尸還是另有隱情,我是刑警寧澤寂殉,帶...
    沈念sama閱讀 33,803評論 4 323
  • 正文 年R本政府宣布囚巴,位于F島的核電站,受9級特大地震影響友扰,放射性物質(zhì)發(fā)生泄漏彤叉。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 39,357評論 3 307
  • 文/蒙蒙 一村怪、第九天 我趴在偏房一處隱蔽的房頂上張望姆坚。 院中可真熱鬧,春花似錦实愚、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,357評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽击喂。三九已至,卻和暖如春碰辅,著一層夾襖步出監(jiān)牢的瞬間懂昂,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,590評論 1 261
  • 我被黑心中介騙來泰國打工没宾, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留凌彬,地道東北人。 一個月前我還...
    沈念sama閱讀 45,636評論 2 355
  • 正文 我出身青樓循衰,卻偏偏與公主長得像铲敛,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子会钝,可洞房花燭夜當晚...
    茶點故事閱讀 42,925評論 2 344

推薦閱讀更多精彩內(nèi)容

  • ···lxml用法源自 lxml python 官方文檔伐蒋,更多內(nèi)容請直接參閱官方文檔,本文對其進行翻譯與整理迁酸。lx...
    小豐豐_72a2閱讀 943評論 0 1
  • 一先鱼、簡介 XPath 是一門在 XML 文檔中查找信息的語言。XPath 可用來在 XML 文檔中對元素和屬性進行...
    朝畫夕拾閱讀 569評論 0 1
  • 生活中總面臨著無數(shù)的選擇奸鬓,我經(jīng)常問自己:我喜歡我現(xiàn)在的狀態(tài)嗎焙畔?但總有兩種回答:喜歡;因為這里讓我永遠緊張串远,讓我不能...
    巫娜萌主閱讀 153評論 0 0
  • 大家好宏多,我是雨落偏安。新的一年抑淫,祝大家步步高升绷落,愿想事成。 已經(jīng)有好長一段時間沒有在簡書上發(fā)文章了始苇。前段時間一直都...
    雨落偏安閱讀 277評論 1 0
  • 一口茶砌烁,微呷入口,細細品味催式,苦中一縷清香函喉,苦中一絲甘甜,輕輕地滑落喉間荣月,苦盡甘來管呵,細細品味。 品茶哺窄,像...
    雪戀寒冰閱讀 225評論 0 4