【Python爬蟲】 lxml以及xpath練習(xí)

一俯艰、lxml模塊介紹及安裝渤愁,Xpath語言了解
1. lxml模塊是python爬蟲中的一個(gè)解析器慕趴,Xpath是一門在xml文檔中根據(jù)節(jié)點(diǎn)查找信息的語言。
可以參考菜鳥聯(lián)盟學(xué)習(xí)xpath
2. 安裝 pip install lxml
3.網(wǎng)頁知識(shí)了解xpath節(jié)點(diǎn)及常用提取屬性
標(biāo)簽: div ul li a table tr td th p span
節(jié)點(diǎn): 樹形結(jié)構(gòu) 父 子 同胞 先輩 后代
提取數(shù)據(jù)常用的屬性:標(biāo)簽/text()
a標(biāo)簽:文本提取a/text() 超鏈接(也就是跳轉(zhuǎn)的url) 提取a/href
二攻旦、
lxml模塊下的xpath解析提取
將html源碼轉(zhuǎn)換為element html對(duì)象喻旷,變量selector
from lxml import etree
selector=etree.HTML(網(wǎng)頁源碼)
數(shù)據(jù)變量1=selector.xpat('xpath表達(dá)式')

from lxml import etree
file=open('/Users/shixin/Downloads/10-lxml模塊及xpath解析/10-lxml模塊及xpath解析/xpath.html','r',encoding='utf-8')
html = file.read()
#print(html)  #獲取的HTML
selector = etree.HTML(html)
#獲取title
title = selector.xpath('//title/text()')[0]
print(title)
h1 = selector.xpath('//h1/text()')[0].strip()  #列表索引  然后去除空格
print(h1)
haha= selector.xpath('//div[@class="works"]/text()') #class前加@
print(haha)
WX20170830-143312@2x.png

結(jié)構(gòu)化提取(for循環(huán)敬特,變量xpath的寫法):

infos=selector.xpath('//a')
print(len(infos))
for info in infos:
    a_text=info.xpath('text()')[0]
    a_href=info.xpath('@href')[0]
    print(a_text,a_href)
WX20170830-145209@2x.png

練習(xí)

一掰邢、div標(biāo)簽文本提取
將學(xué)習(xí)視頻中xpath.html文件中div標(biāo)簽下文本值
“第一個(gè)div” ,“第二個(gè)div” 使用xpath結(jié)構(gòu)化提取并打印輸出
二伟阔、ul標(biāo)簽文本提取
將xpath.html文件中ul標(biāo)簽下“流程” ,“xpath學(xué)習(xí)”掰伸,“流程2”文本值
使用xpath結(jié)構(gòu)化提取并打印輸出
三皱炉、過濾標(biāo)簽
將xpath.html文件中的第一個(gè)div下的前3個(gè)a標(biāo)簽的文本及超鏈接
使用xpath結(jié)構(gòu)化提取,打印輸出
四狮鸭、requests模塊和lxml&xpath結(jié)合提取數(shù)據(jù)
結(jié)合上節(jié)課requests模塊知識(shí)合搅,將陽光電影網(wǎng)導(dǎo)航欄的文本及超鏈接結(jié)構(gòu)化提取

divs=selector.xpath('//div[@class="works"]/text()')
print(divs)

uls=selector.xpath('//ul/text()')
print(uls)

infos2=selector.xpath('//div[@class="works"][1]/ul[@class="title"][1]/li[position()<4]/a')
for infos2 in infos2:
    a_text = infos2.xpath('text()')[0]
    a_href=infos2.xpath('@href')[0]
    print(a_text,a_href)
WX20170830-151227@2x.png
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末多搀,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子灾部,更是在濱河造成了極大的恐慌康铭,老刑警劉巖,帶你破解...
    沈念sama閱讀 211,194評(píng)論 6 490
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件赌髓,死亡現(xiàn)場(chǎng)離奇詭異从藤,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)锁蠕,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,058評(píng)論 2 385
  • 文/潘曉璐 我一進(jìn)店門夷野,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人荣倾,你說我怎么就攤上這事悯搔。” “怎么了舌仍?”我有些...
    開封第一講書人閱讀 156,780評(píng)論 0 346
  • 文/不壞的土叔 我叫張陵妒貌,是天一觀的道長(zhǎng)。 經(jīng)常有香客問我铸豁,道長(zhǎng)苏揣,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 56,388評(píng)論 1 283
  • 正文 為了忘掉前任推姻,我火速辦了婚禮平匈,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘藏古。我一直安慰自己增炭,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,430評(píng)論 5 384
  • 文/花漫 我一把揭開白布拧晕。 她就那樣靜靜地躺著隙姿,像睡著了一般。 火紅的嫁衣襯著肌膚如雪厂捞。 梳的紋絲不亂的頭發(fā)上输玷,一...
    開封第一講書人閱讀 49,764評(píng)論 1 290
  • 那天,我揣著相機(jī)與錄音靡馁,去河邊找鬼欲鹏。 笑死,一個(gè)胖子當(dāng)著我的面吹牛臭墨,可吹牛的內(nèi)容都是我干的赔嚎。 我是一名探鬼主播,決...
    沈念sama閱讀 38,907評(píng)論 3 406
  • 文/蒼蘭香墨 我猛地睜開眼,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼尤误!你這毒婦竟也來了侠畔?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 37,679評(píng)論 0 266
  • 序言:老撾萬榮一對(duì)情侶失蹤损晤,失蹤者是張志新(化名)和其女友劉穎软棺,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體尤勋,經(jīng)...
    沈念sama閱讀 44,122評(píng)論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡喘落,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,459評(píng)論 2 325
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了斥黑。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片揖盘。...
    茶點(diǎn)故事閱讀 38,605評(píng)論 1 340
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖锌奴,靈堂內(nèi)的尸體忽然破棺而出兽狭,到底是詐尸還是另有隱情,我是刑警寧澤鹿蜀,帶...
    沈念sama閱讀 34,270評(píng)論 4 329
  • 正文 年R本政府宣布箕慧,位于F島的核電站,受9級(jí)特大地震影響茴恰,放射性物質(zhì)發(fā)生泄漏颠焦。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,867評(píng)論 3 312
  • 文/蒙蒙 一往枣、第九天 我趴在偏房一處隱蔽的房頂上張望伐庭。 院中可真熱鬧,春花似錦分冈、人聲如沸圾另。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,734評(píng)論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽集乔。三九已至,卻和暖如春坡椒,著一層夾襖步出監(jiān)牢的瞬間扰路,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,961評(píng)論 1 265
  • 我被黑心中介騙來泰國打工倔叼, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留汗唱,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 46,297評(píng)論 2 360
  • 正文 我出身青樓缀雳,卻偏偏與公主長(zhǎng)得像渡嚣,于是被迫代替她去往敵國和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子肥印,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,472評(píng)論 2 348

推薦閱讀更多精彩內(nèi)容