Python爬蟲第三天:正則復習及Xpath

內(nèi)容簡述:? ? ?? ??? ??

? ??一:正則? ? ? ??

? ??二:Xpath? ? ? ??

一:正則復習

?? find翼闽、rfind属提、replace

?? 字符串處理函數(shù)只能處理固定的字符串baby? hello

?? 不能處理一類字符串塔橡,通過正則表達式來進行處理

?? 正則規(guī)則:

??????? 單字符:. [abc]?\d? \D? \w?\W? \s? \S

??????? 數(shù)量修飾:*?+? ?? {m}?{m,}? {m,n}

??????? 邊界修飾^?$? \b(詞邊界)? \B(非詞邊界)

??????? 子模式?(.*)? ???????

????????貪婪模式? ? ?

? ????????????? <div>呵呵<div>哈哈</div>嘿嘿</div>

? ? ????????????????????? ?'<div>.*</div>'

????????懶惰匹配? ? ?????.*?? ? ? .+???

????????修飾模式

?????????????????? re.S??單行模式? re.M?? 多行模式? re.I?? 忽略大小寫

? ????【正則復習示例】

? ? ? 【正則批量提取圖片鏈接并下載示例-糗事百科圖片】

? ???????https://www.qiushibaike.com/pic/page/

二:xpath(參考w3c)

?? 【注】返回的是一個列表点弯,列表中都是對象,記得通過下標進行篩選

????? ????什么是xml? ? ? ? http://www.w3school.com.cn/xml/

????? 什么是xpath

??????? XPath使用路徑表達式在 XML 文檔中進行導航

??????? //?從匹配選擇的當前節(jié)點選擇文檔中的節(jié)點把兔,而不考慮它們的位置

??????? .??選取當前節(jié)點

??????? @??選取屬性

????? 打開谷歌瀏覽器沪伙,安裝xpath插件,然后使用xpath插件按ctrl + shift + x

????? 屬性定位:根據(jù)屬性查找標簽

????? 層級定位:一級一級查找

????? 索引定位:【注】下標從1開始--網(wǎng)上html

?????????? 查找id是maincontent的div下面的h1節(jié)點

??????????????? //div[@id="maincontent"]/h1

??????????????? //div[@class="head_wrapper"]/div[@id="u"]/a[1]

????? 邏輯運算????//div[@id="head" and@class="s_down"]

????? 模糊匹配

??????? ????查找所有的div县好,id中有he的div

??????? ????????????//div[contains(@id, "he")]

??????????? 查找所有的div围橡,id中以he開頭的div

??????????????????? //div[starts-with(@id, "he")]

??????? ????查找所有的div,id中以he結(jié)尾的div

??????? ????????????//div[ends-with(@id, "he")]

????? 取文本

??????? ????????//div[@class="head_wrapper"]/div[@id="u"]/a[1]/text()

??????? ????????//div[@class="head_wrapper"]/div[@id="u"]/a[1]

??????? ????????obj.text?? 將內(nèi)容獲取到

????? 取屬性

??????? ????????//div[@class="head_wrapper"]/div[@id="u"]/a[1]/@href

?? 安裝模塊?lxml庫

????? 這個庫是解析html的庫缕贡,主要就是解析和提取數(shù)據(jù)

????? pip切換為國內(nèi)源

????? ????http://www.jb51.net/article/98401.htm

????? pip3 install lxml? 安裝好


三:程序中使用xpath

? ? ??from lxml import etree

????? d_etree = etree.parse('本地html')????

????? d_etree = etree.HTML('網(wǎng)上html字符串(也可以是字節(jié)類型)')

????? d_etree.xpath('xpath路徑') 返回的是一個列表

????? 獲取到節(jié)點對象之后obj obj.xpath('xpath路徑')?

????? 示例:抓取站長素材 部分高清圖片

????????站長素材? ??http://sc.chinaz.com/

????? ????????????????????http://sc.chinaz.com/tag_tupian/OuMeiMeiNv.html

????????????????????????? http://sc.chinaz.com/tag_tupian/OuMeiMeiNv_2.html

? ? ? ? ?注意懶加載問題

? ?四:作業(yè)?

? ? ? ? ? ?1-抓取糗事百科-文字【寫入json文件中】

? ??? ? ? ? ? ? ? ?https://www.qiushibaike.com/text/

? ??? ? ? ? ? ? ? ?注意url的拼接和etree對象的另外用法和除去換行

? ? ? ? ? ?2-XAPTH批量提取圖片鏈接并下載示例-糗事百科圖片】

? ? ? ? ? ? ? ? ? ? https://www.qiushibaike.com/pic/page/

最后編輯于
?著作權歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末翁授,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子晾咪,更是在濱河造成了極大的恐慌收擦,老刑警劉巖,帶你破解...
    沈念sama閱讀 211,817評論 6 492
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件谍倦,死亡現(xiàn)場離奇詭異塞赂,居然都是意外死亡,警方通過查閱死者的電腦和手機昼蛀,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,329評論 3 385
  • 文/潘曉璐 我一進店門减途,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人曹洽,你說我怎么就攤上這事×删纾” “怎么了送淆?”我有些...
    開封第一講書人閱讀 157,354評論 0 348
  • 文/不壞的土叔 我叫張陵,是天一觀的道長怕轿。 經(jīng)常有香客問我偷崩,道長,這世上最難降的妖魔是什么撞羽? 我笑而不...
    開封第一講書人閱讀 56,498評論 1 284
  • 正文 為了忘掉前任阐斜,我火速辦了婚禮,結(jié)果婚禮上诀紊,老公的妹妹穿的比我還像新娘谒出。我一直安慰自己,他們只是感情好邻奠,可當我...
    茶點故事閱讀 65,600評論 6 386
  • 文/花漫 我一把揭開白布笤喳。 她就那樣靜靜地躺著,像睡著了一般碌宴。 火紅的嫁衣襯著肌膚如雪杀狡。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,829評論 1 290
  • 那天贰镣,我揣著相機與錄音呜象,去河邊找鬼膳凝。 笑死,一個胖子當著我的面吹牛恭陡,可吹牛的內(nèi)容都是我干的蹬音。 我是一名探鬼主播,決...
    沈念sama閱讀 38,979評論 3 408
  • 文/蒼蘭香墨 我猛地睜開眼子姜,長吁一口氣:“原來是場噩夢啊……” “哼祟绊!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起哥捕,我...
    開封第一講書人閱讀 37,722評論 0 266
  • 序言:老撾萬榮一對情侶失蹤牧抽,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后遥赚,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體扬舒,經(jīng)...
    沈念sama閱讀 44,189評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,519評論 2 327
  • 正文 我和宋清朗相戀三年凫佛,在試婚紗的時候發(fā)現(xiàn)自己被綠了讲坎。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 38,654評論 1 340
  • 序言:一個原本活蹦亂跳的男人離奇死亡愧薛,死狀恐怖晨炕,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情毫炉,我是刑警寧澤瓮栗,帶...
    沈念sama閱讀 34,329評論 4 330
  • 正文 年R本政府宣布,位于F島的核電站瞄勾,受9級特大地震影響费奸,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜进陡,卻給世界環(huán)境...
    茶點故事閱讀 39,940評論 3 313
  • 文/蒙蒙 一愿阐、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧趾疚,春花似錦缨历、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,762評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至喳资,卻和暖如春觉吭,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背仆邓。 一陣腳步聲響...
    開封第一講書人閱讀 31,993評論 1 266
  • 我被黑心中介騙來泰國打工鲜滩, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留伴鳖,地道東北人。 一個月前我還...
    沈念sama閱讀 46,382評論 2 360
  • 正文 我出身青樓徙硅,卻偏偏與公主長得像榜聂,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子嗓蘑,可洞房花燭夜當晚...
    茶點故事閱讀 43,543評論 2 349

推薦閱讀更多精彩內(nèi)容

  • 一:回顧正則 find须肆、rfind、replace 字符串處理函數(shù)只能處理固定的字符串baby hello 不能處...
    仙靈兒閱讀 475評論 0 1
  • 20170531 這幾天重新拾起了爬蟲桩皿,算起來有將近5個月不碰python爬蟲了豌汇。 對照著網(wǎng)上的程序和自己以前寫的...
    八神蒼月閱讀 14,151評論 3 44
  • 一、前言 通過前面的文章泄隔,我們已經(jīng)知道了如何獲取網(wǎng)頁和下載文件拒贱,但是前面我們獲取的網(wǎng)頁都是未經(jīng)處理的,冗余的信息太...
    漁父歌閱讀 25,420評論 1 19
  • ···lxml用法源自 lxml python 官方文檔佛嬉,更多內(nèi)容請直接參閱官方文檔逻澳,本文對其進行翻譯與整理。lx...
    小豐豐_72a2閱讀 945評論 0 1
  • 假期就快結(jié)束了暖呕,上班的該準備準備進入狀態(tài)了斜做。順便呢有什么不開心的事就說出來讓我們大家跟著開心開心啊湾揽! 現(xiàn)在火的都是...
    清如徐閱讀 272評論 0 3