Python爬蟲第三天：正則復習及Xpath

內(nèi)容簡述:? ? ?? ??? ??

? ??一:正則? ? ? ??

? ??二:Xpath? ? ? ??

一:正則復習

?? find翼闽、rfind属提、replace

?? 字符串處理函數(shù)只能處理固定的字符串baby? hello

?? 不能處理一類字符串塔橡，通過正則表達式來進行處理

?? 正則規(guī)則：

??????? 單字符：. [abc]?\d? \D? \w?\W? \s? \S

??????? 數(shù)量修飾：*?+? ?? {m}?{m,}? {m,n}

??????? 邊界修飾^?$? \b(詞邊界)? \B（非詞邊界）

??????? 子模式?(.*)? ???????

????????貪婪模式? ? ?

? ????????????? <div>呵呵<div>哈哈</div>嘿嘿</div>

? ? ????????????????????? ?'<div>.*</div>'

????????懶惰匹配? ? ?????.*?? ? ? .+???

????????修飾模式

?????????????????? re.S??單行模式? re.M?? 多行模式? re.I?? 忽略大小寫

? ????【正則復習示例】

? ? ? 【正則批量提取圖片鏈接并下載示例-糗事百科圖片】

? ???????https://www.qiushibaike.com/pic/page/

二:xpath(參考w3c)

?? 【注】返回的是一個列表点弯，列表中都是對象，記得通過下標進行篩選

????? ????什么是xml? ? ? ? http://www.w3school.com.cn/xml/

????? 什么是xpath

??????? XPath使用路徑表達式在 XML 文檔中進行導航

??????? //?從匹配選擇的當前節(jié)點選擇文檔中的節(jié)點把兔，而不考慮它們的位置

??????? .??選取當前節(jié)點

??????? @??選取屬性

????? 打開谷歌瀏覽器沪伙，安裝xpath插件，然后使用xpath插件按ctrl + shift + x

????? 屬性定位：根據(jù)屬性查找標簽

????? 層級定位：一級一級查找

????? 索引定位：【注】下標從1開始--網(wǎng)上html

?????????? 查找id是maincontent的div下面的h1節(jié)點

??????????????? //div[@id="maincontent"]/h1

??????????????? //div[@class="head_wrapper"]/div[@id="u"]/a[1]

????? 邏輯運算????//div[@id="head" and@class="s_down"]

????? 模糊匹配

??????? ????查找所有的div县好，id中有he的div

??????? ????????????//div[contains(@id, "he")]

??????????? 查找所有的div围橡，id中以he開頭的div

??????????????????? //div[starts-with(@id, "he")]

??????? ????查找所有的div，id中以he結(jié)尾的div

??????? ????????????//div[ends-with(@id, "he")]

????? 取文本

??????? ????????//div[@class="head_wrapper"]/div[@id="u"]/a[1]/text()

??????? ????????//div[@class="head_wrapper"]/div[@id="u"]/a[1]

??????? ????????obj.text?? 將內(nèi)容獲取到

????? 取屬性

??????? ????????//div[@class="head_wrapper"]/div[@id="u"]/a[1]/@href

?? 安裝模塊?lxml庫

????? 這個庫是解析html的庫缕贡，主要就是解析和提取數(shù)據(jù)

????? pip切換為國內(nèi)源

????? ????http://www.jb51.net/article/98401.htm

????? pip3 install lxml? 安裝好

三:程序中使用xpath

? ? ??from lxml import etree

????? d_etree = etree.parse('本地html')????

????? d_etree = etree.HTML('網(wǎng)上html字符串(也可以是字節(jié)類型)')

????? d_etree.xpath('xpath路徑') 返回的是一個列表

????? 獲取到節(jié)點對象之后obj obj.xpath('xpath路徑')?

????? 示例:抓取站長素材部分高清圖片

????????站長素材? ??http://sc.chinaz.com/

????? ????????????????????http://sc.chinaz.com/tag_tupian/OuMeiMeiNv.html

????????????????????????? http://sc.chinaz.com/tag_tupian/OuMeiMeiNv_2.html

? ? ? ? ?注意懶加載問題

? ?四:作業(yè)?

? ? ? ? ? ?1-抓取糗事百科-文字【寫入json文件中】

? ??? ? ? ? ? ? ? ?https://www.qiushibaike.com/text/

? ??? ? ? ? ? ? ? ?注意url的拼接和etree對象的另外用法和除去換行

? ? ? ? ? ?2-XAPTH批量提取圖片鏈接并下載示例-糗事百科圖片】

? ? ? ? ? ? ? ? ? ? https://www.qiushibaike.com/pic/page/

最后編輯于：2018.10.23 22:03:52

?著作權歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末翁授，一起剝皮案震驚了整個濱河市，隨后出現(xiàn)的幾起案子晾咪，更是在濱河造成了極大的恐慌收擦，老刑警劉巖，帶你破解...
沈念sama閱讀 211,817評論 6贊 492
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件谍倦，死亡現(xiàn)場離奇詭異塞赂，居然都是意外死亡，警方通過查閱死者的電腦和手機昼蛀，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 90,329評論 3贊 385
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門减途，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人曹洽，你說我怎么就攤上這事×删纾” “怎么了送淆？”我有些...
開封第一講書人閱讀 157,354評論 0贊 348
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長怕轿。經(jīng)常有香客問我偷崩，道長，這世上最難降的妖魔是什么撞羽？我笑而不...
開封第一講書人閱讀 56,498評論 1贊 284
?港島之戀（遺憾婚禮）
正文為了忘掉前任阐斜，我火速辦了婚禮，結(jié)果婚禮上诀紊，老公的妹妹穿的比我還像新娘谒出。我一直安慰自己，他們只是感情好邻奠，可當我...
茶點故事閱讀 65,600評論 6贊 386
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布笤喳。她就那樣靜靜地躺著，像睡著了一般碌宴。火紅的嫁衣襯著肌膚如雪杀狡。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 49,829評論 1贊 290
城市分裂傳說
那天贰镣，我揣著相機與錄音呜象，去河邊找鬼膳凝。笑死，一個胖子當著我的面吹牛恭陡，可吹牛的內(nèi)容都是我干的蹬音。我是一名探鬼主播，決...
沈念sama閱讀 38,979評論 3贊 408
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼子姜，長吁一口氣：“原來是場噩夢啊……” “哼祟绊！你這毒婦竟也來了？” 一聲冷哼從身側(cè)響起哥捕，我...
開封第一講書人閱讀 37,722評論 0贊 266
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤牧抽，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后遥赚，有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體扬舒，經(jīng)...
沈念sama閱讀 44,189評論 1贊 303
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 36,519評論 2贊 327
?白月光啟示錄
正文我和宋清朗相戀三年凫佛，在試婚紗的時候發(fā)現(xiàn)自己被綠了讲坎。大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點故事閱讀 38,654評論 1贊 340
活死人
序言：一個原本活蹦亂跳的男人離奇死亡愧薛，死狀恐怖晨炕，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情毫炉，我是刑警寧澤瓮栗，帶...
沈念sama閱讀 34,329評論 4贊 330
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站瞄勾，受9級特大地震影響费奸，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜进陡，卻給世界環(huán)境...
茶點故事閱讀 39,940評論 3贊 313
男人毒藥：我在死后第九天來索命
文/蒙蒙一愿阐、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧趾疚，春花似錦缨历、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 30,762評論 0贊 21
一樁弒父案戈二，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至喳资，卻和暖如春觉吭，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背仆邓。一陣腳步聲響...
開封第一講書人閱讀 31,993評論 1贊 266
情欲美人皮
我被黑心中介騙來泰國打工鲜滩，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留伴鳖，地道東北人。一個月前我還...
沈念sama閱讀 46,382評論 2贊 360
代替公主和親
正文我出身青樓徙硅，卻偏偏與公主長得像榜聂，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子嗓蘑，可洞房花燭夜當晚...
茶點故事閱讀 43,543評論 2贊 349