【Python爬蟲】第三周練習(xí)(14)

一淀衣、div標(biāo)簽文本提取
將學(xué)習(xí)視頻中xpath.html文件中div標(biāo)簽下文本值
“第一個div” ，“第二個div” 使用xpath結(jié)構(gòu)化提取并打印輸出
二悬秉、ul標(biāo)簽文本提取
將xpath.html文件中ul標(biāo)簽下“流程” 帅矗，“xpath學(xué)習(xí)”吗蚌，“流程2”文本值
使用xpath結(jié)構(gòu)化提取并打印輸出
三、過濾標(biāo)簽
將xpath.html文件中的第一個div下的前3個a標(biāo)簽的文本及超鏈接
使用xpath結(jié)構(gòu)化提取囤萤，打印輸出
四、requests模塊和lxml&xpath結(jié)合提取數(shù)據(jù)
結(jié)合上節(jié)課requests模塊知識是趴，將陽光電影網(wǎng)導(dǎo)航欄的文本及超鏈接結(jié)構(gòu)化提取

def clean_data(element_result):
    return str(element_result).replace(" ", "").replace("\n", "").replace("\r", "")


def print_data(elements):
    for element in elements:
        data = clean_data(element)
        if len(data):
            print(data)


with open("xpath.html", "r", encoding="utf-8") as html_file:
    html_str = html_file.read()

selector = etree.HTML(html_str)
div_elements = selector.xpath("http://div/text()")
print_data(div_elements)

ul_elements = selector.xpath("http://ul/text()")
print_data(ul_elements)

filter_elements = selector.xpath("http://div[1]//a[position()<4]/@href|//div[1]//a[position()<4]/text()")
print_data(filter_elements)

url = "http://www.ygdy8.com/"
header_str = '''
Accept:text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8
Accept-Encoding:gzip, deflate
Accept-Language:zh-CN,zh;q=0.8
Cache-Control:max-age=0
Cookie:37cs_pidx=1; 37cs_user=37cs96544059545; UM_distinctid=160e80f56031c9-0c9b01c124c227-6d1b117c-1fa400-160e80f5607f4; CNZZDATA5783118=cnzz_eid%3D2025418817-1515716500-null%26ntime%3D1515716500; 37cs_show=69; cscpvrich4016_fidx=1
Host:www.ygdy8.com
If-Modified-Since:Thu, 11 Jan 2018 15:12:16 GMT
If-None-Match:"0c8cb90ee8ad31:54c"
Proxy-Connection:keep-alive
Referer:https://www.google.co.uk/
Upgrade-Insecure-Requests:1
User-Agent:Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/61.0.3163.79 Safari/537.36
'''
header_list = header_str.strip().split('\n')
headers_dict = {x.split(':')[0]: x.split(':')[1] for x in header_list}
req = requests.get(url, headers_dict)
req.encoding = "gb2312"
selector = etree.HTML(req.text)
print(req.text)
data_elements = selector.xpath("http://div[@id = 'menu']//a/@href|//div[@id = 'menu']//a/text()")
print_data(data_elements)

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末涛舍，一起剝皮案震驚了整個濱河市，隨后出現(xiàn)的幾起案子唆途，更是在濱河造成了極大的恐慌富雅，老刑警劉巖，帶你破解...
沈念sama閱讀 218,451評論 6贊 506
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件肛搬，死亡現(xiàn)場離奇詭異没佑，居然都是意外死亡，警方通過查閱死者的電腦和手機(jī)温赔，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 93,172評論 3贊 394
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門蛤奢，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人陶贼，你說我怎么就攤上這事啤贩。” “怎么了拜秧？”我有些...
開封第一講書人閱讀 164,782評論 0贊 354
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵痹屹，是天一觀的道長。經(jīng)常有香客問我枉氮，道長志衍，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 58,709評論 1贊 294
?港島之戀（遺憾婚禮）
正文為了忘掉前任聊替，我火速辦了婚禮楼肪，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘佃牛。我一直安慰自己淹辞，他們只是感情好，可當(dāng)我...
茶點(diǎn)故事閱讀 67,733評論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布俘侠。她就那樣靜靜地躺著象缀，像睡著了一般。火紅的嫁衣襯著肌膚如雪爷速。梳的紋絲不亂的頭發(fā)上央星，一...
開封第一講書人閱讀 51,578評論 1贊 305
城市分裂傳說
那天，我揣著相機(jī)與錄音惫东，去河邊找鬼莉给。笑死毙石，一個胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的颓遏。我是一名探鬼主播徐矩，決...
沈念sama閱讀 40,320評論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼叁幢！你這毒婦竟也來了滤灯？” 一聲冷哼從身側(cè)響起，我...
開封第一講書人閱讀 39,241評論 0贊 276
萬榮殺人案實(shí)錄
序言：老撾萬榮一對情侶失蹤曼玩，失蹤者是張志新（化名）和其女友劉穎鳞骤，沒想到半個月后，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體黍判，經(jīng)...
沈念sama閱讀 45,686評論 1贊 314
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡豫尽，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,878評論 3贊 336
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時候發(fā)現(xiàn)自己被綠了顷帖。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片美旧。...
茶點(diǎn)故事閱讀 39,992評論 1贊 348
活死人
序言：一個原本活蹦亂跳的男人離奇死亡，死狀恐怖贬墩，靈堂內(nèi)的尸體忽然破棺而出陈症，到底是詐尸還是另有隱情，我是刑警寧澤震糖，帶...
沈念sama閱讀 35,715評論 5贊 346
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布录肯，位于F島的核電站，受9級特大地震影響吊说，放射性物質(zhì)發(fā)生泄漏论咏。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,336評論 3贊 330
男人毒藥：我在死后第九天來索命
文/蒙蒙一颁井、第九天我趴在偏房一處隱蔽的房頂上張望厅贪。院中可真熱鬧，春花似錦雅宾、人聲如沸养涮。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,912評論 0贊 22
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至航瞭，卻和暖如春绪杏，著一層夾襖步出監(jiān)牢的瞬間间唉，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 33,040評論 1贊 270
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留，地道東北人爬舰。一個月前我還...
沈念sama閱讀 48,173評論 3贊 370
代替公主和親
正文我出身青樓们陆，卻偏偏與公主長得像，于是被迫代替她去往敵國和親情屹。傳聞我的和親對象是個殘疾皇子坪仇，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 44,947評論 2贊 355

【Python爬蟲】第三周練習(xí)(14)

推薦閱讀更多精彩內(nèi)容