【Python爬蟲】第三周練習(xí)(14)

一淀衣、div標(biāo)簽文本提取
將學(xué)習(xí)視頻中xpath.html文件中div標(biāo)簽下文本值
“第一個div” ,“第二個div” 使用xpath結(jié)構(gòu)化提取并打印輸出
二悬秉、ul標(biāo)簽文本提取
將xpath.html文件中ul標(biāo)簽下“流程” 帅矗,“xpath學(xué)習(xí)”吗蚌,“流程2”文本值
使用xpath結(jié)構(gòu)化提取并打印輸出
三、過濾標(biāo)簽
將xpath.html文件中的第一個div下的前3個a標(biāo)簽的文本及超鏈接
使用xpath結(jié)構(gòu)化提取囤萤,打印輸出
四、requests模塊和lxml&xpath結(jié)合提取數(shù)據(jù)
結(jié)合上節(jié)課requests模塊知識是趴,將陽光電影網(wǎng)導(dǎo)航欄的文本及超鏈接結(jié)構(gòu)化提取

def clean_data(element_result):
    return str(element_result).replace(" ", "").replace("\n", "").replace("\r", "")


def print_data(elements):
    for element in elements:
        data = clean_data(element)
        if len(data):
            print(data)


with open("xpath.html", "r", encoding="utf-8") as html_file:
    html_str = html_file.read()

selector = etree.HTML(html_str)
div_elements = selector.xpath("http://div/text()")
print_data(div_elements)

ul_elements = selector.xpath("http://ul/text()")
print_data(ul_elements)

filter_elements = selector.xpath("http://div[1]//a[position()<4]/@href|//div[1]//a[position()<4]/text()")
print_data(filter_elements)

url = "http://www.ygdy8.com/"
header_str = '''
Accept:text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8
Accept-Encoding:gzip, deflate
Accept-Language:zh-CN,zh;q=0.8
Cache-Control:max-age=0
Cookie:37cs_pidx=1; 37cs_user=37cs96544059545; UM_distinctid=160e80f56031c9-0c9b01c124c227-6d1b117c-1fa400-160e80f5607f4; CNZZDATA5783118=cnzz_eid%3D2025418817-1515716500-null%26ntime%3D1515716500; 37cs_show=69; cscpvrich4016_fidx=1
Host:www.ygdy8.com
If-Modified-Since:Thu, 11 Jan 2018 15:12:16 GMT
If-None-Match:"0c8cb90ee8ad31:54c"
Proxy-Connection:keep-alive
Referer:https://www.google.co.uk/
Upgrade-Insecure-Requests:1
User-Agent:Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/61.0.3163.79 Safari/537.36
'''
header_list = header_str.strip().split('\n')
headers_dict = {x.split(':')[0]: x.split(':')[1] for x in header_list}
req = requests.get(url, headers_dict)
req.encoding = "gb2312"
selector = etree.HTML(req.text)
print(req.text)
data_elements = selector.xpath("http://div[@id = 'menu']//a/@href|//div[@id = 'menu']//a/text()")
print_data(data_elements)
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末涛舍,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子唆途,更是在濱河造成了極大的恐慌富雅,老刑警劉巖,帶你破解...
    沈念sama閱讀 218,451評論 6 506
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件肛搬,死亡現(xiàn)場離奇詭異没佑,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)温赔,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,172評論 3 394
  • 文/潘曉璐 我一進(jìn)店門蛤奢,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人陶贼,你說我怎么就攤上這事啤贩。” “怎么了拜秧?”我有些...
    開封第一講書人閱讀 164,782評論 0 354
  • 文/不壞的土叔 我叫張陵痹屹,是天一觀的道長。 經(jīng)常有香客問我枉氮,道長志衍,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,709評論 1 294
  • 正文 為了忘掉前任聊替,我火速辦了婚禮楼肪,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘佃牛。我一直安慰自己淹辞,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,733評論 6 392
  • 文/花漫 我一把揭開白布俘侠。 她就那樣靜靜地躺著象缀,像睡著了一般。 火紅的嫁衣襯著肌膚如雪爷速。 梳的紋絲不亂的頭發(fā)上央星,一...
    開封第一講書人閱讀 51,578評論 1 305
  • 那天,我揣著相機(jī)與錄音惫东,去河邊找鬼莉给。 笑死毙石,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的颓遏。 我是一名探鬼主播徐矩,決...
    沈念sama閱讀 40,320評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼叁幢!你這毒婦竟也來了滤灯?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,241評論 0 276
  • 序言:老撾萬榮一對情侶失蹤曼玩,失蹤者是張志新(化名)和其女友劉穎鳞骤,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體黍判,經(jīng)...
    沈念sama閱讀 45,686評論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡豫尽,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,878評論 3 336
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了顷帖。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片美旧。...
    茶點(diǎn)故事閱讀 39,992評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖贬墩,靈堂內(nèi)的尸體忽然破棺而出陈症,到底是詐尸還是另有隱情,我是刑警寧澤震糖,帶...
    沈念sama閱讀 35,715評論 5 346
  • 正文 年R本政府宣布录肯,位于F島的核電站,受9級特大地震影響吊说,放射性物質(zhì)發(fā)生泄漏论咏。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,336評論 3 330
  • 文/蒙蒙 一颁井、第九天 我趴在偏房一處隱蔽的房頂上張望厅贪。 院中可真熱鬧,春花似錦雅宾、人聲如沸养涮。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,912評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至航瞭,卻和暖如春绪杏,著一層夾襖步出監(jiān)牢的瞬間间唉,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,040評論 1 270
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人爬舰。 一個月前我還...
    沈念sama閱讀 48,173評論 3 370
  • 正文 我出身青樓们陆,卻偏偏與公主長得像,于是被迫代替她去往敵國和親情屹。 傳聞我的和親對象是個殘疾皇子坪仇,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,947評論 2 355

推薦閱讀更多精彩內(nèi)容