2019-07-31

學(xué)習(xí)Python第四天

爬蟲

大數(shù)據(jù) 提取本地html中的數(shù)據(jù)

新建html文件
讀取
使用xpath語法進(jìn)行提取

使用 lxml 中的xpath

使用lxml提取 h1標(biāo)簽中的內(nèi)容

from lxml import html

讀取html文件

with open('./index.html', 'r', encoding='utf-8') as f:
    html_data = f.read()
    print(html_data)

解析html文件，獲得selector對象

 selector = html.fromstring(html_data)

selector中調(diào)用xpath方法
要獲取標(biāo)簽中的內(nèi)容黎炉，末尾要添加text()

h1 = selector.xpath('/html/body/h1/text()')
    print(h1[0])

可以代表從任意位置出發(fā)枝秤、
標(biāo)簽1[@屬性=屬性值]/標(biāo)簽2[@屬性=屬性值]..../text()

a = selector.xpath('//div[@id="container"]/a/text()')
    print(a)

requests

導(dǎo)入

import requests
 url = 'https://www.baidu.com'
 url = 'https://www.taobao.com/'
 url = 'http://www.dangdang.com/' 
response = requests.get(url)
print(response)

獲取str類型的響應(yīng)

print(response.text)

獲取bytes類型的響應(yīng)

print(response.content)

獲取響應(yīng)頭

print(response.headers)

獲取狀態(tài)碼

print(response.status_code)
print(response.encoding)

200 ok 404 500
沒有添加請求頭的知乎網(wǎng)站

 resp = requests.get('https://www.zhihu.com/')
print(resp.status_code)

使用字典定義請求頭

headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.142 Safari/537.36"}
resp = requests.get('https://www.zhihu.com/', headers = headers)
print(resp.status_code)

import requests
from lxml import html
def spider_dangdang(isbn):
 # 目標(biāo)站點地址
url = 'http://search.dangdang.com/?key={}&act=input'.format(isbn)
print(url)
# 獲取站點str類型的響應(yīng)
headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.142 Safari/537.36"}
resp = requests.get(url, headers=headers)
html_data = resp.text
# 將html頁面寫入本地
with open('dangdang.html', 'w', encoding='utf-8') as f:
f.write(html_data)
# 提取目標(biāo)站的信息
selector = html.fromstring(html_data)
ul_list = selector.xpath('//div[@id="search_nature_rg"]/ul/li')
print('您好，共有{}家店鋪售賣此圖書'.format(len(ul_list)))
# 遍歷 ul_list
for li in ul_list:
#  圖書名稱
title = li.xpath('./a/@title')[0].strip()
print(title)
#  圖書購買鏈接
link = li.xpath('a/@href')[0]
print(link)
#  圖書價格
price = li.xpath('./p[@class="price"]/span[@class="search_now_price"]/text()')[0]
price = float(price.replace('￥',''))
print(price)
# 圖書賣家名稱
store = li.xpath('./p[@class="search_shangjia"]/a/text()')
if len(store) == 0:
store = '當(dāng)當(dāng)自營'
  else:
 store = store[0]
store = '當(dāng)當(dāng)自營' if len(store) == 0 else store[0]
print(store)
spider_dangdang('9787115428028')

import requests
from lxml import html
import pandas as pd
from matplotlib import pyplot as plt
plt.rcParams["font.sans-serif"] = ['SimHei']
plt.rcParams['axes.unicode_minus'] = False
def spider_dangdang(isbn):
 book_list = []
# 目標(biāo)站點地址
url = 'http://search.dangdang.com/?key={}&act=input'.format(isbn)
 print(url)
# 獲取站點str類型的響應(yīng)
 headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.142 Safari/537.36"}
resp = requests.get(url, headers=headers)
 html_data = resp.text
  #  將html頁面寫入本地
 with open('dangdang.html', 'w', encoding='utf-8') as f:
 f.write(html_data)
 # 提取目標(biāo)站的信息
selector = html.fromstring(html_data)
ul_list = selector.xpath('//div[@id="search_nature_rg"]/ul/li')
print('您好拜隧，共有{}家店鋪售賣此圖書'.format(len(ul_list)))
 # 遍歷 ul_list
for li in ul_list:
#  圖書名稱
title = li.xpath('./a/@title')[0].strip()
print(title)
 #  圖書購買鏈接
 link = li.xpath('a/@href')[0]
print(link)
#  圖書價格
 price = li.xpath('./p[@class="price"]/span[@class="search_now_price"]/text()')[0]
price = float(price.replace('￥',''))
print(price)
 # 圖書賣家名稱
store = li.xpath('./p[@class="search_shangjia"]/a/text()')
if len(store) == 0:
store = '當(dāng)當(dāng)自營'
else:
store = store[0]
store = '當(dāng)當(dāng)自營' if len(store) == 0 else store[0]
 print(store)

# 添加每一個商家的圖書信息
book_list.append({
            'title':title,
            'price':price,
            'link':link,
            'store':store
        })
# 按照價格進(jìn)行排序
book_list.sort(key=lambda x:x['price'])
# 遍歷booklist
    for book in book_list:
        print(book)

# 展示價格最低的前10家 柱狀圖
# 店鋪的名稱
top10_store = [book_list[i] for i in range(10)]
 x = []
for store in top10_store:
x.append(store['store'])
x = [x['store'] for x in top10_store]
print(x)
 # 圖書的價格
y = [x['price'] for x in top10_store]
print(y)
# plt.bar(x, y)
plt.barh(x, y)
plt.show()
 # 存儲成csv文件
df = pd.DataFrame(book_list)
df.to_csv('dangdang.csv')
spider_dangdang('9787115428028')

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末宿百，一起剝皮案震驚了整個濱河市，隨后出現(xiàn)的幾起案子洪添，更是在濱河造成了極大的恐慌垦页，老刑警劉巖，帶你破解...
沈念sama閱讀 217,907評論 6贊 506
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件干奢，死亡現(xiàn)場離奇詭異痊焊，居然都是意外死亡，警方通過查閱死者的電腦和手機忿峻，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 92,987評論 3贊 395
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門薄啥，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人逛尚，你說我怎么就攤上這事垄惧。” “怎么了绰寞？”我有些...
開封第一講書人閱讀 164,298評論 0贊 354
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵到逊，是天一觀的道長。經(jīng)常有香客問我滤钱，道長觉壶，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 58,586評論 1贊 293
?港島之戀（遺憾婚禮）
正文為了忘掉前任件缸，我火速辦了婚禮铜靶，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘他炊。我一直安慰自己争剿，他們只是感情好已艰，可當(dāng)我...
茶點故事閱讀 67,633評論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著秒梅，像睡著了一般旗芬。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上捆蜀，一...
開封第一講書人閱讀 51,488評論 1贊 302
城市分裂傳說
那天，我揣著相機與錄音幔嫂，去河邊找鬼辆它。笑死，一個胖子當(dāng)著我的面吹牛履恩，可吹牛的內(nèi)容都是我干的锰茉。我是一名探鬼主播，決...
沈念sama閱讀 40,275評論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼切心，長吁一口氣：“原來是場噩夢啊……” “哼飒筑！你這毒婦竟也來了？” 一聲冷哼從身側(cè)響起绽昏，我...
開封第一講書人閱讀 39,176評論 0贊 276
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤协屡，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后全谤，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體肤晓，經(jīng)...
沈念sama閱讀 45,619評論 1贊 314
?護(hù)林員之死
正文獨居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 37,819評論 3贊 336
?白月光啟示錄
正文我和宋清朗相戀三年认然，在試婚紗的時候發(fā)現(xiàn)自己被綠了补憾。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點故事閱讀 39,932評論 1贊 348
活死人
序言：一個原本活蹦亂跳的男人離奇死亡卷员，死狀恐怖盈匾，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情毕骡，我是刑警寧澤削饵，帶...
沈念sama閱讀 35,655評論 5贊 346
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站挺峡，受9級特大地震影響葵孤，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜橱赠，卻給世界環(huán)境...
茶點故事閱讀 41,265評論 3贊 329
男人毒藥：我在死后第九天來索命
文/蒙蒙一尤仍、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧狭姨，春花似錦宰啦、人聲如沸苏遥。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,871評論 0贊 22
一樁弒父案赡模，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽田炭。三九已至，卻和暖如春漓柑，著一層夾襖步出監(jiān)牢的瞬間教硫，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 32,994評論 1贊 269
情欲美人皮
我被黑心中介騙來泰國打工辆布，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留瞬矩，地道東北人。一個月前我還...
沈念sama閱讀 48,095評論 3贊 370
代替公主和親
正文我出身青樓锋玲，卻偏偏與公主長得像景用，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子惭蹂，可洞房花燭夜當(dāng)晚...
茶點故事閱讀 44,884評論 2贊 354

2019-07-31

學(xué)習(xí)Python第四天

爬蟲

使用 lxml 中的xpath

requests

推薦閱讀更多精彩內(nèi)容