2019-07-31

學(xué)習(xí)Python第四天

爬蟲

大數(shù)據(jù) 提取本地html中的數(shù)據(jù)

  1. 新建html文件
  2. 讀取
  3. 使用xpath語法進(jìn)行提取

使用 lxml 中的xpath

使用lxml提取 h1標(biāo)簽中的內(nèi)容

from lxml import html

讀取html文件

with open('./index.html', 'r', encoding='utf-8') as f:
    html_data = f.read()
    print(html_data)

解析html文件,獲得selector對象

 selector = html.fromstring(html_data)

selector中調(diào)用xpath方法
要獲取標(biāo)簽中的內(nèi)容黎炉,末尾要添加text()

h1 = selector.xpath('/html/body/h1/text()')
    print(h1[0])

可以代表從任意位置出發(fā)枝秤、
標(biāo)簽1[@屬性=屬性值]/標(biāo)簽2[@屬性=屬性值]..../text()

a = selector.xpath('//div[@id="container"]/a/text()')
    print(a)

requests

導(dǎo)入

import requests
 url = 'https://www.baidu.com'
 url = 'https://www.taobao.com/'
 url = 'http://www.dangdang.com/' 
response = requests.get(url)
print(response)

獲取str類型的響應(yīng)

print(response.text)

獲取bytes類型的響應(yīng)

print(response.content)

獲取響應(yīng)頭

print(response.headers)

獲取狀態(tài)碼

print(response.status_code)
print(response.encoding)

200 ok 404 500
沒有添加請求頭的知乎網(wǎng)站

 resp = requests.get('https://www.zhihu.com/')
print(resp.status_code)

使用字典定義請求頭

headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.142 Safari/537.36"}
resp = requests.get('https://www.zhihu.com/', headers = headers)
print(resp.status_code)
import requests
from lxml import html
def spider_dangdang(isbn):
 # 目標(biāo)站點地址
url = 'http://search.dangdang.com/?key={}&act=input'.format(isbn)
print(url)
# 獲取站點str類型的響應(yīng)
headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.142 Safari/537.36"}
resp = requests.get(url, headers=headers)
html_data = resp.text
# 將html頁面寫入本地
with open('dangdang.html', 'w', encoding='utf-8') as f:
f.write(html_data)
# 提取目標(biāo)站的信息
selector = html.fromstring(html_data)
ul_list = selector.xpath('//div[@id="search_nature_rg"]/ul/li')
print('您好,共有{}家店鋪售賣此圖書'.format(len(ul_list)))
# 遍歷 ul_list
for li in ul_list:
#  圖書名稱
title = li.xpath('./a/@title')[0].strip()
print(title)
#  圖書購買鏈接
link = li.xpath('a/@href')[0]
print(link)
#  圖書價格
price = li.xpath('./p[@class="price"]/span[@class="search_now_price"]/text()')[0]
price = float(price.replace('¥',''))
print(price)
# 圖書賣家名稱
store = li.xpath('./p[@class="search_shangjia"]/a/text()')
if len(store) == 0:
store = '當(dāng)當(dāng)自營'
  else:
 store = store[0]
store = '當(dāng)當(dāng)自營' if len(store) == 0 else store[0]
print(store)
spider_dangdang('9787115428028')
import requests
from lxml import html
import pandas as pd
from matplotlib import pyplot as plt
plt.rcParams["font.sans-serif"] = ['SimHei']
plt.rcParams['axes.unicode_minus'] = False
def spider_dangdang(isbn):
 book_list = []
# 目標(biāo)站點地址
url = 'http://search.dangdang.com/?key={}&act=input'.format(isbn)
 print(url)
# 獲取站點str類型的響應(yīng)
 headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.142 Safari/537.36"}
resp = requests.get(url, headers=headers)
 html_data = resp.text
  #  將html頁面寫入本地
 with open('dangdang.html', 'w', encoding='utf-8') as f:
 f.write(html_data)
 # 提取目標(biāo)站的信息
selector = html.fromstring(html_data)
ul_list = selector.xpath('//div[@id="search_nature_rg"]/ul/li')
print('您好拜隧,共有{}家店鋪售賣此圖書'.format(len(ul_list)))
 # 遍歷 ul_list
for li in ul_list:
#  圖書名稱
title = li.xpath('./a/@title')[0].strip()
print(title)
 #  圖書購買鏈接
 link = li.xpath('a/@href')[0]
print(link)
#  圖書價格
 price = li.xpath('./p[@class="price"]/span[@class="search_now_price"]/text()')[0]
price = float(price.replace('¥',''))
print(price)
 # 圖書賣家名稱
store = li.xpath('./p[@class="search_shangjia"]/a/text()')
if len(store) == 0:
store = '當(dāng)當(dāng)自營'
else:
store = store[0]
store = '當(dāng)當(dāng)自營' if len(store) == 0 else store[0]
 print(store)

# 添加每一個商家的圖書信息
book_list.append({
            'title':title,
            'price':price,
            'link':link,
            'store':store
        })
# 按照價格進(jìn)行排序
book_list.sort(key=lambda x:x['price'])
# 遍歷booklist
    for book in book_list:
        print(book)

# 展示價格最低的前10家 柱狀圖
# 店鋪的名稱
top10_store = [book_list[i] for i in range(10)]
 x = []
for store in top10_store:
x.append(store['store'])
x = [x['store'] for x in top10_store]
print(x)
 # 圖書的價格
y = [x['price'] for x in top10_store]
print(y)
# plt.bar(x, y)
plt.barh(x, y)
plt.show()
 # 存儲成csv文件
df = pd.DataFrame(book_list)
df.to_csv('dangdang.csv')
spider_dangdang('9787115428028')
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末宿百,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子洪添,更是在濱河造成了極大的恐慌垦页,老刑警劉巖,帶你破解...
    沈念sama閱讀 217,907評論 6 506
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件干奢,死亡現(xiàn)場離奇詭異痊焊,居然都是意外死亡,警方通過查閱死者的電腦和手機忿峻,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,987評論 3 395
  • 文/潘曉璐 我一進(jìn)店門薄啥,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人逛尚,你說我怎么就攤上這事垄惧。” “怎么了绰寞?”我有些...
    開封第一講書人閱讀 164,298評論 0 354
  • 文/不壞的土叔 我叫張陵到逊,是天一觀的道長。 經(jīng)常有香客問我滤钱,道長觉壶,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,586評論 1 293
  • 正文 為了忘掉前任件缸,我火速辦了婚禮铜靶,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘他炊。我一直安慰自己争剿,他們只是感情好已艰,可當(dāng)我...
    茶點故事閱讀 67,633評論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著秒梅,像睡著了一般旗芬。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上捆蜀,一...
    開封第一講書人閱讀 51,488評論 1 302
  • 那天,我揣著相機與錄音幔嫂,去河邊找鬼辆它。 笑死,一個胖子當(dāng)著我的面吹牛履恩,可吹牛的內(nèi)容都是我干的锰茉。 我是一名探鬼主播,決...
    沈念sama閱讀 40,275評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼切心,長吁一口氣:“原來是場噩夢啊……” “哼飒筑!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起绽昏,我...
    開封第一講書人閱讀 39,176評論 0 276
  • 序言:老撾萬榮一對情侶失蹤协屡,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后全谤,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體肤晓,經(jīng)...
    沈念sama閱讀 45,619評論 1 314
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,819評論 3 336
  • 正文 我和宋清朗相戀三年认然,在試婚紗的時候發(fā)現(xiàn)自己被綠了补憾。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 39,932評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡卷员,死狀恐怖盈匾,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情毕骡,我是刑警寧澤削饵,帶...
    沈念sama閱讀 35,655評論 5 346
  • 正文 年R本政府宣布,位于F島的核電站挺峡,受9級特大地震影響葵孤,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜橱赠,卻給世界環(huán)境...
    茶點故事閱讀 41,265評論 3 329
  • 文/蒙蒙 一尤仍、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧狭姨,春花似錦宰啦、人聲如沸苏遥。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,871評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽田炭。三九已至,卻和暖如春漓柑,著一層夾襖步出監(jiān)牢的瞬間教硫,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 32,994評論 1 269
  • 我被黑心中介騙來泰國打工辆布, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留瞬矩,地道東北人。 一個月前我還...
    沈念sama閱讀 48,095評論 3 370
  • 正文 我出身青樓锋玲,卻偏偏與公主長得像景用,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子惭蹂,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 44,884評論 2 354

推薦閱讀更多精彩內(nèi)容