前言
嗨嘍,大家好呀~這里是愛看美女的茜茜吶
又到了學(xué)Python時(shí)刻~
環(huán)境使用:
Python 3.8 解釋器
Pycharm 編輯器
模塊
import re
import requests >>> pip install requests
模塊安裝問題:
-
如果安裝python第三方模塊:
win + R 輸入 cmd 點(diǎn)擊確定, 輸入安裝命令 pip install 模塊名 (pip install requests) 回車
在pycharm中點(diǎn)擊Terminal(終端) 輸入安裝命令
-
安裝失敗原因:
-
失敗一: pip 不是內(nèi)部命令
解決方法: 設(shè)置環(huán)境變量
-
失敗二: 出現(xiàn)大量報(bào)紅 (read time out)
解決方法: 因?yàn)槭蔷W(wǎng)絡(luò)鏈接超時(shí), 需要切換鏡像源
清華:https://pypi.tuna.tsinghua.edu.cn/simple 阿里云:https://mirrors.aliyun.com/pypi/simple/ 中國科技大學(xué) https://pypi.mirrors.ustc.edu.cn/simple/ 華中理工大學(xué):https://pypi.hustunique.com/ 山東理工大學(xué):https://pypi.sdutlinux.org/ 豆瓣:https://pypi.douban.com/simple/ 例如:pip3 install -i https://pypi.doubanio.com/simple/ 模塊名
-
失敗三: cmd里面顯示已經(jīng)安裝過了, 或者安裝成功了, 但是在pycharm里面還是無法導(dǎo)入
解決方法: 可能安裝了多個(gè)python版本 (anaconda 或者 python 安裝一個(gè)即可) 卸載一個(gè)就好
或者你pycharm里面python解釋器沒有設(shè)置好
-
思路
代碼展示
導(dǎo)入模塊
# 導(dǎo)入數(shù)據(jù)請(qǐng)求模塊 --> 第三方模塊, 需要安裝 pip install requests
import requests
# 導(dǎo)入正則模塊 --> 內(nèi)置模塊, 不需要安裝
import re
"""
-
發(fā)送請(qǐng)求, 模擬瀏覽器對(duì)于url地址發(fā)送請(qǐng)求
模擬瀏覽器 <反爬處理> 請(qǐng)求頭 <字典數(shù)據(jù)類型>
如果你不偽裝, 可能會(huì)被識(shí)別出來是爬蟲程序, 從而得到數(shù)據(jù)內(nèi)容
可以直接復(fù)制粘貼 --> 開發(fā)者工具里面就可以復(fù)制<Response [200]> 響應(yīng)對(duì)象
Response: 中文意思-->響應(yīng)
<>: 表示對(duì)象
200: 狀態(tài)碼 表示請(qǐng)求成功
發(fā)送請(qǐng)求, 請(qǐng)求成功了
"""
for page in range(2, 11):
print(f'=================正在采集第{page}頁的數(shù)據(jù)內(nèi)容=================')
請(qǐng)求圖片目錄頁面url
url = f'http://www.****.com/dongman/index_{page}.htm'
偽裝模擬成瀏覽器
headers = {
# User-Agent 用戶代理 瀏覽器基本身份信息
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.0.0 Safari/537.36'
}
發(fā)送請(qǐng)求
調(diào)用requests模塊里面get請(qǐng)求方法, 對(duì)于url地址發(fā)送請(qǐng)求, 并且攜帶上headers請(qǐng)求頭偽裝, 最后用自定義變量名response接受返回的數(shù)據(jù)
response = requests.get(url=url, headers=headers)
"""
-
獲取數(shù)據(jù), 獲取服務(wù)器返回響應(yīng)數(shù)據(jù)
response 網(wǎng)頁源代碼
response.text 獲取響應(yīng)文本數(shù)據(jù) <網(wǎng)頁源代碼>
-
解析數(shù)據(jù), 提取我們想要的數(shù)據(jù)內(nèi)容
- 圖片ID
正則表達(dá)式Re
調(diào)用re模塊里面findall方法 --> 找到所有我們想要的數(shù)據(jù)
re.findall('找什么數(shù)據(jù)', '從哪里找') --> 從什么地方, 去匹配找什么樣的數(shù)據(jù)內(nèi)容
從 response.text<網(wǎng)頁源代碼> 里面 去找 <a href="/desk/(\d+).htm" 其中 (\d+) 就是我們要的內(nèi)容
\d+ 表示任意數(shù)字
"""
提取圖片ID --> 列表 <盒子/箱子> '29381' 是列表<箱子>里面元素<蘋果>
img_id_list = re.findall('<a href="/desk/(\d+).htm"', response.text)
for循環(huán)遍歷, 把列表里面元素 一個(gè)一個(gè)提取出來
for img_id in img_id_list:
# img_id變量<袋子> 給 img_id_list 列表<盒子> 里面 元素<蘋果> 給裝起來
print(img_id)
"""
- 發(fā)送請(qǐng)求, 模擬瀏覽器對(duì)于url地址發(fā)送請(qǐng)求
- 請(qǐng)求 圖片詳情頁頁面url http://www.****.com/desk/{圖片ID}.htm
-
獲取數(shù)據(jù), 獲取服務(wù)器返回響應(yīng)數(shù)據(jù)
response 網(wǎng)頁源代碼
"""
請(qǐng)求詳情頁鏈接 --> f'{img_id}' 字符串格式化方法
link = f'http://www.*****.com/desk/{img_id}.htm'
發(fā)送請(qǐng)求
response_1 = requests.get(url=link, headers=headers)
獲取數(shù)據(jù)內(nèi)容 網(wǎng)頁源代碼 ---> 亂碼了, 進(jìn)行轉(zhuǎn)碼
response_1.encoding = 'gbk'
- 解析數(shù)據(jù), 提取我們想要的數(shù)據(jù)內(nèi)容<圖片鏈接/圖片標(biāo)題>
img_url, img_title = re.findall('<img src="(.*?)" alt="(.*?)"', response_1.text)[0]
- 保存數(shù)據(jù) --> 先獲取圖片數(shù)據(jù)內(nèi)容
img_content = requests.get(url=img_url, headers=headers).content
with open('img\\' + img_title + '.jpg', mode='wb') as f:
f.write(img_content)
print(img_url, img_title)
效果
尾語
感謝你觀看我的文章吶~本次航班到這里就結(jié)束啦 ??
希望本篇文章有對(duì)你帶來幫助 ??关面,有學(xué)習(xí)到一點(diǎn)知識(shí)~
躲起來的星星??也在努力發(fā)光活孩,你也要努力加油(讓我們一起努力叭)太示。