這是一篇詳細介紹 Python 爬蟲入門的教程,從實戰(zhàn)出發(fā),適合初學者。讀者只需在閱讀過程緊跟文章思路,理清相應的實現代碼喳张,30 分鐘即可學會編寫簡單的 Python 爬蟲。
這篇 Python 爬蟲教程主要講解以下 5 部分內容:
- 了解網頁美澳;
- 使用 requests 庫抓取網站數據销部;
- 使用 Beautiful Soup 解析網頁;
- 清洗和組織數據制跟;
- 爬蟲攻防戰(zhàn)柴墩;
了解網頁
以中國旅游網首頁(http://www.cntour.cn/)為例,抓取中國旅游網首頁首條信息(標題和鏈接)凫岖,數據以明文的形式出面在源碼中江咳。在中國旅游網首頁,按快捷鍵【Ctrl+U】打開源碼頁面哥放,如圖 1 所示歼指。
圖 1 中國旅游網首頁源碼
認識網頁結構
網頁一般由三部分組成,分別是 HTML(超文本標記語言)甥雕、CSS(層疊樣式表)和 JScript(活動腳本語言)踩身。
HTML
HTML 是整個網頁的結構,相當于整個網站的框架社露。帶“<”挟阻、“>”符號的都是屬于 HTML 的標簽,并且標簽都是成對出現的峭弟。
常見的標簽如下:
<html>..</html> 表示標記中間的元素是網頁
<body>..</body> 表示用戶可見的內容
<div>..</div> 表示框架
<p>..</p> 表示段落
<li>..</li>表示列表
<img>..</img>表示圖片
<h1>..</h1>表示標題
<a href="">..</a>表示超鏈接
CSS
CSS 表示樣式附鸽,圖 1 中第 13 行<style type="text/css">表示下面引用一個 CSS,在 CSS 中定義了外觀瞒瘸。
JScript
JScript 表示功能坷备。交互的內容和各種特效都在 JScript 中,JScript 描述了網站中的各種功能情臭。
如果用人體來比喻省撑,HTML 是人的骨架,并且定義了人的嘴巴俯在、眼睛竟秫、耳朵等要長在哪里。CSS 是人的外觀細節(jié)跷乐,如嘴巴長什么樣子肥败,眼睛是雙眼皮還是單眼皮,是大眼睛還是小眼睛,皮膚是黑色的還是白色的等拙吉。JScript 表示人的技能潮孽,例如跳舞揪荣、唱歌或者演奏樂器等筷黔。
寫一個簡單的 HTML
通過編寫和修改 HTML,可以更好地理解 HTML仗颈。首先打開一個記事本佛舱,然后輸入下面的內容:
<html>
<head>
<title> Python 3 爬蟲與數據清洗入門與實戰(zhàn)</title>
</head>
<body>
<div>
<p>Python 3爬蟲與數據清洗入門與實戰(zhàn)</p>
</div>
<div>
<ul>
<li><a >爬蟲</a></li>
<li>數據清洗</li>
</ul>
</div>
</body>
輸入代碼后,保存記事本挨决,然后修改文件名和后綴名為"HTML.html"请祖;
運行該文件后的效果,如圖 2 所示脖祈。
圖 2
這段代碼只是用到了 HTML肆捕,讀者可以自行修改代碼中的中文,然后觀察其變化盖高。
關于爬蟲的合法性
幾乎每一個網站都有一個名為 robots.txt 的文檔慎陵,當然也有部分網站沒有設定 robots.txt。對于沒有設定 robots.txt 的網站可以通過網絡爬蟲獲取沒有口令加密的數據喻奥,也就是該網站所有頁面數據都可以爬取席纽。如果網站有 robots.txt 文檔,就要判斷是否有禁止訪客獲取的數據撞蚕。
以淘寶網為例润梯,在瀏覽器中訪問 https://www.taobao.com/robots.txt,如圖 3 所示甥厦。
圖 3 淘寶網的robots.txt文件內容
淘寶網允許部分爬蟲訪問它的部分路徑纺铭,而對于沒有得到允許的用戶,則全部禁止爬取刀疙,代碼如下:
User-Agent:*
Disallow:/
這一句代碼的意思是除前面指定的爬蟲外彤蔽,不允許其他爬蟲爬取任何數據。
使用 requests 庫請求網站
安裝 requests 庫
首先在 PyCharm 中安裝 requests 庫庙洼,為此打開 PyCharm顿痪,單擊“File”(文件)菜單,選擇“Setting for New Projects...”命令油够,如圖 4 所示蚁袭。
圖 4
選擇“Project Interpreter”(項目編譯器)命令,確認當前選擇的編譯器石咬,然后單擊右上角的加號揩悄,如圖 5 所示。
圖 5
在搜索框輸入:requests(注意鬼悠,一定要輸入完整删性,不然容易出錯)亏娜,然后單擊左下角的“Install Package”(安裝庫)按鈕。如圖 6 所示:
圖 6
安裝完成后蹬挺,會在 Install Package 上顯示“Package‘requests’ installed successfully”(庫的請求已成功安裝)维贺,如圖 7 所示;如果安裝不成功將會顯示提示信息巴帮。
圖 7 安裝成功
爬蟲的基本原理
網頁請求的過程分為兩個環(huán)節(jié):
- Request (請求):每一個展示在用戶面前的網頁都必須經過這一步溯泣,也就是向服務器發(fā)送訪問請求。
- Response(響應):服務器在接收到用戶的請求后榕茧,會驗證請求的有效性垃沦,然后向用戶(客戶端)發(fā)送響應的內容,客戶端接收服務器響應的內容用押,將內容展示出來肢簿,就是我們所熟悉的網頁請求,如圖 8 所示蜻拨。
圖 8 Response相應
網頁請求的方式也分為兩種:
- GET:最常見的方式池充,一般用于獲取或者查詢資源信息,也是大多數網站使用的方式官觅,響應速度快纵菌。
- POST:相比 GET 方式,多了以表單形式上傳參數的功能休涤,因此除查詢信息外咱圆,還可以修改信息。
所以功氨,在寫爬蟲前要先確定向誰發(fā)送請求仇味,用什么方式發(fā)送赘艳。
使用 GET 方式抓取數據
復制任意一條首頁首條新聞的標題,在源碼頁面按【Ctrl+F】組合鍵調出搜索框,將標題粘貼在搜索框中嘶朱,然后按【Enter】鍵嚼吞。
如圖 8 所示草慧,標題可以在源碼中搜索到卷哩,請求對象是www.cntour.cn,請求方式是GET(所有在源碼中的數據請求方式都是GET)桶错,如圖 9 所示航唆。
圖 9(點此查看高清大圖)
確定好請求對象和方式后,在 PyCharm 中輸入以下代碼:
<pre class="python sh_python snippet-formatted sh_sourceCode" style="margin: 0px; display: block; padding: 0px; font-size: 14px; line-height: 1.6em; color: rgb(102, 102, 102); white-space: pre-wrap; overflow-wrap: break-word; background: none; border: none; border-radius: 0px;">
- import requests #導入requests包
- url = 'http://www.cntour.cn/'
- strhtml = requests.get(url) #Get方式獲取網頁數據
- print(strhtml.text)
</pre>
運行結果如圖 10 所示:
圖 10 運行結果效果圖(點此查看高清大圖)
加載庫使用的語句是 import+庫的名字院刁。在上述過程中糯钙,加載 requests 庫的語句是:import requests。
用 GET 方式獲取數據需要調用 requests 庫中的 get 方法,使用方法是在 requests 后輸入英文點號任岸,如下所示:
requests.get
將獲取到的數據存到 strhtml 變量中再榄,代碼如下:
strhtml = request.get(url)
這個時候 strhtml 是一個 URL 對象,它代表整個網頁享潜,但此時只需要網頁中的源碼困鸥,下面的語句表示網頁源碼:
strhtml.text
使用 POST 方式抓取數據
首先輸入有道翻譯的網址:http://fanyi.youdao.com/,進入有道翻譯頁面米碰。
按快捷鍵 F12窝革,進入開發(fā)者模式购城,單擊 Network吕座,此時內容為空,如圖 11 所示:
圖 11
在有道翻譯中輸入“我愛中國”瘪板,單擊“翻譯”按鈕吴趴,如圖 12 所示:
圖 12
在開發(fā)者模式中,依次單擊“Network”按鈕和“XHR”按鈕侮攀,找到翻譯數據锣枝,如圖 13 所示:
圖 13
單擊 Headers,發(fā)現請求數據的方式為 POST兰英。如圖 14 所示:
圖 14
找到數據所在之處并且明確請求方式之后撇叁,接下來開始撰寫爬蟲。
首先畦贸,將 Headers 中的 URL 復制出來陨闹,并賦值給 url,代碼如下:
url = 'http://fanyi.youdao.com/translate_o?smartresult=dict&smartresult=rule'
POST 的請求獲取數據的方式不同于 GET薄坏,POST 請求數據必須構建請求頭才可以趋厉。
Form Data 中的請求參數如圖 15 所示:
圖 15
將其復制并構建一個新字典:
From_data={'i':'我愛中國','from':'zh-CHS','to':'en','smartresult':'dict','client':'fanyideskweb','salt':'15477056211258','sign':'b3589f32c38bc9e3876a570b8a992604','ts':'1547705621125','bv':'b33a2f3f9d09bde064c9275bcb33d94e','doctype':'json','version':'2.1','keyfrom':'fanyi.web','action':'FY_BY_REALTIME','typoResult':'false'}
接下來使用 requests.post 方法請求表單數據,代碼如下:
import requests #導入requests包
response = requests.post(url,data=payload)
將字符串格式的數據轉換成 JSON 格式數據胶坠,并根據數據結構君账,提取數據,并將翻譯結果打印出來沈善,代碼如下:
<pre class="python sh_python snippet-formatted sh_sourceCode" style="margin: 0px; display: block; padding: 0px; font-size: 14px; line-height: 1.6em; color: rgb(102, 102, 102); white-space: pre-wrap; overflow-wrap: break-word; background: none; border: none; border-radius: 0px;">
- import json
- content = json.loads(response.text)
- print(content['translateResult'][0][0]['tgt'])
</pre>
使用 requests.post 方法抓取有道翻譯結果的完整代碼如下:
<pre class="python sh_python snippet-formatted sh_sourceCode" style="margin: 0px; display: block; padding: 0px; font-size: 14px; line-height: 1.6em; color: rgb(102, 102, 102); white-space: pre-wrap; overflow-wrap: break-word; background: none; border: none; border-radius: 0px;">
- import requests #導入requests包
- import json
- def get_translate_date(word=None):
- url = 'http://fanyi.youdao.com/translate_o?smartresult=dict&smartresult=rule'
- From_data={'i':word,'from':'zh-CHS','to':'en','smartresult':'dict','client':'fanyideskweb','salt':'15477056211258','sign':'b3589f32c38bc9e3876a570b8a992604','ts':'1547705621125','bv':'b33a2f3f9d09bde064c9275bcb33d94e','doctype':'json','version':'2.1','keyfrom':'fanyi.web','action':'FY_BY_REALTIME','typoResult':'false'}
-
請求表單數據
- response = requests.post(url,data=From_data)
-
將Json格式字符串轉字典
- content = json.loads(response.text)
- print(content)
-
打印翻譯后的數據
-
print(content['translateResult'][0][0]['tgt'])
- if name=='main':
- get_translate_date('我愛中國')
</pre>
使用 Beautiful Soup 解析網頁
通過 requests 庫已經可以抓到網頁源碼乡数,接下來要從源碼中找到并提取數據。Beautiful Soup 是 python 的一個庫闻牡,其最主要的功能是從網頁中抓取數據净赴。Beautiful Soup 目前已經被移植到 bs4 庫中,也就是說在導入 Beautiful Soup 時需要先安裝 bs4 庫澈侠。
安裝 bs4 庫的方式如圖 16 所示:
圖 16
安裝好 bs4 庫以后劫侧,還需安裝 lxml 庫。如果我們不安裝 lxml 庫,就會使用 Python 默認的解析器烧栋。盡管 Beautiful Soup 既支持 Python 標準庫中的 HTML 解析器又支持一些第三方解析器写妥,但是 lxml 庫具有功能更加強大、速度更快的特點审姓,因此筆者推薦安裝 lxml 庫珍特。
安裝 Python 第三方庫后,輸入下面的代碼魔吐,即可開啟 Beautiful Soup 之旅:
<pre class="python sh_python snippet-formatted sh_sourceCode" style="margin: 0px; display: block; padding: 0px; font-size: 14px; line-height: 1.6em; color: rgb(102, 102, 102); white-space: pre-wrap; overflow-wrap: break-word; background: none; border: none; border-radius: 0px;">
- import requests #導入requests包
- from bs4 import BeautifulSoup
- url='http://www.cntour.cn/'
- strhtml=requests.get(url)
- soup=BeautifulSoup(strhtml.text,'lxml')
- data = soup.select('#main>div>div.mtop.firstMod.clearfix>div.centerBox>ul.newsList>li>a')
- print(data)
</pre>
代碼運行結果如圖 17 所示扎筒。
圖 17(點此查看高清大圖)
Beautiful Soup 庫能夠輕松解析網頁信息,它被集成在 bs4 庫中酬姆,需要時可以從 bs4 庫中調用嗜桌。其表達語句如下:
from bs4 import BeautifulSoup
首先,HTML 文檔將被轉換成 Unicode 編碼格式辞色,然后 Beautiful Soup 選擇最合適的解析器來解析這段文檔骨宠,此處指定 lxml 解析器進行解析。解析后便將復雜的 HTML 文檔轉換成樹形結構相满,并且每個節(jié)點都是 Python 對象层亿。這里將解析后的文檔存儲到新建的變量 soup 中,代碼如下:
soup=BeautifulSoup(strhtml.text,'lxml')
接下來用 select(選擇器)定位數據立美,定位數據時需要使用瀏覽器的開發(fā)者模式匿又,將鼠標光標停留在對應的數據位置并右擊,然后在快捷菜單中選擇“檢查”命令建蹄,如圖 18 所示:
圖 18
隨后在瀏覽器右側會彈出開發(fā)者界面碌更,右側高亮的代碼(參見圖 19(b))對應著左側高亮的數據文本(參見圖 19(a))。右擊右側高亮數據躲撰,在彈出的快捷菜單中選擇“Copy”?“Copy Selector”命令针贬,便可以自動復制路徑。
圖 19 復制路徑
將路徑粘貼在文檔中拢蛋,代碼如下:
main > div > div.mtop.firstMod.clearfix > div.centerBox > ul.newsList > li:nth-child(1) > a
由于這條路徑是選中的第一條的路徑桦他,而我們需要獲取所有的頭條新聞,因此將 li:nth-child(1)中冒號(包含冒號)后面的部分刪掉谆棱,代碼如下:
main > div > div.mtop.firstMod.clearfix > div.centerBox > ul.newsList > li > a
使用 soup.select 引用這個路徑快压,代碼如下:
data = soup.select('#main > div > div.mtop.firstMod.clearfix > div.centerBox > ul.newsList > li > a')
清洗和組織數據
至此,獲得了一段目標的 HTML 代碼垃瞧,但還沒有把數據提取出來蔫劣,接下來在 PyCharm 中輸入以下代碼:
<pre class="python sh_python snippet-formatted sh_sourceCode" style="margin: 0px; display: block; padding: 0px; font-size: 14px; line-height: 1.6em; color: rgb(102, 102, 102); white-space: pre-wrap; overflow-wrap: break-word; background: none; border: none; border-radius: 0px;">
- for item in data:
- result={
- 'title':item.get_text(),
- 'link':item.get('href')
- }
- print(result)
</pre>
代碼運行結果如圖 20 所示:
圖 20(點此查看高清大圖)
首先明確要提取的數據是標題和鏈接,標題在<a>標簽中个从,提取標簽的正文用 get_text() 方法脉幢。鏈接在<a>標簽的 href 屬性中歪沃,提取標簽中的 href 屬性用 get() 方法,在括號中指定要提取的屬性數據嫌松,即 get('href')沪曙。
從圖 20 中可以發(fā)現,文章的鏈接中有一個數字 ID萎羔。下面用正則表達式提取這個 ID液走。需要使用的正則符號如下:
\d匹配數字
+匹配前一個字符1次或多次
在 Python 中調用正則表達式時使用 re 庫,這個庫不用安裝贾陷,可以直接調用缘眶。在 PyCharm 中輸入以下代碼:
<pre class="python sh_python snippet-formatted sh_sourceCode" style="margin: 0px; display: block; padding: 0px; font-size: 14px; line-height: 1.6em; color: rgb(102, 102, 102); white-space: pre-wrap; overflow-wrap: break-word; background: none; border: none; border-radius: 0px;">
- import re
- for item in data:
- result={
- "title":item.get_text(),
- "link":item.get('href'),
- 'ID':re.findall('\d+',item.get('href'))
- }
- print(result)
</pre>
運行結果如圖 21 所示:
圖 21
這里使用 re 庫的 findall 方法,第一個參數表示正則表達式髓废,第二個參數表示要提取的文本巷懈。
爬蟲攻防戰(zhàn)
爬蟲是模擬人的瀏覽訪問行為,進行數據的批量抓取瓦哎。當抓取的數據量逐漸增大時砸喻,會給被訪問的服務器造成很大的壓力柔逼,甚至有可能崩潰蒋譬。換句話就是說,服務器是不喜歡有人抓取自己的數據的愉适。那么犯助,網站方面就會針對這些爬蟲者,采取一些反爬策略维咸。
服務器第一種識別爬蟲的方式就是通過檢查連接的 useragent 來識別到底是瀏覽器訪問剂买,還是代碼訪問的。如果是代碼訪問的話癌蓖,訪問量增大時瞬哼,服務器會直接封掉來訪 IP。
那么應對這種初級的反爬機制租副,我們應該采取何種舉措坐慰?
還是以前面創(chuàng)建好的爬蟲為例。在進行訪問時用僧,我們在開發(fā)者環(huán)境下不僅可以找到 URL结胀、Form Data,還可以在 Request headers 中構造瀏覽器的請求頭责循,封裝自己糟港。服務器識別瀏覽器訪問的方法就是判斷 keyword 是否為 Request headers 下的 User-Agent,如圖 22 所示院仿。
圖 22
因此秸抚,我們只需要構造這個請求頭的參數速和。創(chuàng)建請求頭部信息即可,代碼如下:
headers={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.110 Safari/537.36'}
response = request.get(url,headers=headers)
寫到這里剥汤,很多讀者會認為修改 User-Agent 很太簡單健芭。確實很簡單,但是正常人1秒看一個圖秀姐,而個爬蟲1秒可以抓取好多張圖慈迈,比如 1 秒抓取上百張圖,那么服務器的壓力必然會增大省有。也就是說痒留,如果在一個 IP 下批量訪問下載圖片,這個行為不符合正常人類的行為蠢沿,肯定要被封 IP伸头。
其原理也很簡單,就是統(tǒng)計每個IP的訪問頻率舷蟀,該頻率超過閾值恤磷,就會返回一個驗證碼,如果真的是用戶訪問的話野宜,用戶就會填寫扫步,然后繼續(xù)訪問,如果是代碼訪問的話匈子,就會被封 IP河胎。
這個問題的解決方案有兩個,第一個就是常用的增設延時虎敦,每 3 秒鐘抓取一次游岳,代碼如下:
import time
time.sleep(3)
但是,我們寫爬蟲的目的是為了高效批量抓取數據其徙,這里設置 3 秒鐘抓取一次胚迫,效率未免太低。其實唾那,還有一個更重要的解決辦法访锻,那就是從本質上解決問題。
不管如何訪問通贞,服務器的目的就是查出哪些為代碼訪問朗若,然后封鎖 IP。解決辦法:為避免被封 IP昌罩,在數據采集時經常會使用代理哭懈。當然,requests 也有相應的 proxies 屬性茎用。
首先遣总,構建自己的代理 IP 池睬罗,將其以字典的形式賦值給 proxies,然后傳輸給 requests旭斥,代碼如下:
<pre class="python sh_python snippet-formatted sh_sourceCode" style="margin: 0px; display: block; padding: 0px; font-size: 14px; line-height: 1.6em; color: rgb(102, 102, 102); white-space: pre-wrap; overflow-wrap: break-word; background: none; border: none; border-radius: 0px;">
- proxies={
- "http":"http://10.10.1.10:3128",
- "https":"http://10.10.1.10:1080",
- }
- response = requests.get(url, proxies=proxies)
</pre>
擴展閱讀
本文僅對 Python 爬蟲及實現過程做了簡明扼要地介紹容达,僅能使初學者對 python 爬蟲有一個淺顯的認識,并不能讓你完全掌握 Python 爬蟲垂券。如果您想全面的學習 Python 爬蟲的相關知識花盐,可以跳轉至《Python爬蟲教程入門到精通》進行學習。