Python爬蟲入門教程：簡單易學Python爬蟲教程（知乎高贊）

這是一篇詳細介紹 Python 爬蟲入門的教程，從實戰(zhàn)出發(fā)，適合初學者。讀者只需在閱讀過程緊跟文章思路，理清相應的實現代碼喳张，30 分鐘即可學會編寫簡單的 Python 爬蟲。

這篇 Python 爬蟲教程主要講解以下 5 部分內容：

了解網頁美澳；
使用 requests 庫抓取網站數據销部；
使用 Beautiful Soup 解析網頁；
清洗和組織數據制跟；
爬蟲攻防戰(zhàn)柴墩；

了解網頁

以中國旅游網首頁（http://www.cntour.cn/）為例，抓取中國旅游網首頁首條信息（標題和鏈接）凫岖，數據以明文的形式出面在源碼中江咳。在中國旅游網首頁，按快捷鍵【Ctrl+U】打開源碼頁面哥放，如圖 1 所示歼指。

圖 1 中國旅游網首頁源碼

認識網頁結構

網頁一般由三部分組成，分別是 HTML（超文本標記語言）甥雕、CSS（層疊樣式表）和 JScript（活動腳本語言）踩身。

HTML

HTML 是整個網頁的結構，相當于整個網站的框架社露。帶“＜”挟阻、“＞”符號的都是屬于 HTML 的標簽，并且標簽都是成對出現的峭弟。

常見的標簽如下：

<html>..</html> 表示標記中間的元素是網頁
<body>..</body> 表示用戶可見的內容
<div>..</div> 表示框架
<p>..</p> 表示段落
<li>..</li>表示列表
<img>..</img>表示圖片
<h1>..</h1>表示標題
<a href="">..</a>表示超鏈接

CSS

CSS 表示樣式附鸽，圖 1 中第 13 行＜style type=＂text/css＂＞表示下面引用一個 CSS，在 CSS 中定義了外觀瞒瘸。

JScript

JScript 表示功能坷备。交互的內容和各種特效都在 JScript 中，JScript 描述了網站中的各種功能情臭。

如果用人體來比喻省撑，HTML 是人的骨架，并且定義了人的嘴巴俯在、眼睛竟秫、耳朵等要長在哪里。CSS 是人的外觀細節(jié)跷乐，如嘴巴長什么樣子肥败，眼睛是雙眼皮還是單眼皮，是大眼睛還是小眼睛，皮膚是黑色的還是白色的等拙吉。JScript 表示人的技能潮孽，例如跳舞揪荣、唱歌或者演奏樂器等筷黔。

寫一個簡單的 HTML

通過編寫和修改 HTML，可以更好地理解 HTML仗颈。首先打開一個記事本佛舱，然后輸入下面的內容：

<html>
<head>
<title> Python 3 爬蟲與數據清洗入門與實戰(zhàn)</title>
</head>
<body>
<div>
<p>Python 3爬蟲與數據清洗入門與實戰(zhàn)</p>
</div>
<div>
<ul>
<li><a >爬蟲</a></li>
<li>數據清洗</li>
</ul>
</div>
</body>

輸入代碼后，保存記事本挨决，然后修改文件名和后綴名為"HTML.html"请祖；

運行該文件后的效果，如圖 2 所示脖祈。

image

圖 2

這段代碼只是用到了 HTML肆捕，讀者可以自行修改代碼中的中文，然后觀察其變化盖高。

關于爬蟲的合法性

幾乎每一個網站都有一個名為 robots.txt 的文檔慎陵，當然也有部分網站沒有設定 robots.txt。對于沒有設定 robots.txt 的網站可以通過網絡爬蟲獲取沒有口令加密的數據喻奥，也就是該網站所有頁面數據都可以爬取席纽。如果網站有 robots.txt 文檔，就要判斷是否有禁止訪客獲取的數據撞蚕。

以淘寶網為例润梯，在瀏覽器中訪問 https://www.taobao.com/robots.txt，如圖 3 所示甥厦。

image

圖 3 淘寶網的robots.txt文件內容

淘寶網允許部分爬蟲訪問它的部分路徑纺铭，而對于沒有得到允許的用戶，則全部禁止爬取刀疙，代碼如下：

User-Agent:*
Disallow:/

這一句代碼的意思是除前面指定的爬蟲外彤蔽，不允許其他爬蟲爬取任何數據。

使用 requests 庫請求網站

安裝 requests 庫

首先在 PyCharm 中安裝 requests 庫庙洼，為此打開 PyCharm顿痪，單擊“File”（文件）菜單，選擇“Setting for New Projects...”命令油够，如圖 4 所示蚁袭。

image

圖 4

選擇“Project Interpreter”（項目編譯器）命令，確認當前選擇的編譯器石咬，然后單擊右上角的加號揩悄，如圖 5 所示。

image

圖 5

在搜索框輸入：requests（注意鬼悠，一定要輸入完整删性，不然容易出錯）亏娜，然后單擊左下角的“Install Package”（安裝庫）按鈕。如圖 6 所示：

image

圖 6

安裝完成后蹬挺，會在 Install Package 上顯示“Package‘requests’ installed successfully”（庫的請求已成功安裝）维贺，如圖 7 所示；如果安裝不成功將會顯示提示信息巴帮。

image

圖 7 安裝成功

爬蟲的基本原理

網頁請求的過程分為兩個環(huán)節(jié)：

Request （請求）：每一個展示在用戶面前的網頁都必須經過這一步溯泣，也就是向服務器發(fā)送訪問請求。
Response（響應）：服務器在接收到用戶的請求后榕茧，會驗證請求的有效性垃沦，然后向用戶（客戶端）發(fā)送響應的內容，客戶端接收服務器響應的內容用押，將內容展示出來肢簿，就是我們所熟悉的網頁請求，如圖 8 所示蜻拨。

圖 8 Response相應

網頁請求的方式也分為兩種：

GET：最常見的方式池充，一般用于獲取或者查詢資源信息，也是大多數網站使用的方式官觅，響應速度快纵菌。
POST：相比 GET 方式，多了以表單形式上傳參數的功能休涤，因此除查詢信息外咱圆，還可以修改信息。

所以功氨，在寫爬蟲前要先確定向誰發(fā)送請求仇味，用什么方式發(fā)送赘艳。

使用 GET 方式抓取數據

復制任意一條首頁首條新聞的標題，在源碼頁面按【Ctrl+F】組合鍵調出搜索框，將標題粘貼在搜索框中嘶朱，然后按【Enter】鍵嚼吞。

如圖 8 所示草慧，標題可以在源碼中搜索到卷哩，請求對象是www.cntour.cn，請求方式是GET（所有在源碼中的數據請求方式都是GET）桶错，如圖 9 所示航唆。

圖 9（點此查看高清大圖）

確定好請求對象和方式后，在 PyCharm 中輸入以下代碼：

import requests #導入requests包
url = 'http://www.cntour.cn/'
strhtml = requests.get(url) #Get方式獲取網頁數據
print(strhtml.text)

</pre>

運行結果如圖 10 所示：

圖 10 運行結果效果圖（點此查看高清大圖）

加載庫使用的語句是 import+庫的名字院刁。在上述過程中糯钙，加載 requests 庫的語句是：import requests。

用 GET 方式獲取數據需要調用 requests 庫中的 get 方法，使用方法是在 requests 后輸入英文點號任岸，如下所示：

requests.get

將獲取到的數據存到 strhtml 變量中再榄，代碼如下：

strhtml = request.get(url)

這個時候 strhtml 是一個 URL 對象，它代表整個網頁享潜，但此時只需要網頁中的源碼困鸥，下面的語句表示網頁源碼：

strhtml.text

使用 POST 方式抓取數據

首先輸入有道翻譯的網址：http://fanyi.youdao.com/，進入有道翻譯頁面米碰。

按快捷鍵 F12窝革，進入開發(fā)者模式购城，單擊 Network吕座，此時內容為空，如圖 11 所示：

圖 11

在有道翻譯中輸入“我愛中國”瘪板，單擊“翻譯”按鈕吴趴，如圖 12 所示：

圖 12

在開發(fā)者模式中，依次單擊“Network”按鈕和“XHR”按鈕侮攀，找到翻譯數據锣枝，如圖 13 所示：

圖 13

單擊 Headers，發(fā)現請求數據的方式為 POST兰英。如圖 14 所示：

圖 14

找到數據所在之處并且明確請求方式之后撇叁，接下來開始撰寫爬蟲。

首先畦贸，將 Headers 中的 URL 復制出來陨闹，并賦值給 url，代碼如下：

url = 'http://fanyi.youdao.com/translate_o?smartresult=dict&smartresult=rule'

POST 的請求獲取數據的方式不同于 GET薄坏，POST 請求數據必須構建請求頭才可以趋厉。

Form Data 中的請求參數如圖 15 所示：

圖 15

將其復制并構建一個新字典：

From_data={'i':'我愛中國','from':'zh-CHS','to':'en','smartresult':'dict','client':'fanyideskweb','salt':'15477056211258','sign':'b3589f32c38bc9e3876a570b8a992604','ts':'1547705621125','bv':'b33a2f3f9d09bde064c9275bcb33d94e','doctype':'json','version':'2.1','keyfrom':'fanyi.web','action':'FY_BY_REALTIME','typoResult':'false'}

接下來使用 requests.post 方法請求表單數據，代碼如下：

import requests #導入requests包
response = requests.post(url,data=payload)

將字符串格式的數據轉換成 JSON 格式數據胶坠，并根據數據結構君账，提取數據，并將翻譯結果打印出來沈善，代碼如下：

import json
content = json.loads(response.text)
print(content['translateResult'][0][0]['tgt'])

</pre>

使用 requests.post 方法抓取有道翻譯結果的完整代碼如下：

import requests #導入requests包
import json
def get_translate_date(word=None):
url = 'http://fanyi.youdao.com/translate_o?smartresult=dict&smartresult=rule'
From_data={'i':word,'from':'zh-CHS','to':'en','smartresult':'dict','client':'fanyideskweb','salt':'15477056211258','sign':'b3589f32c38bc9e3876a570b8a992604','ts':'1547705621125','bv':'b33a2f3f9d09bde064c9275bcb33d94e','doctype':'json','version':'2.1','keyfrom':'fanyi.web','action':'FY_BY_REALTIME','typoResult':'false'}
請求表單數據
response = requests.post(url,data=From_data)
將Json格式字符串轉字典
content = json.loads(response.text)
print(content)
打印翻譯后的數據
print(content['translateResult'][0][0]['tgt'])
if name=='main':
get_translate_date('我愛中國')

</pre>

使用 Beautiful Soup 解析網頁

通過 requests 庫已經可以抓到網頁源碼乡数，接下來要從源碼中找到并提取數據。Beautiful Soup 是 python 的一個庫闻牡，其最主要的功能是從網頁中抓取數據净赴。Beautiful Soup 目前已經被移植到 bs4 庫中，也就是說在導入 Beautiful Soup 時需要先安裝 bs4 庫澈侠。

安裝 bs4 庫的方式如圖 16 所示:

圖 16

安裝好 bs4 庫以后劫侧，還需安裝 lxml 庫。如果我們不安裝 lxml 庫，就會使用 Python 默認的解析器烧栋。盡管 Beautiful Soup 既支持 Python 標準庫中的 HTML 解析器又支持一些第三方解析器写妥，但是 lxml 庫具有功能更加強大、速度更快的特點审姓，因此筆者推薦安裝 lxml 庫珍特。

安裝 Python 第三方庫后，輸入下面的代碼魔吐，即可開啟 Beautiful Soup 之旅：

import requests #導入requests包
from bs4 import BeautifulSoup
url='http://www.cntour.cn/'
strhtml=requests.get(url)
soup=BeautifulSoup(strhtml.text,'lxml')
data = soup.select('#main>div>div.mtop.firstMod.clearfix>div.centerBox>ul.newsList>li>a')
print(data)

</pre>

代碼運行結果如圖 17 所示扎筒。

圖 17（點此查看高清大圖）

Beautiful Soup 庫能夠輕松解析網頁信息，它被集成在 bs4 庫中酬姆，需要時可以從 bs4 庫中調用嗜桌。其表達語句如下：

from bs4 import BeautifulSoup

首先，HTML 文檔將被轉換成 Unicode 編碼格式辞色，然后 Beautiful Soup 選擇最合適的解析器來解析這段文檔骨宠，此處指定 lxml 解析器進行解析。解析后便將復雜的 HTML 文檔轉換成樹形結構相满，并且每個節(jié)點都是 Python 對象层亿。這里將解析后的文檔存儲到新建的變量 soup 中，代碼如下：

soup=BeautifulSoup(strhtml.text,'lxml')

接下來用 select（選擇器）定位數據立美，定位數據時需要使用瀏覽器的開發(fā)者模式匿又，將鼠標光標停留在對應的數據位置并右擊，然后在快捷菜單中選擇“檢查”命令建蹄，如圖 18 所示：

圖 18

隨后在瀏覽器右側會彈出開發(fā)者界面碌更，右側高亮的代碼（參見圖 19(b)）對應著左側高亮的數據文本（參見圖 19(a)）。右擊右側高亮數據躲撰，在彈出的快捷菜單中選擇“Copy”?“Copy Selector”命令针贬，便可以自動復制路徑。

圖 19 復制路徑

將路徑粘貼在文檔中拢蛋，代碼如下:

main > div > div.mtop.firstMod.clearfix > div.centerBox > ul.newsList > li:nth-child(1) > a

由于這條路徑是選中的第一條的路徑桦他，而我們需要獲取所有的頭條新聞，因此將 li：nth-child（1）中冒號（包含冒號）后面的部分刪掉谆棱，代碼如下：

main > div > div.mtop.firstMod.clearfix > div.centerBox > ul.newsList > li > a

使用 soup.select 引用這個路徑快压，代碼如下：

data = soup.select('#main > div > div.mtop.firstMod.clearfix > div.centerBox > ul.newsList > li > a')

清洗和組織數據

至此，獲得了一段目標的 HTML 代碼垃瞧，但還沒有把數據提取出來蔫劣，接下來在 PyCharm 中輸入以下代碼：

for item in data:
result={
'title':item.get_text(),
'link':item.get('href')
}
print(result)

</pre>

代碼運行結果如圖 20 所示：

圖 20（點此查看高清大圖）

首先明確要提取的數據是標題和鏈接，標題在＜a＞標簽中个从，提取標簽的正文用 get_text() 方法脉幢。鏈接在＜a＞標簽的 href 屬性中歪沃，提取標簽中的 href 屬性用 get() 方法，在括號中指定要提取的屬性數據嫌松，即 get(＇href＇)沪曙。

從圖 20 中可以發(fā)現，文章的鏈接中有一個數字 ID萎羔。下面用正則表達式提取這個 ID液走。需要使用的正則符號如下:

\d匹配數字
+匹配前一個字符1次或多次

在 Python 中調用正則表達式時使用 re 庫，這個庫不用安裝贾陷，可以直接調用缘眶。在 PyCharm 中輸入以下代碼:

import re
for item in data:
result={
"title":item.get_text(),
"link":item.get('href'),
'ID':re.findall('\d+',item.get('href'))
}
print(result)

</pre>

運行結果如圖 21 所示：

圖 21

這里使用 re 庫的 findall 方法，第一個參數表示正則表達式髓废，第二個參數表示要提取的文本巷懈。

爬蟲攻防戰(zhàn)

爬蟲是模擬人的瀏覽訪問行為，進行數據的批量抓取瓦哎。當抓取的數據量逐漸增大時砸喻，會給被訪問的服務器造成很大的壓力柔逼，甚至有可能崩潰蒋譬。換句話就是說，服務器是不喜歡有人抓取自己的數據的愉适。那么犯助，網站方面就會針對這些爬蟲者，采取一些反爬策略维咸。

服務器第一種識別爬蟲的方式就是通過檢查連接的 useragent 來識別到底是瀏覽器訪問剂买，還是代碼訪問的。如果是代碼訪問的話癌蓖，訪問量增大時瞬哼，服務器會直接封掉來訪 IP。

那么應對這種初級的反爬機制租副，我們應該采取何種舉措坐慰？

還是以前面創(chuàng)建好的爬蟲為例。在進行訪問時用僧，我們在開發(fā)者環(huán)境下不僅可以找到 URL结胀、Form Data，還可以在 Request headers 中構造瀏覽器的請求頭责循，封裝自己糟港。服務器識別瀏覽器訪問的方法就是判斷 keyword 是否為 Request headers 下的 User-Agent，如圖 22 所示院仿。

圖 22

因此秸抚，我們只需要構造這個請求頭的參數速和。創(chuàng)建請求頭部信息即可，代碼如下：

headers={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.110 Safari/537.36'}
response = request.get(url,headers=headers)

寫到這里剥汤，很多讀者會認為修改 User-Agent 很太簡單健芭。確實很簡單，但是正常人1秒看一個圖秀姐，而個爬蟲1秒可以抓取好多張圖慈迈，比如 1 秒抓取上百張圖，那么服務器的壓力必然會增大省有。也就是說痒留，如果在一個 IP 下批量訪問下載圖片，這個行為不符合正常人類的行為蠢沿，肯定要被封 IP伸头。

其原理也很簡單，就是統(tǒng)計每個IP的訪問頻率舷蟀，該頻率超過閾值恤磷，就會返回一個驗證碼，如果真的是用戶訪問的話野宜，用戶就會填寫扫步，然后繼續(xù)訪問，如果是代碼訪問的話匈子，就會被封 IP河胎。

這個問題的解決方案有兩個，第一個就是常用的增設延時虎敦，每 3 秒鐘抓取一次游岳，代碼如下：

import time
time.sleep(3)

但是，我們寫爬蟲的目的是為了高效批量抓取數據其徙，這里設置 3 秒鐘抓取一次胚迫，效率未免太低。其實唾那，還有一個更重要的解決辦法访锻，那就是從本質上解決問題。

不管如何訪問通贞，服務器的目的就是查出哪些為代碼訪問朗若，然后封鎖 IP。解決辦法：為避免被封 IP昌罩，在數據采集時經常會使用代理哭懈。當然，requests 也有相應的 proxies 屬性茎用。

首先遣总，構建自己的代理 IP 池睬罗，將其以字典的形式賦值給 proxies，然后傳輸給 requests旭斥，代碼如下：

proxies={
"http":"http://10.10.1.10:3128",
"https":"http://10.10.1.10:1080",
}
response = requests.get(url, proxies=proxies)

</pre>

擴展閱讀

本文僅對 Python 爬蟲及實現過程做了簡明扼要地介紹容达，僅能使初學者對 python 爬蟲有一個淺顯的認識，并不能讓你完全掌握 Python 爬蟲垂券。如果您想全面的學習 Python 爬蟲的相關知識花盐，可以跳轉至《Python爬蟲教程入門到精通》進行學習。

?著作權歸作者所有,轉載或內容合作請聯系作者

人面猴
序言：七十年代末菇爪，一起剝皮案震驚了整個濱河市算芯，隨后出現的幾起案子，更是在濱河造成了極大的恐慌凳宙，老刑警劉巖熙揍，帶你破解...
沈念sama閱讀 218,941評論 6贊 508
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現場離奇詭異氏涩，居然都是意外死亡届囚，警方通過查閱死者的電腦和手機，發(fā)現死者居然都...
沈念sama閱讀 93,397評論 3贊 395
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門是尖，熙熙樓的掌柜王于貴愁眉苦臉地迎上來意系，“玉大人，你說我怎么就攤上這事析砸∥糇郑” “怎么了？”我有些...
開封第一講書人閱讀 165,345評論 0贊 356
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵首繁，是天一觀的道長。經常有香客問我陨囊，道長弦疮，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 58,851評論 1贊 295
?港島之戀（遺憾婚禮）
正文為了忘掉前任蜘醋，我火速辦了婚禮胁塞，結果婚禮上，老公的妹妹穿的比我還像新娘压语。我一直安慰自己啸罢，他們只是感情好，可當我...
茶點故事閱讀 67,868評論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布胎食。她就那樣靜靜地躺著扰才，像睡著了一般。火紅的嫁衣襯著肌膚如雪厕怜。梳的紋絲不亂的頭發(fā)上衩匣，一...
開封第一講書人閱讀 51,688評論 1贊 305
城市分裂傳說
那天蕾总，我揣著相機與錄音，去河邊找鬼琅捏。笑死生百，一個胖子當著我的面吹牛，可吹牛的內容都是我干的柄延。我是一名探鬼主播蚀浆，決...
沈念sama閱讀 40,414評論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼搜吧！你這毒婦竟也來了蜡坊？” 一聲冷哼從身側響起，我...
開封第一講書人閱讀 39,319評論 0贊 276
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤赎败，失蹤者是張志新（化名）和其女友劉穎秕衙，沒想到半個月后，有當地人在樹林里發(fā)現了一具尸體僵刮，經...
沈念sama閱讀 45,775評論 1贊 315
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡据忘，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內容為張勛視角年9月15日...
茶點故事閱讀 37,945評論 3贊 336
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時候發(fā)現自己被綠了搞糕。大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點故事閱讀 40,096評論 1贊 350
活死人
序言：一個原本活蹦亂跳的男人離奇死亡窍仰，死狀恐怖汉规，靈堂內的尸體忽然破棺而出，到底是詐尸還是另有隱情驹吮，我是刑警寧澤针史，帶...
沈念sama閱讀 35,789評論 5贊 346
?日本核電站爆炸內幕
正文年R本政府宣布，位于F島的核電站碟狞，受9級特大地震影響啄枕，放射性物質發(fā)生泄漏。R本人自食惡果不足惜族沃，卻給世界環(huán)境...
茶點故事閱讀 41,437評論 3贊 331
男人毒藥：我在死后第九天來索命
文/蒙蒙一频祝、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧脆淹，春花似錦常空、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,993評論 0贊 22
一樁弒父案漓糙，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至咐柜，卻和暖如春兼蜈，著一層夾襖步出監(jiān)牢的瞬間攘残，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 33,107評論 1贊 271
情欲美人皮
我被黑心中介騙來泰國打工为狸，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留歼郭，地道東北人。一個月前我還...
沈念sama閱讀 48,308評論 3贊 372
代替公主和親
正文我出身青樓辐棒，卻偏偏與公主長得像病曾，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子漾根，可洞房花燭夜當晚...
茶點故事閱讀 45,037評論 2贊 355

Python爬蟲入門教程：簡單易學Python爬蟲教程（知乎高贊）

了解網頁

認識網頁結構

HTML

CSS

JScript

寫一個簡單的 HTML

關于爬蟲的合法性

使用 requests 庫請求網站

安裝 requests 庫

爬蟲的基本原理

使用 GET 方式抓取數據

使用 POST 方式抓取數據

請求表單數據

將Json格式字符串轉字典

打印翻譯后的數據

print(content['translateResult'][0][0]['tgt'])

使用 Beautiful Soup 解析網頁

main > div > div.mtop.firstMod.clearfix > div.centerBox > ul.newsList > li:nth-child(1) > a

main > div > div.mtop.firstMod.clearfix > div.centerBox > ul.newsList > li > a

清洗和組織數據

爬蟲攻防戰(zhàn)

擴展閱讀

推薦閱讀更多精彩內容