Python爬蟲入門實(shí)戰(zhàn)之貓眼電影數(shù)據(jù)抓取(理論篇)

前言

本文可能篇幅較長安疗，但是絕對(duì)干貨滿滿并徘，提供了大量的學(xué)習(xí)資源和途徑。達(dá)到讓讀者獨(dú)立自主的編寫基礎(chǔ)網(wǎng)絡(luò)爬蟲的目標(biāo)彤避，這也是本文的主旨傅物，輸出有價(jià)值能夠真正幫助到讀者的知識(shí)，即授人以魚不如授人以漁琉预，讓我們直接立刻開始吧董饰，本文包含以下內(nèi)容：

Python環(huán)境搭建與基礎(chǔ)知識(shí)
爬蟲原理概述
爬蟲技術(shù)概覽
貓眼電影排行數(shù)據(jù)抓取
Ajax數(shù)據(jù)爬取貓眼電影票房
更多進(jìn)階，代理圆米、模擬登陸卒暂、APP 爬取等…..

Python環(huán)境搭建與基礎(chǔ)知識(shí)

Python環(huán)境搭建

Anaconda安裝

此處筆者并不會(huì)介紹Python軟件的安裝，有讀者可能會(huì)疑問Python都不安裝娄帖，我怎么學(xué)習(xí)先進(jìn)的Python知識(shí)呢也祠？不要著急，此處筆者介紹了一種新的Python快速安裝方式近速，即直接安裝Anaconda诈嘿，Anaconda是什么呢？　　Anaconda 是一個(gè)Python的發(fā)行版削葱，包括了Python和很多常見的Python庫, 和一個(gè)包管理器cond奖亚，Anaconda是專注于數(shù)據(jù)分析的Python發(fā)行版本，包含了conda析砸、Python等720多個(gè)科學(xué)包及其依賴項(xiàng)昔字，適用于企業(yè)級(jí)大數(shù)據(jù)分析的Python工具。在數(shù)據(jù)可視化首繁、機(jī)器學(xué)習(xí)作郭、深度學(xué)習(xí)等多方面都有涉及。不僅可以做數(shù)據(jù)分析蛮瞄，甚至可以用在大數(shù)據(jù)和人工智能領(lǐng)域所坯。有讀者可能會(huì)疑問這和爬蟲有什么關(guān)系呢谆扎，當(dāng)然有關(guān)系挂捅，在編寫爬蟲程序的過程中需要使用Python庫，而Anaconda就已經(jīng)包含這些經(jīng)常使用庫，這對(duì)安裝Python庫感到頭疼的讀者再好不過了闲先。當(dāng)然這一切都是免費(fèi)的状土，接下來我們就開始安裝美妙的Anaconda吧。　　首先從Anaconda官網(wǎng)下載對(duì)應(yīng)版本的Anaconda伺糠，如果下載速度過慢推薦使用國內(nèi)的清華大學(xué)開源軟件鏡像站選擇對(duì)應(yīng)的Anaconda下載蒙谓，Anaconda的官網(wǎng)下載頁面如下圖所示：

image

本文推薦下載Python3.6對(duì)應(yīng)的版本，以筆者為例電腦環(huán)境為：Windows-64Bit训桶，下載的對(duì)應(yīng)版本為：Anaconda3-5.2.0-Windows-x86_64累驮，下載完成后打開安裝包如下圖所示：

image

點(diǎn)擊 next

image

點(diǎn)擊 I Agree

image

選擇 Just Me ，點(diǎn)擊 next

image

選擇安裝目錄舵揭，點(diǎn)擊next

image

勾選 Add Anaconda to my PATH environment variable 谤专，然后點(diǎn)擊 install 安裝即可

IDE環(huán)境搭建

IDE筆者推薦使用Pycharm，其中免費(fèi)的社區(qū)版已經(jīng)能夠滿足我們的需求午绳，使用教程可以參考CSDN博客Pycharm簡(jiǎn)單使用教程置侍，或者直接在CSDN搜索pycharm教程獲取更多知識(shí)。此處可以詳細(xì)介紹下

1.1Python 基礎(chǔ)技術(shù)

我不會(huì)介紹過于基礎(chǔ)內(nèi)容拦焚，因?yàn)檫@些內(nèi)容互聯(lián)網(wǎng)上已經(jīng)大量免費(fèi)的基礎(chǔ)入門教程了蜡坊，但是筆者會(huì)給大家提供一些互聯(lián)網(wǎng)的免費(fèi)學(xué)習(xí)資源和方法，讓大家快速學(xué)會(huì)編寫爬蟲程序所需要的Python基礎(chǔ)知識(shí)和進(jìn)階知識(shí)赎败，而對(duì)于基礎(chǔ)的爬蟲我們需要掌握的Python知識(shí)有以下：

數(shù)據(jù)類型
列表
循環(huán)語句
判斷語句
函數(shù)

Python基礎(chǔ)

對(duì)于完全沒有Python基礎(chǔ)的讀者秕衙，可以學(xué)習(xí)下面的快速入門

Python3 教程 | 菜鳥教程
Python教程 | 廖雪峰的官方網(wǎng)站
Python 教程| 簡(jiǎn)明教程
Python教程?
笨辦法學(xué)Python | 看云
The Python Tutorial | Python 3.6.6 documentation

Python官方文檔，具有絕對(duì)的權(quán)威和全面僵刮，但是文檔本身是英文灾梦，所以對(duì)大部分初學(xué)者來說并不是很友好，下面是國人翻譯的Python版本妓笙，對(duì)英文感冒的讀者可以選擇該版本學(xué)習(xí):

Python 入門指南 | python tutorial 3.6.3 documentation 一些入門的書籍推薦
《Python編程從入門到實(shí)踐》
《Python基礎(chǔ)教程（第3版）》 Python進(jìn)階對(duì)于想要提升自己技術(shù)的讀者若河，接下的書籍和資料應(yīng)該是很符合你的胃口了：
The Python Standard Library
《Python CookBook 3》
《流暢的Python》
《Python學(xué)習(xí)手冊(cè)（第4版）》
《Python核心編程（第3版）》
《數(shù)據(jù)結(jié)構(gòu) Python語言描述》
《Python高性能編程》

爬蟲是什么

爬蟲原理

爬蟲是什么？爬蟲從本質(zhì)上說就是在模擬HTTP請(qǐng)求寞宫，記住這句話萧福，這就是我們后面經(jīng)常需要做的事情。一般用戶獲取網(wǎng)絡(luò)數(shù)據(jù)的方式有兩種：　　a. 瀏覽器提交HTTP請(qǐng)求--->下載網(wǎng)頁代碼--->解析成頁面辈赋。　　b. 模擬瀏覽器發(fā)送請(qǐng)求(獲取網(wǎng)頁代碼)->提取有用的數(shù)據(jù)->存放于數(shù)據(jù)庫或文件中鲫忍。　　爬蟲就是在做第二種事情，大致過程如下: 　　i. 通過HTTP庫向目標(biāo)站點(diǎn)發(fā)起請(qǐng)求钥屈，即發(fā)送一個(gè)Request悟民，請(qǐng)求可以包含額外的headers等信息，等待服務(wù)器的響應(yīng) 　　ii. 如果服務(wù)器正常響應(yīng)篷就，會(huì)得到一個(gè)Response射亏，Response的內(nèi)容便是所要獲取的頁面內(nèi)容，類型可能有HTML、JSON智润、二進(jìn)制文件（如圖片及舍、視頻等類型）。　　iii. 得到的內(nèi)容可能是HTML窟绷，可以用正則表達(dá)式锯玛、網(wǎng)頁解析庫進(jìn)行解析〖骝冢可能是JSON攘残，可以直接轉(zhuǎn)成JOSN對(duì)象進(jìn)行解析，可能是二進(jìn)制數(shù)據(jù)为狸，可以保存或者進(jìn)一步處理　　iv. 保存形式多樣肯腕，可以保存成文本，也可以保存至數(shù)據(jù)庫钥平，或者保存成特定格式的文件实撒。　　許多讀者可能不知道上面具體在做什么，那么接下來我們通過瀏覽器抓包分析上面的過程涉瘾，筆者推薦使用Chrome知态，對(duì)開發(fā)者很友好，后續(xù)我們會(huì)經(jīng)常使用到立叛，Chrome下載负敏，如果下載速度較慢，建議使用國內(nèi)Chrome鏡像下載安裝秘蛇。　　首先打開瀏覽器在地址欄輸入 https://www.baidu.com/ (讀者也可以使用其他網(wǎng)頁測(cè)試比如咱們的https://gitbook.cn/)其做，回車，百度頁面映面而來赁还，然后按下F12妖泄，瀏覽器開發(fā)者選項(xiàng)的快捷鍵，選擇Network欄目艘策，打開界面下圖所示：

image

按下F5刷新頁面：

image

欄目里面更新了大量的數(shù)據(jù)包蹈胡，這些包就是瀏覽器請(qǐng)求的數(shù)據(jù)，我們想要的數(shù)據(jù)就在這些請(qǐng)求里面

第一列Name:請(qǐng)求的名稱朋蔫，一般會(huì)將URL的最后一部分內(nèi)容當(dāng)作名稱罚渐。
第二列Status: 響應(yīng)的狀態(tài)碼，這里顯示為200驯妄，代表響應(yīng)是正常的荷并。通過狀態(tài)碼，我們可以判斷發(fā)送了請(qǐng)求之后是否得到了正常的響應(yīng)青扔。
第三列Type: 請(qǐng)求的文檔類型源织。這里為document, 代表我們這次請(qǐng)求的是一個(gè)HTML文檔,內(nèi)容就是一些HTML代碼翩伪。
第四列initiator: 請(qǐng)求源。用來標(biāo)記請(qǐng)求是由哪個(gè)對(duì)象或進(jìn)程發(fā)起的雀鹃。
第五列Size: 從服務(wù)器下載的文件和請(qǐng)求的資源大小。如果是從緩存中取得的資源励两，則該列會(huì)顯示from cache黎茎。
第六列Time:發(fā)起請(qǐng)求到獲取響應(yīng)所用的總時(shí)間。
第七列Waterfall:網(wǎng)絡(luò)請(qǐng)求的可視化瀑布流当悔。　　接下來我們分析請(qǐng)求的詳細(xì)組成傅瞻，比如點(diǎn)第一個(gè)請(qǐng)求即Name為www.baidu.com的請(qǐng)求，如下圖所示：

image

我們看到響應(yīng)中分General部分盲憎，請(qǐng)求頭嗅骄、響應(yīng)頭

General一般包含以下部分：

Request URL為請(qǐng)求的URL
Request Method為請(qǐng)求的方法
Status Code為響應(yīng)狀態(tài)碼，
Remote Address為遠(yuǎn)程服務(wù)器的地址和端口

Response Headers一般包含以下部分(響應(yīng)(服務(wù)端->客戶端[response]))：

HTTP/1.1為響應(yīng)采用的協(xié)議和版本號(hào) 200 (狀態(tài)碼) OK(描述信息)
Location為服務(wù)端需要客戶端訪問的頁面路徑
Server為服務(wù)端的Web服務(wù)端名
Content-Encoding為服務(wù)端能夠發(fā)送壓縮編碼類型
Content-Length為服務(wù)端發(fā)送的壓縮數(shù)據(jù)的長度
Content-Language為服務(wù)端發(fā)送的語言類型
Content-Type為服務(wù)端發(fā)送的類型及采用的編碼方式
Last-Modified為服務(wù)端對(duì)該資源最后修改的時(shí)間
Refresh為服務(wù)端要求客戶端1秒鐘后饼疙，刷新溺森，然后訪問指定的頁面路徑
Content-Disposition為服務(wù)端要求客戶端以下載文件的方式打開該文件
Transfer-Encoding為分塊傳遞數(shù)據(jù)到客戶端
Set-Cookie為服務(wù)端發(fā)送到客戶端的暫存數(shù)據(jù)
Connection為維護(hù)客戶端和服務(wù)端的連接關(guān)系

Request Headers 一般包含以下部分(請(qǐng)求(客戶端->服務(wù)端[request]))：

GET(請(qǐng)求的方式) /newcoder/hello.html(請(qǐng)求的目標(biāo)資源) HTTP/1.1(請(qǐng)求采用的協(xié)議和版本號(hào))
Accept為客戶端能接收的資源類型
Accept-Language為客戶端接收的語言類型
Connection為維護(hù)客戶端和服務(wù)端的連接關(guān)系
Host: localhost為連接的目標(biāo)主機(jī)和端口號(hào)
Referer告訴服務(wù)器我來自于哪里
User-Agent為客戶端版本號(hào)的名字
Accept-Encoding為客戶端能接收的壓縮數(shù)據(jù)的類型
If-Modified-Since為緩存時(shí)間
Cookie為客戶端暫存服務(wù)端的信息
Date為客戶端請(qǐng)求服務(wù)端的時(shí)間　　而我們需要做的就是模擬瀏覽器提交Requests Headers獲取服務(wù)器的響應(yīng)信息，從而得到我們想要的數(shù)據(jù)窑眯，想要深入了解的讀者請(qǐng)?jiān)L問HTTP | MDN文檔了解更多信息屏积。

爬蟲能抓什么樣的數(shù)據(jù)

在網(wǎng)頁中我們能看到各種各樣的信息，最常見的就是用戶能夠看到的網(wǎng)頁頁面磅甩，而通過瀏覽器的開發(fā)者工具對(duì)網(wǎng)頁請(qǐng)求進(jìn)行抓包時(shí)我們可以看見大量的請(qǐng)求炊林，即有些網(wǎng)頁返回的不是HTML代碼，可能是json字符串卷要，各種二級(jí)制數(shù)據(jù)渣聚，比如圖片、音頻僧叉、視頻等奕枝，當(dāng)然還有些是CSS、JavaScript等文件瓶堕。那么即瀏覽器能夠獲取的數(shù)據(jù)倍权，爬蟲程序都能獲取到，而瀏覽器的數(shù)據(jù)是翻譯給用戶看到的信息捞烟，即只要能夠在瀏覽器訪問到的信息薄声，爬蟲程序就都能夠抓取下來。

爬蟲技術(shù)概覽

^_:本節(jié)介紹爬蟲經(jīng)常使用到的技術(shù)题画，比如請(qǐng)求：requests默辨，信息提取：Xpath苍息，Re正則缩幸，json壹置，存儲(chǔ)：CSV，MySQL表谊， MongoDB钞护，模擬瀏覽器Selenium，保證在項(xiàng)目實(shí)戰(zhàn)中涉及的技術(shù)讀者都會(huì)爆办，也就是這里需要講清楚這些技術(shù)的使用方法难咕，

第一個(gè)請(qǐng)求

Requests庫

Requests庫，官方文檔是這樣描述：Requests 唯一的一個(gè)非轉(zhuǎn)基因的 Python HTTP 庫距辆，人類可以安全享用余佃。警告：非專業(yè)使用其他 HTTP 庫會(huì)導(dǎo)致危險(xiǎn)的副作用，包括：安全缺陷癥跨算、冗余代碼癥爆土、重新發(fā)明輪子癥、啃文檔癥诸蚕、抑郁步势、頭疼、甚至死亡背犯。　　Requests 是以 PEP 20 （即著名的Python之禪）的箴言為中心開發(fā)的立润，下面就是Requests的開發(fā)哲學(xué)，望讀者能夠細(xì)細(xì)品讀媳板，寫出更加Pythonic的代碼桑腮。

Beautiful is better than ugly.(美麗優(yōu)于丑陋) Explicit is better than implicit.(直白優(yōu)于含蓄) Simple is better than complex.(簡(jiǎn)單優(yōu)于復(fù)雜) Complex is better than complicated.(復(fù)雜優(yōu)于繁瑣) Readability counts.(可讀性很重要)

在2.1中我們談到爬蟲的原理就是進(jìn)行HTTP請(qǐng)求然后得到響應(yīng)，在響應(yīng)中提取我們想要的信息并保存蛉幸。而Requests庫就是利用Python模擬HTTP請(qǐng)求的利器破讨。如果讀者已經(jīng)安裝了Anaconda，那么Requests庫就已經(jīng)可用了奕纫，如果沒有Requests庫提陶，讀者可以在命令行中（win+R 輸入 cmd）pip install requests 安裝requests庫，接下來就開始我們的第一個(gè)請(qǐng)求吧匹层！　　使用Requests發(fā)送HTTP請(qǐng)求非常簡(jiǎn)單隙笆，接下來我們就以GitChat為例：

導(dǎo)入requests 模塊

import requests

發(fā)起Get請(qǐng)求并返回Response對(duì)象，包含服務(wù)器對(duì)HTTP請(qǐng)求的響應(yīng)

response = requests.get('https://gitbook.cn/')

打印響應(yīng)狀態(tài)碼

print(response.status_code)

打印 str類型的響應(yīng)體升筏，比如一個(gè)普通的 HTML 頁面撑柔，需要對(duì)文本進(jìn)一步分析時(shí)，使用 text

print(response.text)

</pre>

部分運(yùn)行的結(jié)果如下圖所示：

image

Requests不僅支持Get方式請(qǐng)求您访，比如Post請(qǐng)求：

導(dǎo)入 requests 模塊

import requests

需要提交的表單數(shù)據(jù)

data = {
'name': 'ruo', 'age': 22
}

發(fā)起Post請(qǐng)求

response = requests.post("http://httpbin.org/post", data=data)

響應(yīng)體內(nèi)容

print(response.text)

</pre>

部分運(yùn)行的結(jié)果如下圖所示：

image

當(dāng)然Requests還支持更多的請(qǐng)求方式铅忿，比如以下請(qǐng)求，筆者就不一一演示了灵汪，最常用的請(qǐng)求就是以上Get和Post兩種請(qǐng)求方式檀训。

PUT請(qǐng)求

requests.put(“http://httpbin.org/put”)

DELETE請(qǐng)求

requests.delete(“http://httpbin.org/delete”)

HEAD請(qǐng)求

requests.head(“http://httpbin.org/get”)

OPTIONS請(qǐng)求

requests.options(“http://httpbin.org/get”)

</pre>

由于大多數(shù)服務(wù)器都會(huì)通過請(qǐng)求頭中的User-Agent識(shí)別客戶端使用的操作系統(tǒng)及版本柑潦、瀏覽器及版本等信息，所以爬蟲程序也需要加上此信息峻凫，以此偽裝瀏覽器渗鬼；如果不加上很可能別識(shí)別出為爬蟲，比如當(dāng)我們不加Headers對(duì)知乎進(jìn)行g(shù)et請(qǐng)求時(shí)：

導(dǎo)入 requests 模塊

import requests

發(fā)起Get請(qǐng)求

response = requests.get("https://www.zhihu.com")

狀態(tài)碼

print(response.status_code)

響應(yīng)體內(nèi)容

print(r.text)

</pre>

返回的內(nèi)容如下圖所示：

image

我們可以看見返回的400的狀態(tài)碼荧琼，及請(qǐng)求無效譬胎，接著我們?cè)谡?qǐng)求里添加Headers，然后添加User-Agent信息铭腕，再次嘗試請(qǐng)求：

導(dǎo)入 requests 模塊

import requests

在Headers中添加User-Agent字段信息

headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36'
}

發(fā)起Get請(qǐng)求

response = requests.get("https://www.zhihu.com", headers=headers)

狀態(tài)碼

print(response.status_code)

響應(yīng)體內(nèi)容

print(response.text)

</pre>

返回的內(nèi)容如下圖所示：

image

可以看見請(qǐng)求成功银择，并返回了正確的響應(yīng)狀態(tài)碼和響應(yīng)體多糠。　想要更深入的學(xué)習(xí)Requests的讀者可以訪問Requests官方原文文檔或者中文文檔累舷。

提取信息

當(dāng)我們通過HTTP請(qǐng)求獲取到響應(yīng)后，加下來就需要提取響應(yīng)體中的內(nèi)容夹孔，此處筆者介紹兩種常用的提取方法被盈，一個(gè)是正則表達(dá)式，另一個(gè)是Xpath搭伤。

正則表達(dá)式

正則表達(dá)式是一個(gè)很強(qiáng)大的字符串處理工具只怎，幾乎任何關(guān)于字符串的操作都可以使用正則表達(dá)式來完成，作為一個(gè)爬蟲工作者怜俐，每天和字符串打交道身堡，正則表達(dá)式更是不可或缺的技能。有了它拍鲤，從HTML里提取想要的信息就非常方便了贴谎。　　讀者可以通過正則表達(dá)式 | 廖雪峰的官方網(wǎng)站快速入門，也可以通過Python正則表達(dá)式 | 菜鳥教程學(xué)習(xí)Python中操作正則和使用正則季稳，Python的官方文檔中Python標(biāo)準(zhǔn)庫的6.2節(jié)也對(duì)Re有詳細(xì)的介紹和使用教程擅这。　　初次接觸正則表達(dá)式的讀者可能會(huì)覺得有些抽象，有點(diǎn)難入門景鼠，因?yàn)楫吘拐齽t表達(dá)式本身就是一種小型的仲翎、高度專業(yè)化的編程語言，以上的入門教程了解后铛漓，這里給讀者介紹一個(gè)提取信息通用的正則字符串 .*?溯香，該規(guī)則能夠以非貪婪的方式匹配任意字符，后面我們會(huì)經(jīng)常使用到浓恶。　　比如我們需要匹配 <H1>Chapter 1 - 介紹正則表達(dá)式</H1> 標(biāo)簽中的內(nèi)容逐哈，我們可以:

導(dǎo)入 re 模塊

import re

待匹配文本

h1 = '<H1>Chapter 3.2.1 - 介紹正則表達(dá)式</H1>'

將正則字符串編譯成正則表達(dá)式對(duì)象，方便在后面的匹配中復(fù)用

pat = re.compile('<H1>(.*?)</H1>', re.S)

re.search 掃描整個(gè)字符串并返回第一個(gè)成功的匹配

result = re.search(pat, h1)

匹配的整個(gè)表達(dá)式的字符串问顷，group() 可以一次輸入多個(gè)組號(hào)昂秃，在這種情況下它將返回一個(gè)包含那些組所對(duì)應(yīng)值的元組禀梳。

print(result.group(0))

匹配的第一個(gè)括號(hào)內(nèi)的字符串，group() 可以一次輸入多個(gè)組號(hào)肠骆，在這種情況下它將返回一個(gè)包含那些組所對(duì)應(yīng)值的元組算途。

print(result.group(1))

</pre>

以下是匹配結(jié)果：

image

Xpath

XPath即為XML路徑語言（XML Path Language），它是一種用來確定XML文檔中某部分位置的語言蚀腿。 XPath基于XML的樹狀結(jié)構(gòu)嘴瓤，提供在數(shù)據(jù)結(jié)構(gòu)樹中找尋節(jié)點(diǎn)的能力。起初XPath的提出的初衷是將其作為一個(gè)通用的莉钙、介于XPointer與XSL間的語法模型廓脆。但是XPath很快的被開發(fā)者采用來當(dāng)作小型查詢語言，在爬蟲中提取信息也是不錯(cuò)的好幫手磁玉。　　讀者可以通過 Xpath 教程 | 菜鳥教程學(xué)習(xí)Xpath的原理及編寫方法停忿，也可以訪問CSDN博客中搜索Python Xpath學(xué)習(xí)更多Python中Xpath的基本操作，接下來介紹編寫“編寫”的技巧和在Python中使用的方法蚊伞，之所以加上“編寫”席赂，讀者看下面便知。　　還記得在２.１爬蟲原理中使用的瀏覽器的開發(fā)者工具嗎时迫，我們可以通過這個(gè)工具直接獲取對(duì)應(yīng)節(jié)點(diǎn)的Xpath規(guī)則颅停，從而達(dá)到快速利用Xpath提取網(wǎng)頁信息的目的，例如提取貓眼電影TOP100榜中的電影信息掠拳，首先打開瀏覽器輸入http://maoyan.com/board/4癞揉，將鼠標(biāo)移動(dòng)到需要提取的信息（電影名稱）上，右鍵選擇檢查溺欧，如下圖所示：

image

接著我們選擇下面的元素喊熟，右鍵選擇Copy-->xpath，如下圖所示：

image

獲取了該節(jié)點(diǎn)的xpath規(guī)則了胧奔，接下來我們編寫Python程序驗(yàn)證該規(guī)則是否能夠真正提取電影名：

import requests

導(dǎo)入lxml庫的etree模塊

from lxml import etree
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36'
}
url = 'http://maoyan.com/board/4'
response = requests.get(url, headers=headers)
html = response.text

調(diào)用HTML類進(jìn)行初始化

html = etree.HTML(html)

粘貼我們copy的xpath逊移，提取電影名 “霸王別姬”

result_bawangbieji = html.xpath('//*[@id="app"]/div/div/div[1]/dl/dd[1]/div/div/div[1]/p[1]/a')

打印節(jié)點(diǎn)標(biāo)簽包含的文本內(nèi)容

print(result_bawangbieji[0].text)

提取該頁面所有電影名，即選擇所有'dd'標(biāo)簽的電影名

result_all = html.xpath('//*[@id="app"]/div/div/div[1]/dl/dd/div/div/div[1]/p[1]/a')

打印所有提取出的電影名

print('該頁面全部電影名：')
for one in result_all:
print(one.text)

</pre>

結(jié)果如下圖所示龙填，我們成功提取了HTML中電影名的信息：

image

存儲(chǔ)信息

TEXT 文本存儲(chǔ)

如果讀者學(xué)習(xí)了Python的基礎(chǔ)知識(shí)胳泉，那么應(yīng)該比較熟悉這種基本信息存儲(chǔ)方式，即直接將我們需要存儲(chǔ)的信息寫入文件中岩遗，比如常見的TEXT文件扇商，如果不熟悉的讀者可以通過Python文件讀寫 - Python教程?快速概覽，下面我們就對(duì)3.2.2中Xpath提取的電影名進(jìn)行文件存儲(chǔ)操作：

import requests
from lxml import etree
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36'
}
url = 'http://maoyan.com/board/4'
response = requests.get(url, headers=headers)
html = response.text

調(diào)用HTML類進(jìn)行初始化

html = etree.HTML(html)

粘貼我們copy的xpath宿礁，提取電影名 “霸王別姬”

result_bawangbieji = html.xpath('//*[@id="app"]/div/div/div[1]/dl/dd[1]/div/div/div[1]/p[1]/a')

打印節(jié)點(diǎn)標(biāo)簽包含的文本內(nèi)容

print(result_bawangbieji[0].text)

提取該頁面所有電影名

result_all = html.xpath('//*[@id="app"]/div/div/div[1]/dl/dd/div/div/div[1]/p[1]/a')

打印所有提取出的電影名

print('該頁面全部電影名：')
for one in result_all:
print(one.text)

將這一頁電影名存儲(chǔ)至TEXT文件中案铺，'a' 指打開一個(gè)文件進(jìn)行追加。如果文件存在梆靖，則文件指針位于文件末尾控汉。也就是說笔诵，文件處于追加模式。如果文件不存在姑子，它將創(chuàng)建一個(gè)新文件進(jìn)行寫入乎婿。

with open('film_name.text', 'a') as f:
for one in result_all:
f.write(one + '\n')

</pre>

存儲(chǔ)結(jié)果如下圖所示：

image

CSV存儲(chǔ)

CSV文件即逗號(hào)分隔值（也稱字符分隔值，因?yàn)榉指舴梢圆皇嵌禾?hào)）街佑，是一種常用的文本格式谢翎，以純文本形式存儲(chǔ)表格數(shù)據(jù)，包括數(shù)字或者字符沐旨。Python中已經(jīng)內(nèi)置CSV文件操作的模塊森逮，只需要導(dǎo)入就可以進(jìn)行CSV存儲(chǔ)操作，下面我們就將3.2.2中Xpath提取的電影名進(jìn)行CSV文件存儲(chǔ)操作：

import requests
from lxml import etree

導(dǎo)入CSV模塊

import csv

headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36'
}
url = 'http://maoyan.com/board/4'

response = requests.get(url, headers=headers)
html = response.text
html = etree.HTML(html)
result_bawangbieji = html.xpath('//[@id="app"]/div/div/div[1]/dl/dd[1]/div/div/div[1]/p[1]/a')
print(result_bawangbieji[0].text)
result_all = html.xpath('//[@id="app"]/div/div/div[1]/dl/dd/div/div/div[1]/p[1]/a')
print('該頁面全部電影名：')
for one in result_all:
print(one.text)

將這一頁電影名存儲(chǔ)至CSV文件中：

with open('film_name.csv', 'a', newline='') as f:
csv_file = csv.writer(f)
for one in result_all:
csv_file.writerow([one.text])

</pre>

CSV文件存儲(chǔ)結(jié)果如下圖所示：

image

MySQL 存儲(chǔ)

MySQL 是最流行的關(guān)系型數(shù)據(jù)庫管理系統(tǒng)磁携，如果讀者沒有安裝MySQL可以通過phpstudy 2018 下載下載phpstudy快速安裝MySQL 　　在Python2中褒侧，連接MySQL的庫大多是使用MySQLdb，但是此庫的官方并不支持Python3颜武，所以這里推薦使用的庫是PyMySQL璃搜，讀者可以通過Python+MySQL數(shù)據(jù)庫操作（PyMySQL）| Python教程?學(xué)習(xí)PyMYSQL操作MySQL的相關(guān)方法和實(shí)例拖吼，接下來我們就嘗試將3.2.2中Xpath提取的電影名存儲(chǔ)到MySQL中鳞上，沒有該模塊的讀者可以通過（win+R 輸入 cmd）pip install pymysql 安裝pymysql庫。

import requests
from lxml import etree

導(dǎo)入pymysql模塊

import pymysql

打開一個(gè)數(shù)據(jù)庫連接

db = pymysql.connect(host='localhost', user='root', password='root', port=3306, db='spider', use_unicode=True, charset="utf8")

獲取MySQL的操作游標(biāo)吊档，利用游標(biāo)來執(zhí)行SQL語句

cursor = db.cursor()

headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36'
}
url = 'http://maoyan.com/board/4'

try:
    # 插入數(shù)據(jù)語句
    sql = 'INSERT INTO film_infor(film_name) values (%s)'
    cursor.execute(sql, (one.text))
    db.commit()

except:
    db.rollback()

</pre>

MySQL存儲(chǔ)結(jié)果如下圖所示：

image

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末篙议，一起剝皮案震驚了整個(gè)濱河市，隨后出現(xiàn)的幾起案子怠硼，更是在濱河造成了極大的恐慌鬼贱，老刑警劉巖，帶你破解...
沈念sama閱讀 221,331評(píng)論 6贊 515
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件香璃，死亡現(xiàn)場(chǎng)離奇詭異这难，居然都是意外死亡，警方通過查閱死者的電腦和手機(jī)葡秒，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 94,372評(píng)論 3贊 398
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門姻乓，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人眯牧，你說我怎么就攤上這事蹋岩。” “怎么了学少？”我有些...
開封第一講書人閱讀 167,755評(píng)論 0贊 360
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵剪个，是天一觀的道長。經(jīng)常有香客問我版确，道長扣囊，這世上最難降的妖魔是什么乎折？我笑而不...
開封第一講書人閱讀 59,528評(píng)論 1贊 296
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮侵歇，結(jié)果婚禮上笆檀，老公的妹妹穿的比我還像新娘。我一直安慰自己盒至，他們只是感情好酗洒，可當(dāng)我...
茶點(diǎn)故事閱讀 68,526評(píng)論 6贊 397
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著枷遂，像睡著了一般樱衷。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上酒唉，一...
開封第一講書人閱讀 52,166評(píng)論 1贊 308
城市分裂傳說
那天矩桂，我揣著相機(jī)與錄音，去河邊找鬼痪伦。笑死侄榴，一個(gè)胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的网沾。我是一名探鬼主播癞蚕，決...
沈念sama閱讀 40,768評(píng)論 3贊 421
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場(chǎng)噩夢(mèng)啊……” “哼辉哥！你這毒婦竟也來了桦山？” 一聲冷哼從身側(cè)響起，我...
開封第一講書人閱讀 39,664評(píng)論 0贊 276
萬榮殺人案實(shí)錄
序言：老撾萬榮一對(duì)情侶失蹤醋旦，失蹤者是張志新（化名）和其女友劉穎恒水，沒想到半個(gè)月后，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體饲齐，經(jīng)...
沈念sama閱讀 46,205評(píng)論 1贊 319
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡钉凌，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 38,290評(píng)論 3贊 340
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了捂人。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片御雕。...
茶點(diǎn)故事閱讀 40,435評(píng)論 1贊 352
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡，死狀恐怖先慷，靈堂內(nèi)的尸體忽然破棺而出饮笛，到底是詐尸還是另有隱情，我是刑警寧澤论熙，帶...
沈念sama閱讀 36,126評(píng)論 5贊 349
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布福青，位于F島的核電站，受9級(jí)特大地震影響，放射性物質(zhì)發(fā)生泄漏无午。R本人自食惡果不足惜媒役，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,804評(píng)論 3贊 333
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望宪迟。院中可真熱鬧酣衷，春花似錦、人聲如沸次泽。這莊子的主人今日做“春日...
開封第一講書人閱讀 32,276評(píng)論 0贊 23
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽意荤。三九已至啊片，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間玖像，已是汗流浹背紫谷。一陣腳步聲響...
開封第一講書人閱讀 33,393評(píng)論 1贊 272
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留捐寥，地道東北人笤昨。一個(gè)月前我還...
沈念sama閱讀 48,818評(píng)論 3贊 376
代替公主和親
正文我出身青樓，卻偏偏與公主長得像，于是被迫代替她去往敵國和親。傳聞我的和親對(duì)象是個(gè)殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 45,442評(píng)論 2贊 359

Python爬蟲入門實(shí)戰(zhàn)之貓眼電影數(shù)據(jù)抓取(理論篇)

導(dǎo)入requests 模塊

發(fā)起Get請(qǐng)求并返回Response對(duì)象，包含服務(wù)器對(duì)HTTP請(qǐng)求的響應(yīng)

打印 響應(yīng)狀態(tài)碼

打印 str類型的響應(yīng)體升筏，比如一個(gè)普通的 HTML 頁面撑柔，需要對(duì)文本進(jìn)一步分析時(shí)，使用 text

導(dǎo)入 requests 模塊

需要提交的表單數(shù)據(jù)

發(fā)起Post請(qǐng)求

響應(yīng)體內(nèi)容

PUT請(qǐng)求

DELETE請(qǐng)求

HEAD請(qǐng)求

OPTIONS請(qǐng)求

導(dǎo)入 requests 模塊

發(fā)起Get請(qǐng)求

狀態(tài)碼

響應(yīng)體內(nèi)容

導(dǎo)入 requests 模塊

在Headers中添加User-Agent字段信息

發(fā)起Get請(qǐng)求

狀態(tài)碼

響應(yīng)體內(nèi)容

導(dǎo)入 re 模塊

待匹配文本

將正則字符串編譯成正則表達(dá)式對(duì)象，方便在后面的匹配中復(fù)用

re.search 掃描整個(gè)字符串并返回第一個(gè)成功的匹配

匹配的整個(gè)表達(dá)式的字符串问顷，group() 可以一次輸入多個(gè)組號(hào)昂秃，在這種情況下它將返回一個(gè)包含那些組所對(duì)應(yīng)值的元組禀梳。

匹配的第一個(gè)括號(hào)內(nèi)的字符串，group() 可以一次輸入多個(gè)組號(hào)肠骆，在這種情況下它將返回一個(gè)包含那些組所對(duì)應(yīng)值的元組算途。

導(dǎo)入lxml庫的etree模塊

調(diào)用HTML類進(jìn)行初始化

粘貼我們copy的xpath逊移，提取電影名 “霸王別姬”

打印節(jié)點(diǎn)標(biāo)簽包含的文本內(nèi)容

提取該頁面所有電影名，即選擇所有'dd'標(biāo)簽的電影名

打印所有提取出的電影名

調(diào)用HTML類進(jìn)行初始化

粘貼我們copy的xpath宿礁，提取電影名 “霸王別姬”

打印節(jié)點(diǎn)標(biāo)簽包含的文本內(nèi)容

提取該頁面所有電影名

打印所有提取出的電影名

導(dǎo)入CSV模塊

將這一頁電影名存儲(chǔ)至CSV文件中：

導(dǎo)入pymysql模塊

打開一個(gè)數(shù)據(jù)庫連接

獲取MySQL的操作游標(biāo)吊档，利用游標(biāo)來執(zhí)行SQL語句

推薦閱讀更多精彩內(nèi)容

打印響應(yīng)狀態(tài)碼