我們?cè)谧ト⌒畔⒅跋瓤匆幌露拱昃W(wǎng)的robots協(xié)議:
User-agent: *
Disallow: /subject_search
Disallow: /amazon_search
Disallow: /search
Disallow: /group/search
Disallow: /event/search
Disallow: /celebrities/search
Disallow: /location/drama/search
Disallow: /forum/
Disallow: /new_subject
Disallow: /service/iframe
Disallow: /j/
Disallow: /link2/
Disallow: /recommend/
Disallow: /trailer/
Disallow: /doubanapp/card
Sitemap: https://www.douban.com/sitemap_index.xml
Sitemap: https://www.douban.com/sitemap_updated_index.xml
# Crawl-delay: 5
User-agent: Wandoujia Spider
Disallow: /
可以看到我們要抓取的/top250
并不在禁止之列,那么在不影響服務(wù)器性能的前提下澡罚,可以合理的運(yùn)用爬蟲(chóng)來(lái)抓取所需的信息。
抓取信息的第一步肾请,引入Python
的HTTP
庫(kù)requests
用來(lái)模擬瀏覽器登錄網(wǎng)頁(yè)留搔,解析網(wǎng)頁(yè)Html
文檔的庫(kù)lxml
以及用來(lái)匹配文本信息的正則表達(dá)式庫(kù)re
。
由于網(wǎng)頁(yè)結(jié)構(gòu)相對(duì)比較簡(jiǎn)單筐喳,所以這里直接使用
xpath
來(lái)定位標(biāo)簽催式,獲取對(duì)應(yīng)所需的信息。其實(shí)也可以引入BeautifulSoup
庫(kù)簡(jiǎn)化定位標(biāo)簽節(jié)點(diǎn)的過(guò)程避归。
import requests
from lxml import html
import re
定義一個(gè)抓取函數(shù)荣月,其中用到requests
庫(kù)的get
方法模擬http
的get
請(qǐng)求來(lái)獲取信息,得到一個(gè)名為r
的requests
對(duì)象梳毙。
def get_html_text(url哺窄, headers):
try:
r = requests.get(url=url, headers=headers)
r.raise_for_status()
r.encoding = r.apparent_encoding
return r.text # 響應(yīng)內(nèi)容
except:
return 'Gather Error'
其中:
-
raise_for_status()
方法的作用是:若requests
對(duì)象的狀態(tài)碼不為200
,則引發(fā)HTTPError
異常账锹。 -
r.encoding
為HTTP header
中猜測(cè)的響應(yīng)編碼方式萌业,r.apparent_encoding
為從內(nèi)容中分析出的響應(yīng)內(nèi)容編碼方式。
根據(jù)觀(guān)察可以看出250
條電影信息存放在10
個(gè)頁(yè)面內(nèi)奸柬,使用變量i
計(jì)數(shù),在0~10
個(gè)頁(yè)面內(nèi)抓取信息生年。此函數(shù)需要使用變量計(jì)數(shù),記錄抓取電影的個(gè)數(shù)廓奕,此變量設(shè)置為x
抱婉,每個(gè)循環(huán)內(nèi)的x
即為當(dāng)前頁(yè)面內(nèi)抓取的信息條數(shù)。抓取頁(yè)面信息使用的是requests
庫(kù)的get
方法桌粉,再使用text
方法得到頁(yè)面文本內(nèi)容蒸绩。
觀(guān)察網(wǎng)頁(yè)源碼可以看出,所有的信息都在每個(gè)class
屬性為info
的div
標(biāo)簽里铃肯。依此類(lèi)推定位到各信息所在標(biāo)簽患亿,代碼如下:
def douban_top250_spyder(text, x): # 用于定位信息
# 所有的信息都在class屬性為info的div標(biāo)簽里
for j in text.xpath('//div[@class="info"]'):
title = j.xpath('div[@class="hd"]/a/span[@class="title"]/text()')[0] # 影片名稱(chēng)
info = j.xpath('div[@class="bd"]/p[1]/text()') # 信息段
rate = 9j.xpath('div[@class="bd"]/div[@class="star"]/span[@class="rating_num"]/text()')[0] # 評(píng)分
com_count0 = j.xpath('div[@class="bd"]/div[@class="star"]/span[4]/text()')[0] # 評(píng)論人數(shù)
com_count = re.match(r'^\d*', com_count0).group() # 僅保留數(shù)字
quote0 = j.xpath('div[@class="bd"]/p[@class="quote"]/span[@class="inq"]/text()') # 短評(píng)
quote = '無(wú)' if quote0 == [] else quote0[0].replace(",", ",") # 若短評(píng)不存在則使用‘無(wú)’替代押逼,并將短評(píng)中的英文逗號(hào)替換為中文逗號(hào)步藕,避免影響CSV文件的處理
date = info[1].replace("\n", "").strip(' ').split("\xa0/\xa0")[0] # 上映日期
country = info[1].split("\xa0/\xa0")[1] # 制片國(guó)家
genre = info[1].replace("\n", "").strip(' ').split("\xa0/\xa0")[2] # 影片類(lèi)型
打印出得到的信息惦界,在控制臺(tái)核查:
print("x" % str(k), title, rate, com_count, date, country, genre, quote) # 打印結(jié)果
loop 1
1 肖申克的救贖 9.6 835810 1994 美國(guó) 犯罪 劇情 希望讓人自由。
2 這個(gè)殺手不太冷 9.4 801886 1994 法國(guó) 劇情 動(dòng)作 犯罪 怪蜀黍和小蘿莉不得不說(shuō)的故事漱抓。
霸王別姬 9.5 597808 1993 中國(guó)大陸 香港 劇情 愛(ài)情 同性 風(fēng)華絕代表锻。
4 阿甘正傳 9.4 686379 1994 美國(guó) 劇情 愛(ài)情 一部美國(guó)近現(xiàn)代史。
5 美麗人生 9.5 399229 1997 意大利 劇情 喜劇 愛(ài)情 戰(zhàn)爭(zhēng) 最美的謊言乞娄。
...
loop 10
...
23 彗星來(lái)的那一夜 8.3 149338 2013 美國(guó) 英國(guó) 科幻 懸疑 驚悚 小成本大魅力。
24 黑鷹墜落 8.5 101144 2001 美國(guó) 動(dòng)作 歷史 戰(zhàn)爭(zhēng) 還原真實(shí)而殘酷的戰(zhàn)爭(zhēng)显歧。
25 假如愛(ài)有天意 8.2 216192 2003 韓國(guó) 劇情 愛(ài)情 瓊瑤阿姨在韓國(guó)的深刻版仪或。
寫(xiě)入所得到的信息,以逗號(hào)分割士骤,存為csv
文件范删。
with open("douban_top250_demo.csv", "a") as f: # 寫(xiě)入文件
f.write("%s,%s,%s,%s,%s,%s,%s\n" % (title, rate, com_count, date, country, genre, quote))
x += 1 # 每條電影信息打印完后計(jì)數(shù)加一
最后,執(zhí)行代碼主體:
headers_douban = {
'Accept': '*/*',
'Accept-Encoding': 'gzip, deflate, sdch, br',
'Accept-Language': 'zh-CN,zh;q=0.8',
'Connection': 'keep-alive',
'Referer': 'http://www.douban.com/',
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko)\
Chrome/58.0.3029.110 Safari/537.36'
} # 請(qǐng)求頭部
if __name__ == '__main__': # 執(zhí)行代碼
for i in range(10): # 每頁(yè)25個(gè)電影拷肌,共10頁(yè)到旦,程序在其中做循環(huán),抓取信息巨缘。
print('loop', i+1) # 顯示第幾圈
url_douban = 'https://movie.douban.com/top250?start={}&filter='.format(i * 25) # 目標(biāo)網(wǎng)站迭代形式
text0 = get_html_text(url_douban, headers_douban) # 請(qǐng)求得到的網(wǎng)頁(yè)文本內(nèi)容
text_douban = html.fromstring(text0) # 轉(zhuǎn)換為html類(lèi)數(shù)據(jù)添忘,便于xpath處理獲取信息
num_counting = 1 # 計(jì)數(shù)
douban_top250_spyder(text_douban, num_counting)
得到的效果如下: