淺析豆瓣電影TOP250榜單——C2 數(shù)據(jù)收集

我們?cè)谧ト⌒畔⒅跋瓤匆幌露拱昃W(wǎng)的robots協(xié)議:

User-agent: *
Disallow: /subject_search
Disallow: /amazon_search
Disallow: /search
Disallow: /group/search
Disallow: /event/search
Disallow: /celebrities/search
Disallow: /location/drama/search
Disallow: /forum/
Disallow: /new_subject
Disallow: /service/iframe
Disallow: /j/
Disallow: /link2/
Disallow: /recommend/
Disallow: /trailer/
Disallow: /doubanapp/card
Sitemap: https://www.douban.com/sitemap_index.xml
Sitemap: https://www.douban.com/sitemap_updated_index.xml
# Crawl-delay: 5

User-agent: Wandoujia Spider
Disallow: /

可以看到我們要抓取的/top250并不在禁止之列,那么在不影響服務(wù)器性能的前提下澡罚,可以合理的運(yùn)用爬蟲(chóng)來(lái)抓取所需的信息。

抓取信息的第一步肾请,引入PythonHTTP庫(kù)requests用來(lái)模擬瀏覽器登錄網(wǎng)頁(yè)留搔,解析網(wǎng)頁(yè)Html文檔的庫(kù)lxml以及用來(lái)匹配文本信息的正則表達(dá)式庫(kù)re

由于網(wǎng)頁(yè)結(jié)構(gòu)相對(duì)比較簡(jiǎn)單筐喳,所以這里直接使用xpath來(lái)定位標(biāo)簽催式,獲取對(duì)應(yīng)所需的信息。其實(shí)也可以引入BeautifulSoup庫(kù)簡(jiǎn)化定位標(biāo)簽節(jié)點(diǎn)的過(guò)程避归。

import requests
from lxml import html
import re

定義一個(gè)抓取函數(shù)荣月,其中用到requests庫(kù)的get方法模擬httpget請(qǐng)求來(lái)獲取信息,得到一個(gè)名為rrequests對(duì)象梳毙。

def get_html_text(url哺窄, headers):
    try:
        r = requests.get(url=url, headers=headers)
        r.raise_for_status()
        r.encoding = r.apparent_encoding
        return r.text  # 響應(yīng)內(nèi)容
    except:
        return 'Gather Error'

其中:

  1. raise_for_status()方法的作用是:若requests對(duì)象的狀態(tài)碼不為200,則引發(fā)HTTPError異常账锹。
  2. r.encodingHTTP header中猜測(cè)的響應(yīng)編碼方式萌业,r.apparent_encoding為從內(nèi)容中分析出的響應(yīng)內(nèi)容編碼方式。

根據(jù)觀(guān)察可以看出250條電影信息存放在10個(gè)頁(yè)面內(nèi)奸柬,使用變量i計(jì)數(shù),在0~10個(gè)頁(yè)面內(nèi)抓取信息生年。此函數(shù)需要使用變量計(jì)數(shù),記錄抓取電影的個(gè)數(shù)廓奕,此變量設(shè)置為x抱婉,每個(gè)循環(huán)內(nèi)的x即為當(dāng)前頁(yè)面內(nèi)抓取的信息條數(shù)。抓取頁(yè)面信息使用的是requests庫(kù)的get方法桌粉,再使用text方法得到頁(yè)面文本內(nèi)容蒸绩。

豆瓣網(wǎng)頁(yè)源碼

觀(guān)察網(wǎng)頁(yè)源碼可以看出,所有的信息都在每個(gè)class屬性為infodiv標(biāo)簽里铃肯。依此類(lèi)推定位到各信息所在標(biāo)簽患亿,代碼如下:

def douban_top250_spyder(text, x):  # 用于定位信息
    # 所有的信息都在class屬性為info的div標(biāo)簽里
    for j in text.xpath('//div[@class="info"]'):
        title = j.xpath('div[@class="hd"]/a/span[@class="title"]/text()')[0]  # 影片名稱(chēng)
        info = j.xpath('div[@class="bd"]/p[1]/text()')  # 信息段
        rate = 9j.xpath('div[@class="bd"]/div[@class="star"]/span[@class="rating_num"]/text()')[0]  # 評(píng)分
        com_count0 = j.xpath('div[@class="bd"]/div[@class="star"]/span[4]/text()')[0]  # 評(píng)論人數(shù)
        com_count = re.match(r'^\d*', com_count0).group()  # 僅保留數(shù)字
        quote0 = j.xpath('div[@class="bd"]/p[@class="quote"]/span[@class="inq"]/text()')  # 短評(píng)
        quote = '無(wú)' if quote0 == [] else quote0[0].replace(",", ",")  # 若短評(píng)不存在則使用‘無(wú)’替代押逼,并將短評(píng)中的英文逗號(hào)替換為中文逗號(hào)步藕,避免影響CSV文件的處理
        date = info[1].replace("\n", "").strip(' ').split("\xa0/\xa0")[0]  # 上映日期
        country = info[1].split("\xa0/\xa0")[1]  # 制片國(guó)家
        genre = info[1].replace("\n", "").strip(' ').split("\xa0/\xa0")[2]  # 影片類(lèi)型

打印出得到的信息惦界,在控制臺(tái)核查:

print("x" % str(k), title, rate, com_count, date, country, genre, quote)  # 打印結(jié)果
loop 1
1 肖申克的救贖 9.6 835810 1994 美國(guó) 犯罪 劇情 希望讓人自由。
2 這個(gè)殺手不太冷 9.4 801886 1994 法國(guó) 劇情 動(dòng)作 犯罪 怪蜀黍和小蘿莉不得不說(shuō)的故事漱抓。
霸王別姬 9.5 597808 1993 中國(guó)大陸 香港 劇情 愛(ài)情 同性 風(fēng)華絕代表锻。
4 阿甘正傳 9.4 686379 1994 美國(guó) 劇情 愛(ài)情 一部美國(guó)近現(xiàn)代史。
5 美麗人生 9.5 399229 1997 意大利 劇情 喜劇 愛(ài)情 戰(zhàn)爭(zhēng) 最美的謊言乞娄。
 ...
loop 10
 ...
23 彗星來(lái)的那一夜 8.3 149338 2013 美國(guó) 英國(guó) 科幻 懸疑 驚悚 小成本大魅力。
24 黑鷹墜落 8.5 101144 2001 美國(guó) 動(dòng)作 歷史 戰(zhàn)爭(zhēng) 還原真實(shí)而殘酷的戰(zhàn)爭(zhēng)显歧。
25 假如愛(ài)有天意 8.2 216192 2003 韓國(guó) 劇情 愛(ài)情 瓊瑤阿姨在韓國(guó)的深刻版仪或。

寫(xiě)入所得到的信息,以逗號(hào)分割士骤,存為csv文件范删。

with open("douban_top250_demo.csv", "a") as f:  # 寫(xiě)入文件
    f.write("%s,%s,%s,%s,%s,%s,%s\n" % (title, rate, com_count, date, country, genre, quote))
x += 1  # 每條電影信息打印完后計(jì)數(shù)加一

最后,執(zhí)行代碼主體:

headers_douban = {
        'Accept': '*/*',
        'Accept-Encoding': 'gzip, deflate, sdch, br',
        'Accept-Language': 'zh-CN,zh;q=0.8',
        'Connection': 'keep-alive',
        'Referer': 'http://www.douban.com/',
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko)\
         Chrome/58.0.3029.110 Safari/537.36'
    }  # 請(qǐng)求頭部

if __name__ == '__main__':  # 執(zhí)行代碼
    for i in range(10):  # 每頁(yè)25個(gè)電影拷肌,共10頁(yè)到旦,程序在其中做循環(huán),抓取信息巨缘。
        print('loop', i+1)  # 顯示第幾圈        
        url_douban = 'https://movie.douban.com/top250?start={}&filter='.format(i * 25)  # 目標(biāo)網(wǎng)站迭代形式
        text0 = get_html_text(url_douban, headers_douban)  # 請(qǐng)求得到的網(wǎng)頁(yè)文本內(nèi)容
        text_douban = html.fromstring(text0)  # 轉(zhuǎn)換為html類(lèi)數(shù)據(jù)添忘,便于xpath處理獲取信息
        num_counting = 1  # 計(jì)數(shù)
        douban_top250_spyder(text_douban, num_counting)

得到的效果如下:

完整代碼


上一章: C1 概要

下一章: C3 數(shù)據(jù)處理

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市若锁,隨后出現(xiàn)的幾起案子搁骑,更是在濱河造成了極大的恐慌,老刑警劉巖又固,帶你破解...
    沈念sama閱讀 217,084評(píng)論 6 503
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件仲器,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡仰冠,警方通過(guò)查閱死者的電腦和手機(jī)乏冀,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,623評(píng)論 3 392
  • 文/潘曉璐 我一進(jìn)店門(mén),熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)洋只,“玉大人辆沦,你說(shuō)我怎么就攤上這事∧菊牛” “怎么了众辨?”我有些...
    開(kāi)封第一講書(shū)人閱讀 163,450評(píng)論 0 353
  • 文/不壞的土叔 我叫張陵,是天一觀(guān)的道長(zhǎng)舷礼。 經(jīng)常有香客問(wèn)我鹃彻,道長(zhǎng),這世上最難降的妖魔是什么妻献? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 58,322評(píng)論 1 293
  • 正文 為了忘掉前任蛛株,我火速辦了婚禮团赁,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘谨履。我一直安慰自己欢摄,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,370評(píng)論 6 390
  • 文/花漫 我一把揭開(kāi)白布笋粟。 她就那樣靜靜地躺著怀挠,像睡著了一般。 火紅的嫁衣襯著肌膚如雪害捕。 梳的紋絲不亂的頭發(fā)上绿淋,一...
    開(kāi)封第一講書(shū)人閱讀 51,274評(píng)論 1 300
  • 那天,我揣著相機(jī)與錄音尝盼,去河邊找鬼吞滞。 笑死,一個(gè)胖子當(dāng)著我的面吹牛盾沫,可吹牛的內(nèi)容都是我干的裁赠。 我是一名探鬼主播,決...
    沈念sama閱讀 40,126評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼赴精,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼佩捞!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起祖娘,我...
    開(kāi)封第一講書(shū)人閱讀 38,980評(píng)論 0 275
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤失尖,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后渐苏,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體掀潮,經(jīng)...
    沈念sama閱讀 45,414評(píng)論 1 313
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,599評(píng)論 3 334
  • 正文 我和宋清朗相戀三年琼富,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了仪吧。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 39,773評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡鞠眉,死狀恐怖薯鼠,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情械蹋,我是刑警寧澤出皇,帶...
    沈念sama閱讀 35,470評(píng)論 5 344
  • 正文 年R本政府宣布,位于F島的核電站哗戈,受9級(jí)特大地震影響郊艘,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,080評(píng)論 3 327
  • 文/蒙蒙 一纱注、第九天 我趴在偏房一處隱蔽的房頂上張望畏浆。 院中可真熱鬧,春花似錦狞贱、人聲如沸刻获。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 31,713評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)蝎毡。三九已至,卻和暖如春氧枣,著一層夾襖步出監(jiān)牢的瞬間顶掉,已是汗流浹背。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 32,852評(píng)論 1 269
  • 我被黑心中介騙來(lái)泰國(guó)打工挑胸, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人宰闰。 一個(gè)月前我還...
    沈念sama閱讀 47,865評(píng)論 2 370
  • 正文 我出身青樓茬贵,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親移袍。 傳聞我的和親對(duì)象是個(gè)殘疾皇子解藻,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,689評(píng)論 2 354

推薦閱讀更多精彩內(nèi)容

  • Spring Cloud為開(kāi)發(fā)人員提供了快速構(gòu)建分布式系統(tǒng)中一些常見(jiàn)模式的工具(例如配置管理,服務(wù)發(fā)現(xiàn)葡盗,斷路器螟左,智...
    卡卡羅2017閱讀 134,654評(píng)論 18 139
  • Android 自定義View的各種姿勢(shì)1 Activity的顯示之ViewRootImpl詳解 Activity...
    passiontim閱讀 172,095評(píng)論 25 707
  • 聲明:本文講解的實(shí)戰(zhàn)內(nèi)容,均僅用于學(xué)習(xí)交流觅够,請(qǐng)勿用于任何商業(yè)用途胶背! 一、前言 強(qiáng)烈建議:請(qǐng)?jiān)陔娔X的陪同下喘先,閱讀本文...
    Bruce_Szh閱讀 12,704評(píng)論 6 28
  • 看到標(biāo)題的時(shí)候窘拯,你會(huì)想到誰(shuí)呢红且?誰(shuí)是這個(gè)世界上最依賴(lài)你的人呢? 我的答案是孩子涤姊,而且還是你嬰幼兒期的小寶貝暇番,你的孩子...
    小鉆小家周春華閱讀 684評(píng)論 2 1
  • 九月一日,是新的一個(gè)月嶄新開(kāi)始的一天思喊。在自己很小的時(shí)候?qū)λ母拍罹褪牵哼@是一個(gè)開(kāi)學(xué)的日子壁酬。后來(lái)隨著...
    漫步云端常想一二閱讀 8,704評(píng)論 0 1