爬蟲學(xué)習(xí)(一)：利用requests爬取貓眼電影top100

爬取貓眼電影Top100

最近學(xué)習(xí)爬蟲

環(huán)境

Python3.6
requests
re

目標(biāo)網(wǎng)站

貓眼電影top100榜單

網(wǎng)站分析

通過(guò)觀察爽航，我們知道等曼，每一部電影信息都包含在一個(gè)dd標(biāo)簽中愉择。接下來(lái)就是根據(jù)這個(gè)dd標(biāo)簽?里面包含的信息來(lái)解析了。

電影名

<p class="name">標(biāo)簽中

主演

<p class="star">標(biāo)簽中

上映時(shí)間

<p class="releasetime">標(biāo)簽中

評(píng)分

<p class="score">標(biāo)簽中

源代碼

import re
import requests
from urllib3.exceptions import RequestError
import json
from multiprocessing import Pool


def get_one_page(url):
    try:
    # 加入user-agent ?反 反爬
        headers = {
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/61.0.3163.79 Safari/537.36'
        }
        response = requests.get(url, headers=headers)
        if response.status_code == 200:
            return response.text
        return None
    except RequestError:
        return None


def parse_one_page(html):
    pattern = re.compile('<dd>.*?board-index.*?>(\d+)</i>.*?data-src="(.*?)".*?name"><a'
                         + '.*?>(.*?)</a>.*?star">(.*?)</p>.*?releasetime">(.*?)</p>'
                         + '.*?integer">(.*?)</i>.*?fraction">(.*?)</i>.*?</dd>', re.S)
    items = re.findall(pattern, html)
    for item in items:
        yield {
            'index': item[0],
            'image': item[1],
            'title': item[2],
            'actor': item[3].strip()[3:],
            'time': item[4].strip()[5:],
            'score': item[5] + item[6]
        }


def write_to_file(content):
    with open('result.txt', 'a', encoding='utf-8') as f:
        f.write(json.dumps(content, ensure_ascii=False) + '\n')
        f.close()


def main(offset):
    url = "http://maoyan.com/board/4?offset=" + str(offset)
    html = get_one_page(url)
    if html:
        for item in parse_one_page(html):
            write_to_file(item)
            print(item)


if __name__ == '__main__':
    pool = Pool()
    pool.map(main, [i * 10 for i in range(0, 10)])

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末搀继，一起剝皮案震驚了整個(gè)濱河市驶冒，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌的止，老刑警劉巖檩坚，帶你破解...
沈念sama閱讀 222,590評(píng)論 6贊 517
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場(chǎng)離奇詭異冲杀，居然都是意外死亡效床，警方通過(guò)查閱死者的電腦和手機(jī)，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 95,157評(píng)論 3贊 399
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門权谁，熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)剩檀，“玉大人，你說(shuō)我怎么就攤上這事旺芽』铮” “怎么了？”我有些...
開封第一講書人閱讀 169,301評(píng)論 0贊 362
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵采章，是天一觀的道長(zhǎng)运嗜。經(jīng)常有香客問(wèn)我，道長(zhǎng)悯舟，這世上最難降的妖魔是什么担租？我笑而不...
開封第一講書人閱讀 60,078評(píng)論 1贊 300
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮抵怎，結(jié)果婚禮上奋救，老公的妹妹穿的比我還像新娘。我一直安慰自己反惕，他們只是感情好尝艘，可當(dāng)我...
茶點(diǎn)故事閱讀 69,082評(píng)論 6贊 398
惡毒庶女頂嫁案：這布局不是一般人想出來(lái)的
文/花漫我一把揭開白布。她就那樣靜靜地躺著姿染，像睡著了一般背亥。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上悬赏，一...
開封第一講書人閱讀 52,682評(píng)論 1贊 312
城市分裂傳說(shuō)
那天狡汉，我揣著相機(jī)與錄音，去河邊找鬼闽颇。笑死轴猎，一個(gè)胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的进萄。我是一名探鬼主播，決...
沈念sama閱讀 41,155評(píng)論 3贊 422
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長(zhǎng)吁一口氣：“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼中鼠！你這毒婦竟也來(lái)了可婶？” 一聲冷哼從身側(cè)響起，我...
開封第一講書人閱讀 40,098評(píng)論 0贊 277
萬(wàn)榮殺人案實(shí)錄
序言：老撾萬(wàn)榮一對(duì)情侶失蹤援雇，失蹤者是張志新（化名）和其女友劉穎矛渴，沒(méi)想到半個(gè)月后，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體惫搏，經(jīng)...
沈念sama閱讀 46,638評(píng)論 1贊 319
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡具温，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 38,701評(píng)論 3贊 342
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了筐赔。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片铣猩。...
茶點(diǎn)故事閱讀 40,852評(píng)論 1贊 353
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡，死狀恐怖茴丰，靈堂內(nèi)的尸體忽然破棺而出达皿，到底是詐尸還是另有隱情，我是刑警寧澤贿肩，帶...
沈念sama閱讀 36,520評(píng)論 5贊 351
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布峦椰，位于F島的核電站，受9級(jí)特大地震影響汰规，放射性物質(zhì)發(fā)生泄漏汤功。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 42,181評(píng)論 3贊 335
男人毒藥：我在死后第九天來(lái)索命
文/蒙蒙一溜哮、第九天我趴在偏房一處隱蔽的房頂上張望滔金。院中可真熱鬧，春花似錦茬射、人聲如沸鹦蠕。這莊子的主人今日做“春日...
開封第一講書人閱讀 32,674評(píng)論 0贊 25
一樁弒父案在抛，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)钟病。三九已至，卻和暖如春刚梭，著一層夾襖步出監(jiān)牢的瞬間肠阱，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 33,788評(píng)論 1贊 274
情欲美人皮
我被黑心中介騙來(lái)泰國(guó)打工朴读，沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留屹徘，地道東北人。一個(gè)月前我還...
沈念sama閱讀 49,279評(píng)論 3贊 379
代替公主和親
正文我出身青樓衅金，卻偏偏與公主長(zhǎng)得像噪伊，于是被迫代替她去往敵國(guó)和親簿煌。傳聞我的和親對(duì)象是個(gè)殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 45,851評(píng)論 2贊 361

爬蟲學(xué)習(xí)(一)：利用requests爬取貓眼電影top100

爬取貓眼電影Top100

網(wǎng)站分析

電影名

主演

上映時(shí)間

評(píng)分

源代碼

推薦閱讀更多精彩內(nèi)容