python腳本爬取豆瓣top250電影超清海報原圖

代碼親自試了一下菠净,速度取決于網(wǎng)速,簡單的貼一下代碼好了矮烹,有什么問題可以留言举塔。思路可以看一下[視頻介紹]: https://b23.tv/h508v3

-- coding: utf-8 --

import os

import bs4

import requests as req

def get_content(page_url):  # 獲取網(wǎng)頁

    url = page_url

    r = []

    headers = {

        'User-Agent': 'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) '

                      'AppleWebKit/537.36 (KHTML, like Gecko)'

                      ' Chrome/63.0.3239.132 Mobile Safari/537.36',

        'cookie': 'bid=QB1DolHTrHk; douban-fav-remind=1; ll="108288"; yadk_uid=VonAsOI0yj6dLjA0uGeBA3Bm2eNCNOTw; _vwo_uuid_v2=D458B58B2BDC40664ADD985D2BBBD6465|baa92a0224e8ed5529abe508121bfb94; gads=ID=db538611950a59d9:T=1580548123:S=ALNI_MYFBTvsfFyou-MeX4br3oJ1CSSX1A; utmz=223695111.1582988839.6.6.utmcsr=baidu|utmccn=(organic)|utmcmd=organic|utmctr=%E6%9C%B1%E8%BF%AA; utmz=30149280.1583041381.8.6.utmcsr=baidu|utmccn=(organic)|utmcmd=organic|utmctr=microsoft%20remote%20desktop%20for%20mac; push_noty_num=0; push_doumail_num=0; utmv=30149280.8277; ct=y; dbcl2="82771268:DgQVL/PAHOM"; ck=NIH4; _pk_ref.100001.4cf6=%5B%22%22%2C%22%22%2C1583303993%2C%22https%3A%2F%2Fwww.baidu.com%2Fs%3Fie%3Dutf-8%26f%3D8%26rsv_bp%3D1%26ch%3D%26tn%3Dbaidu%26bar%3D%26wd%3D%25E6%259C%25B1%25E8%25BF%25AA%26oq%3DJudy.2019.%26rsv_pq%3Dc7ca6b9b000c927d%26rsv_t%3Ddf18ju54V9KyOQDdTUOYo4FWELLR2X6OQoXHcJhqO5e5WCUi5CPibeNGq%252Fc%26rqlang%3Dcn%26rsv_enter%3D1%26rsv_dl%3Dtb%26inputT%3D6494%22%5D; _pk_ses.100001.4cf6=*; utma=30149280.363329858.1579408383.1583285998.1583303993.15; utmb=30149280.0.10.1583303993; utmc=30149280; utma=223695111.1275774826.1580548095.1583285998.1583303993.13; utmb=223695111.0.10.1583303993; __utmc=223695111; _pk_id.100001.4cf6=3174f2cb4a0368b8.1580548095.11.1583304000.1583286152.'

    }

    for each in url:

        r.append(req.get(each, headers=headers))

    return r

def how_many_pages():  # 爬取深度

    pages_url = []

    pages = input('How many pages do you want to scrap?(total:10):')

    for i in range(0, int(pages)):

        pages_url.append('https://movie.douban.com/top250?start=' + str(25 * (int(i))) + '&filter=')

    return pages_url

def analysis_content(html):  # 分析網(wǎng)頁

    temp = html

    homeIds = {}  # 首頁id集合

    # 此處temp是一個列表,存儲pages個網(wǎng)頁的內(nèi)容

    for each in temp:

        soup = bs4.BeautifulSoup(each.text, 'html.parser')  # 注意是each.text

        div_all = soup.find_all('div', class_='pic')

        for each in div_all:

            to = str(each.a['href']).split('/')

            one_div = to[len(to) - 2]

            movice_name = each.img['alt']

            homeIds[movice_name] = one_div

    return homeIds

def movice_detail(ids):  # 獲取每個電影的海報界面

    r = []

    headers = {

        'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_0) AppleWebKit/537.36 (KHTML, like Gecko) '

                      'Chrome/79.0.3945.117 Safari/537.36'

    }

    for value in ids.values():

        url = "https://movie.douban.com/subject/" + value + "/photos?type=R"

        r.append(req.get(url, headers=headers))

    return r

def analysis_movice_detail(html):  # 分析每個電影的海報界面

    global conformIds

    t = html

    conformIds = {}  # 符合要求的海報id集合

    for each in t:

        flag = 0

        soup = bs4.BeautifulSoup(each.text, 'html.parser')  # 注意是each.text

        ul = soup.find('ul', class_='poster-col3 clearfix')

        h1 = soup.find('h1')

        lis = ul.find_all('li')

        if lis is not None:

            # 某一電影海報界面li集合

            for a in lis:

                real_id = a['data-id']

                div = a.find('div', class_='prop').text.split('x')

                # 如果圖片尺寸滿足要求(長寬均>800) 保存到ids

                if int(div[0].split()[0]) > 0 and int(div[1].split()[0]) > 0:

                    flag = flag + 1

                    conformIds[h1.text.split()[0] + str(flag)] = real_id

                if flag == 5:
                    break
    
    return conformIds

def image_save():

    folder = '豆瓣top250'

    g = 1

    try:  # 防止出現(xiàn)同名文件夾

        os.mkdir(folder)

    except:

        folder = '豆瓣top250(' + str(g) + ')'

        g += 1

        os.mkdir(folder)

    os.chdir(folder)

    for item in conformIds.items():

        with open(item[0] + '.jpg', 'wb') as f:

            heards = {

                'user-agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_0) AppleWebKit/537.36 (KHTML, like Gecko) '

                              'Chrome/79.0.3945.117 Safari/537.36',

                'referer': 'https://movie.douban.com/photos/photo/' + item[1]

            }

            img_html = req.get("https://img3.doubanio.com/view/photo/raw/public/p" + item[1], headers=heards)

            f.write(img_html.content)

def main():

    page = how_many_pages()

    html = get_content(page)

    movies = analysis_content(html)

    a = movice_detail(movies)  # 獲取每個電影的海報界面

    analysis_movice_detail(a)

    image_save()

if name == "main":

    main()
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末猜丹,一起剝皮案震驚了整個濱河市芝加,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌射窒,老刑警劉巖藏杖,帶你破解...
    沈念sama閱讀 212,816評論 6 492
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異脉顿,居然都是意外死亡蝌麸,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,729評論 3 385
  • 文/潘曉璐 我一進(jìn)店門艾疟,熙熙樓的掌柜王于貴愁眉苦臉地迎上來来吩,“玉大人,你說我怎么就攤上這事蔽莱〉芙” “怎么了?”我有些...
    開封第一講書人閱讀 158,300評論 0 348
  • 文/不壞的土叔 我叫張陵盗冷,是天一觀的道長怠苔。 經(jīng)常有香客問我,道長仪糖,這世上最難降的妖魔是什么柑司? 我笑而不...
    開封第一講書人閱讀 56,780評論 1 285
  • 正文 為了忘掉前任迫肖,我火速辦了婚禮,結(jié)果婚禮上攒驰,老公的妹妹穿的比我還像新娘咒程。我一直安慰自己,他們只是感情好讼育,可當(dāng)我...
    茶點故事閱讀 65,890評論 6 385
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著稠集,像睡著了一般奶段。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上剥纷,一...
    開封第一講書人閱讀 50,084評論 1 291
  • 那天痹籍,我揣著相機(jī)與錄音,去河邊找鬼晦鞋。 笑死蹲缠,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的悠垛。 我是一名探鬼主播线定,決...
    沈念sama閱讀 39,151評論 3 410
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼确买!你這毒婦竟也來了斤讥?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 37,912評論 0 268
  • 序言:老撾萬榮一對情侶失蹤湾趾,失蹤者是張志新(化名)和其女友劉穎芭商,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體搀缠,經(jīng)...
    沈念sama閱讀 44,355評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡铛楣,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,666評論 2 327
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了艺普。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片簸州。...
    茶點故事閱讀 38,809評論 1 341
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖衷敌,靈堂內(nèi)的尸體忽然破棺而出勿侯,到底是詐尸還是另有隱情,我是刑警寧澤缴罗,帶...
    沈念sama閱讀 34,504評論 4 334
  • 正文 年R本政府宣布助琐,位于F島的核電站,受9級特大地震影響面氓,放射性物質(zhì)發(fā)生泄漏兵钮。R本人自食惡果不足惜蛆橡,卻給世界環(huán)境...
    茶點故事閱讀 40,150評論 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望掘譬。 院中可真熱鬧泰演,春花似錦、人聲如沸葱轩。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,882評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽靴拱。三九已至垃喊,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間袜炕,已是汗流浹背本谜。 一陣腳步聲響...
    開封第一講書人閱讀 32,121評論 1 267
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留偎窘,地道東北人乌助。 一個月前我還...
    沈念sama閱讀 46,628評論 2 362
  • 正文 我出身青樓,卻偏偏與公主長得像陌知,于是被迫代替她去往敵國和親他托。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 43,724評論 2 351