Python學習的第四天

爬蟲保存爬到的圖片

  • 圖片是以二進制的方式 所以在寫入圖片的時候要用"wb"二進制的方式寫入
# 導入
import requests
from lxml import etree
# from lxml import html
# etree = html.etree
def spider_douban_top250():
    movie_list_info = []
    headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.142 Safari/537.36"}
    for i in range(0, 250, 25):
        url = 'https://movie.douban.com/top250?start={}&filter='.format(i)

        # 獲取bytes類型響應
        data = requests.get(url, headers=headers).content
        html = etree.HTML(data)
        ol_list = html.xpath('//div[@id="content"]//div[@class="article"]/ol/li')

        for movie in ol_list:
            # 影片序號
            serial_number = movie.xpath('./div[@class="item"]/div[@class="pic"]/em/text()')
            if len(serial_number) == 0:
                serial_number = ''
            else:
                serial_number = serial_number[0]
            # print(serial_number)
            # 電影的名字
            movie_name = movie.xpath('./div[@class="item"]/div[@class="info"]/div[@class="hd"]/a/span[1]/text()')[0]
            # print(movie_name)
            # 電影的介紹
            movie_introduce = movie.xpath('./div[@class="item"]/div[@class="info"]/div[@class="bd"]/p[1]/text()')[
                0].strip()
            # print(movie_introduce)
            # 電影的星級
            star = \
            movie.xpath('./div[@class="item"]/div[@class="info"]/div[@class="bd"]/div[@class="star"]/span[2]/text()')[0]
            # print(star)
            # 電影的評價
            evalute = movie.xpath(
                './div[@class="item"]/div[@class="info"]/div[@class="bd"]/div[@class="star"]/span[4]/text()')
            evalute = evalute[0].replace('人評價', '')
            # print(evalute)
            # 電影的描述
            describe = movie.xpath('./div[@class="item"]/div[@class="info"]/div[@class="bd"]/p[@class="quote"]/span[1]/text()')
            # print(describe)
            # 電影封面的地址
            movie_img_url = movie.xpath('./div[@class="item"]/div[@class="pic"]/a/img/@src')[0]
            # print(movie_img_url)

            movie_list_info.append({
                'serial_number': serial_number,
                'movie_name': movie_name,
                'movie_introduce': movie_introduce,
                'star': star,
                'evalute': evalute,
                'describe': describe,
                'movie_img_url': movie_img_url
            })
    for movie in movie_list_info:
        print(movie)

        # 下載圖片
    for movie in movie_list_info:
        url = movie['movie_img_url']
        resp = requests.get(url)
        if resp.status_code == 200:
            img_name = '0000000{}.jpg'.format(movie['serial_number'])
            with open('./imgs/{}'.format(img_name), 'wb') as f: #保存圖片
                f.write(resp.content)

spider_douban_top250()
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末雹顺,一起剝皮案震驚了整個濱河市帝美,隨后出現(xiàn)的幾起案子归露,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 219,110評論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異篇恒,居然都是意外死亡,警方通過查閱死者的電腦和手機凶杖,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,443評論 3 395
  • 文/潘曉璐 我一進店門胁艰,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人智蝠,你說我怎么就攤上這事腾么。” “怎么了杈湾?”我有些...
    開封第一講書人閱讀 165,474評論 0 356
  • 文/不壞的土叔 我叫張陵解虱,是天一觀的道長。 經(jīng)常有香客問我漆撞,道長殴泰,這世上最難降的妖魔是什么于宙? 我笑而不...
    開封第一講書人閱讀 58,881評論 1 295
  • 正文 為了忘掉前任,我火速辦了婚禮艰匙,結(jié)果婚禮上限煞,老公的妹妹穿的比我還像新娘抹恳。我一直安慰自己员凝,他們只是感情好,可當我...
    茶點故事閱讀 67,902評論 6 392
  • 文/花漫 我一把揭開白布奋献。 她就那樣靜靜地躺著健霹,像睡著了一般。 火紅的嫁衣襯著肌膚如雪瓶蚂。 梳的紋絲不亂的頭發(fā)上糖埋,一...
    開封第一講書人閱讀 51,698評論 1 305
  • 那天,我揣著相機與錄音窃这,去河邊找鬼瞳别。 笑死,一個胖子當著我的面吹牛杭攻,可吹牛的內(nèi)容都是我干的祟敛。 我是一名探鬼主播,決...
    沈念sama閱讀 40,418評論 3 419
  • 文/蒼蘭香墨 我猛地睜開眼兆解,長吁一口氣:“原來是場噩夢啊……” “哼馆铁!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起锅睛,我...
    開封第一講書人閱讀 39,332評論 0 276
  • 序言:老撾萬榮一對情侶失蹤埠巨,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后现拒,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體辣垒,經(jīng)...
    沈念sama閱讀 45,796評論 1 316
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,968評論 3 337
  • 正文 我和宋清朗相戀三年印蔬,在試婚紗的時候發(fā)現(xiàn)自己被綠了勋桶。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 40,110評論 1 351
  • 序言:一個原本活蹦亂跳的男人離奇死亡扛点,死狀恐怖哥遮,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情陵究,我是刑警寧澤眠饮,帶...
    沈念sama閱讀 35,792評論 5 346
  • 正文 年R本政府宣布,位于F島的核電站铜邮,受9級特大地震影響仪召,放射性物質(zhì)發(fā)生泄漏寨蹋。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 41,455評論 3 331
  • 文/蒙蒙 一扔茅、第九天 我趴在偏房一處隱蔽的房頂上張望已旧。 院中可真熱鬧,春花似錦召娜、人聲如沸运褪。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,003評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽秸讹。三九已至,卻和暖如春雅倒,著一層夾襖步出監(jiān)牢的瞬間璃诀,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,130評論 1 272
  • 我被黑心中介騙來泰國打工蔑匣, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留劣欢,地道東北人。 一個月前我還...
    沈念sama閱讀 48,348評論 3 373
  • 正文 我出身青樓裁良,卻偏偏與公主長得像凿将,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子趴久,可洞房花燭夜當晚...
    茶點故事閱讀 45,047評論 2 355

推薦閱讀更多精彩內(nèi)容

  • 爬蟲(本地HTML) 獲取標簽中的內(nèi)容丸相,末尾要添加text() //表示可以代表從任意位置出發(fā)格式://標簽1[@...
    2031aa31c7a2閱讀 282評論 0 0
  • 爬蟲 爬蟲(又被稱為網(wǎng)頁蜘蛛,網(wǎng)絡(luò)機器人)彼棍,它是一種按照一定的規(guī)則灭忠,自動地抓取互聯(lián)網(wǎng)信息的程序或者腳本。也即它是一...
    小頴子閱讀 205評論 0 0
  • 爬蟲——大數(shù)據(jù) 1. 提取本地HTML中的數(shù)據(jù) 1. 新建index.html文件 2. 讀取HTML文件 需要安...
    婉兒吖閱讀 349評論 0 0
  • 一座硕、爬蟲 爬蟲(又被稱為網(wǎng)頁蜘蛛弛作,網(wǎng)絡(luò)機器人),它是一種按照一定的規(guī)則华匾,自動地抓取互聯(lián)網(wǎng)信息的程序或者腳本映琳。也即它...
    喵青禾閱讀 373評論 0 0
  • | 目錄 | 楔子上 刀是一種武器,再普通不過了蜘拉。 各種地方各種場合萨西,你都能見到各種刀具:菜刀,柴刀旭旭,樸刀谎脯,雁翎刀...
    金麟圣獸閱讀 418評論 3 9