# 爬去豆瓣電影其中一部電影中所有的劇照 例子里用的是《鳥人》
# 先得到所有urls 這種策略似乎有點愚蠢 如果得不到url就悲劇了
# 可能邊找邊保存 或者 用多線程 都會好一些涤妒。
import requests
from bs4 import BeautifulSoup
import time
import os
# 得到所有的網(wǎng)頁
def get_urls(n):
urls = []
for i in range(n):
url ="https://movie.douban.com/subject/20438962/photos?type=S&start=%i"%(i*30) # 鳥人的url
urls.append(url)
return(urls)
# 得到圖片的鏈接
def parse_url(urls,headers):
picture_urls = []
for ui in urls:
ri = requests.get(url=ui,headers=headers)
# print(ri.text)
soup = BeautifulSoup(ri.text,'lxml')
ul = soup.find('ul',class_="poster-col3 clearfix")
lis = ul.find_all('li')
# print(len(lis))
for li in lis:
url_link = li.find("img")["src"]
picture_urls.append(url_link)
print(url_link)
# time.sleep(1) # 休息1s
# print(picture_urls)
return(picture_urls)
# print(len(li))
# 保存圖片
def save_pictures(urls,path):
for pic in urls:
picture = requests.get(pic)
name =pic.split("/")[-1]
savepath = path + '/' + name
with open(savepath,"wb") as f:
f.write(picture.content)
print("已經(jīng)保存" + name)
if __name__ == '__main__':
headers = {
'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.87 Safari/537.36'
}
# cookie = {'bid=pEVRx5Atsbg; gr_user_id=55cb2cb6-72d2-4edc-849c-41c97efe6ed1; _vwo_uuid_v2=D6942293ABD2C06C0FD297FF0C094A22F|b6163324a54034fd46a0c0ff38c052dd; push_noty_num=0; push_doumail_num=0; __utmv=30149280.8901; ll="118282"; douban-profile-remind=1; douban-fav-remind=1; ct=y; __utmz=30149280.1564624985.50.9.utmcsr=google|utmccn=(organic)|utmcmd=organic|utmctr=(not%20provided); UM_distinctid=16c4aea9cd774-0a35554905ca2d-37627c02-384000-16c4aea9cd8263; __utmc=30149280; __utmc=223695111; viewed="30463116_1291204_26999123_1072313_26895988_25913349_4237482_30400047_30395230_3584987"; __utma=30149280.1328571580.1561017049.1565080925.1565086173.59; _pk_ref.100001.4cf6=%5B%22%22%2C%22%22%2C1565086184%2C%22https%3A%2F%2Fbook.douban.com%2Fsubject_search%3Fsearch_text%3D%25E9%25B8%259F%25E4%25BA%25BA%26cat%3D1001%22%5D; _pk_ses.100001.4cf6=*; __utma=223695111.2042501461.1562549977.1565066378.1565086184.17; __utmb=223695111.0.10.1565086184; __utmz=223695111.1565086184.17.12.utmcsr=book.douban.com|utmccn=(referral)|utmcmd=referral|utmcct=/subject_search; ap_v=0,6.0; gr_session_id_22c937bbd8ebd703f2d8e9445f7dfd03=b71b9e87-9527-42d0-a06d-1c24303c4899; gr_cs1_b71b9e87-9527-42d0-a06d-1c24303c4899=user_id%3A0; __utmt_douban=1; gr_session_id_22c937bbd8ebd703f2d8e9445f7dfd03_b71b9e87-9527-42d0-a06d-1c24303c4899=true; __utmt=1; __utmb=30149280.6.10.1565086173; _pk_id.100001.4cf6=e3f875611916fee4.1562549977.16.1565089087.1565066378.'}
douban_urls = get_urls(51)
all_pic_urls = parse_url(douban_urls,headers)
save_path = './pictures'
# 如果文件路徑不存在即創(chuàng)建
if not os.path.exists(save_path):
os.makedirs(save_path)
save_pictures(all_pic_urls,save_path)
2019-08-06 爬取豆瓣電影鳥人的所有劇照
最后編輯于 :
?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
- 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來补鼻,“玉大人哄啄,你說我怎么就攤上這事》绶叮” “怎么了增淹?”我有些...
- 文/不壞的土叔 我叫張陵,是天一觀的道長乌企。 經(jīng)常有香客問我虑润,道長,這世上最難降的妖魔是什么加酵? 我笑而不...
- 正文 為了忘掉前任拳喻,我火速辦了婚禮,結果婚禮上猪腕,老公的妹妹穿的比我還像新娘冗澈。我一直安慰自己,他們只是感情好陋葡,可當我...
- 文/花漫 我一把揭開白布亚亲。 她就那樣靜靜地躺著,像睡著了一般腐缤。 火紅的嫁衣襯著肌膚如雪捌归。 梳的紋絲不亂的頭發(fā)上,一...
- 文/蒼蘭香墨 我猛地睜開眼角塑,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了淘讥?” 一聲冷哼從身側響起圃伶,我...
- 正文 年R本政府宣布,位于F島的核電站腔剂,受9級特大地震影響媒区,放射性物質發(fā)生泄漏。R本人自食惡果不足惜掸犬,卻給世界環(huán)境...
- 文/蒙蒙 一袜漩、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧湾碎,春花似錦宙攻、人聲如沸。這莊子的主人今日做“春日...
- 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至柔滔,卻和暖如春溢陪,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背廊遍。 一陣腳步聲響...