一茶行、總結(jié):需要老師了,
0登钥,我通過簡書提交作業(yè)畔师,如何看您的點評,我給您發(fā)微博了
1牧牢,代理這個地方看锉,需要老師指導(dǎo),window 和ubuntu 下塔鳍,藍燈的安裝和使用伯铣。
2,urllib.request.urlretrieve(url, path + url.split('/')[-2] + url.split('/')[-1]) #這個地方如何改寫為支持代理轮纫,需要老師指點
如何能支持代理腔寡,特別是藍燈代理,以及藍燈應(yīng)該如何設(shè)置掌唾。我現(xiàn)在是firefox 能上國外網(wǎng)站的放前。
3,wb_data = requests.get(full_url,proxies=proxies) 使用代理馬上soup 中什么也沒有了糯彬,我用的代理是藍燈凭语,window環(huán)境,需要老師指點撩扒。
二似扔、成果展示
week1-4-2.jpg
week1-4.jpg
三代碼
#!C:\Python35\python.exe
# coding=utf-8
import requests
from bs4 import BeautifulSoup
import urllib.request
# 此網(wǎng)站會有針對 ip 的反爬取,可以采用代理的方式
proxies = {"http":"127.0.0.1:61070"}
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36'
}
# 'http://weheartit.com/inspirations/beach?page=8' full url
base_url = 'http://weheartit.com/search/entries?utf8=%E2%9C%93&ac=0&query=beach&page='
#http://weheartit.com/search/entries?utf8=%E2%9C%93&ac=0&query=beach&page=
path = './aaa/' # the last / can not lost
def get_image_url(num):
img_urls = []
for page_num in range(1,num+1):
full_url = base_url + str(page_num)
#wb_data = requests.get(full_url,proxies=proxies) 使用代理馬上soup 中什么也沒有了搓谆,我用的代理是藍燈虫几,window環(huán)境,需要老師指點
wb_data = requests.get(full_url)
soup = BeautifulSoup(wb_data.text,'lxml')
print(soup)
#imgs = soup.select('img.entry_thumbnail')
#entry-thumbnail
imgs = soup.select('#content > div.grid-thumb.grid-responsive > div > div > div > a > img')
#content > div.grid-thumb.grid-responsive > div > div > div > a > img
print("55555")
for i in imgs :
img_urls.append(i.get('src'))
print((len(img_urls)),'images shall be downloaded!')
return img_urls
# get_image_url(1)
# 'http://data.whicdn.com/images/268835689/superthumb.jpg'
def dl_image(url):
urllib.request.urlretrieve(url, path + url.split('/')[-2] + url.split('/')[-1]) #這個地方如何改寫為支持代理挽拔,需要老師指點
print('Done')
#
for url in get_image_url(3):
dl_image(url)