對爬取到的圖片進行分類命名辟癌,下面開始了荐捻。
一处面、首先給出URL地址www.wmpic.me/touxiang/nvsheng
二魂角、下載圖片,進行分析野揪,并保存圖片至本地斯稳,直接上代碼
import requests
from bs4 import BeautifulSoup
import random
user_agent = [
? ? ? ? 'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.1; WOW64; Trident/5.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET ? ? ? ? ? ? ? CLR 3.0.30729; Media Center PC 6.0; .NET4.0C; .NET4.0E)',
? ? ? ? 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.11 (KHTML, like Gecko) Chrome/23.0.1271.64 Safari/537.11',
]
Yes_or_Not = ['y','n']
def download(url,folder,count=0):? ? #下載圖片
? ? headers = {'User-Agent':random.choice(user_agent)}
? ? content = requests.get(url,headers=headers).content
? ? typ = random.choice(Yes_or_Not)? #機器隨機選擇是Y還是N
? ? path = folder + "\\" + typ + '_'+str(count)+'.jpg'? #圖片格式
? ? with open(path,'wb') as f:
? ? ? ? f.write(content)? #寫入并保存圖片至本地文件
base_url = 'http://www.wmpic.me/touxiang/nvsheng/page/'
count = 1
for i in range(1,10):
? ? url = base_url + str(i)? ? #url地址
? ? headers = {'User_Agent':random.choice(user_agent)}
? ? html = requests.get(url,headers=headers).text
? ? soup = BeautifulSoup(html,'lxml')? #通過BeautifulSoup的lxml方法解析html
? ? for item in soup.select('li img'):? #解析定位到li img
? ? ? ? picture_url = item['src']
? ? ? ? if picture_url.find('215x185') != -1:? #215x185圖片的寬度和高度
? ? ? ? ? ? ? if count <= 300:
? ? ? ? ? ? ? ? ? ?download(picture_url,'train_pictures',count)? ? #保存圖片至train_pictures文件夾下
? ? ? ? ? ? ? ? ? ?print(picture_url)
? ? ? ? ? ? ? ? ? ?count += 1
? ? ? ? ? ? ? else:
? ? ? ? ? ? ? ? ? ? download(picture_url,'test_pictures',count)? ? #保存圖片至test_pictures文件夾下
? ? ? ? ? ? ? ? ? ? print(picture_url)
? ? ? ? ? ? ? ? ? ?count += 1
三平挑、運行結(jié)果
詳細請參考(七)美女分類器