淘女郎茉帅,也被很多人稱作“網(wǎng)絡(luò)模特”,就是專門給淘寶、天貓等線上商家拍攝圖片的平面模特苗踪。
我們將用Python3和Selenium Webdriver抓取每一個美眉的個人主頁內(nèi)的寫真圖片触机,把每一個美眉的寫真圖片按照文件夾保存到本地帚戳。
先說一下網(wǎng)頁爬取的一般步驟:
1.查看目標網(wǎng)站頁面的源代碼,找到需要爬取的內(nèi)容
2.用正則或其他如xpath/bs4的工具獲取爬取內(nèi)容
3.寫出完整的python代碼儡首,實現(xiàn)爬取過程
查看網(wǎng)站源碼片任,火狐瀏覽器右鍵-查看源代碼即可獲取:
代碼編寫的關(guān)鍵步驟:
①需要用到的模塊
②解析目標網(wǎng)頁的 Html 源碼
bsObj = BeautifulSoup(driver.page_source, parser)
③用正則表達式獲取美女圖片
imagesUrl = re.findall('\/\/gtd\.alicdn\.com\/sns_logo.*\.jpg',driver.page_source)
④解析出個人主頁地址等信息
girlsUrl = bsObj.find_all("a",{"href":re.compile("\/\/.*\.htm\?(userId=)\d*")})
⑤獲取所有美女的圖片url
girlsHURL = [('http:' + i['href']) for i in girlsUrl]
⑥判斷路徑文件夾是否創(chuàng)建,如果未創(chuàng)建則創(chuàng)建文件夾保存圖片
defmkdir(path):
# 判斷路徑是否存在
isExists=os.path.exists(path)
# 判斷結(jié)果
ifnotisExists:
# 如果不存在則創(chuàng)建目錄
print(" ? ?[*]新建了文件夾",path)
# 創(chuàng)建目錄操作函數(shù)
os.makedirs(path)
else:
# 如果目錄存在則不創(chuàng)建蔬胯,并提示目錄已存在
print(' ? ?[+]文件夾',path,'已創(chuàng)建')
if__name__=='__main__':
ifnotos.path.exists(outputDir):
os.makedirs(outputDir)
main()
Python執(zhí)行文件后抓取的效果如下圖所示: