環(huán)境準備
我個人使用的是mac,mac預(yù)裝的python環(huán)境是python2.x沟堡。
查看python版本:在終端(Terminal)中輸入“python”。
安裝pip:
下載地址:https://pypi.python.org/pypi/pip
解壓,安裝:
<code>sudo python setup.py install</code>
安裝BeautifulSoup:
<code>pip install BeautifulSoup</code>
Beautiful Soup是python的一個庫,最主要的功能是從網(wǎng)頁抓取數(shù)據(jù)。
編碼運行
抓取該網(wǎng)站圖片:http://www.win4000.com/meinvtag34.html
創(chuàng)建search.py文件并編寫對應(yīng)代碼
代碼:
#!/usr/bin/python
#-- coding: utf-8 --
#encoding=utf-8
import urllib2
import urllib
import os
from BeautifulSoup import BeautifulSoup
def getAllImageLink():
html = urllib2.urlopen('http://www.win4000.com/meinvtag34.html').read()
soup = BeautifulSoup(html)
liResult = soup.findAll('li',attrs={"class":"box"})
numberIndex = 0
for li in liResult:
imageEntityArray = li.findAll('img')
for image in imageEntityArray:
link = image.get('src')
imageName = 'image' + str(numberIndex)
numberIndex = numberIndex + 1
filesavepath = '/Users/YMY/Desktop/imageUrl/%s.jpg' % imageName
urllib.urlretrieve(link,filesavepath)
print filesavepath
if __name__ == '__main__':
getAllImageLink()
終端運行:
python search.py
最后就會在對應(yīng)的文件夾中生成爬下來的圖片碧磅。
需要學(xué)習(xí)
有些網(wǎng)頁的抓取可能沒那么簡單,不同的網(wǎng)站規(guī)則都是不一樣的遵馆。這時候就需要我們學(xué)會怎么去遍歷鲸郊,怎么找到我們需要的元素。Beautiful Soup里還有很多對應(yīng)的方法需要學(xué)習(xí)货邓,這里放上一份Beautiful Soup 4.2.0 文檔為以后學(xué)習(xí)使用秆撮。