文章分三個個部分
- 兩個爬蟲庫requests和selenium如何使用
- html解析庫BeautifulSoup如何使用
- 動態(tài)加載的網(wǎng)頁數(shù)據(jù)用requests怎么抓
兩個爬蟲庫
requests
假設windows下安裝好了python和pip等孵。
下面用pip安裝爬蟲庫requests
如果提示pip版本低辈赋,不建議升級袋哼,升級后可能python本身版本低炫乓,導致pip指令報錯刚夺。
進入Python命令行驗證requests庫是否能夠使用
看到import requests和requests.get函數(shù)都沒有報錯,說明安裝成功可以開發(fā)我們的第一個爬蟲程序了末捣!
將代碼文件命名為test.py侠姑,用IDEL打開。
最簡單的爬蟲就這么幾行箩做!
- 引入requests庫莽红,
- 用get函數(shù)訪問對應地址,
- 判定是否抓取成功的狀態(tài)邦邦,r.text打印出抓取的數(shù)據(jù)安吁。
然后菜單欄點擊Run->Run Module 會彈出Python的命令行窗口醉蚁,并且返回結果。我們訪問的是騰訊發(fā)布新冠肺炎疫情的地址
如果沒有IDEL柳畔,直接cmd命令行運行按照下面執(zhí)行
selenium
selenium庫會啟動瀏覽器馍管,用瀏覽器訪問地址獲取數(shù)據(jù)。下面我們演示用selenium抓取網(wǎng)頁薪韩,并解析爬取的html數(shù)據(jù)中的信息确沸。先安裝selenium
接下來安裝解析html需要的bs4和lxml。
安裝bs4
安裝lxml
要確保windows環(huán)境變量path的目錄下有chromedriver
我d盤的instantclient_12_2已經(jīng)加到path里了俘陷。所以chromedriver解壓到這個目錄罗捎。chromedriver不同的版本對應Chrome瀏覽器的不同版本,開始我下載的chromedriver對應Chrome瀏覽器的版本是71-75(圖中最下面的)拉盾,我的瀏覽器版本是80所以重新下載了一個才好使桨菜。
代碼如下
Python執(zhí)行過程中會彈出
瀏覽器也自動啟動,訪問目標地址
IDEL打印結果如下
HTML解析庫BeautifulSoup
selenium例子中爬取數(shù)據(jù)后使用BeautifulSoup庫對html進行解析捉偏,提取了感興趣的部分倒得。如果不解析,抓取的就是一整個html數(shù)據(jù)夭禽,有時也是xml數(shù)據(jù)霞掺,xml數(shù)據(jù)對標簽的解析和html是一樣的道理,兩者都是<tag>來區(qū)分數(shù)據(jù)的讹躯。這種格式的數(shù)據(jù)結構一個頁面一個樣子菩彬,解析起來很麻煩。BeautifulSoup提供了強大的解析功能潮梯,可以幫助我們省去不少麻煩骗灶。
使用之前安裝BeautifulSoup和lxml。
首先代碼要引入這個庫(參考上面selenium庫代碼)
from bs4 import BeautifulSoup
然后秉馏,抓取
r = request.get(url)
r.encoding='utf8'
html=r.read() #urlopen獲取的內(nèi)容都在html中
mysoup=BeautifulSoup(html, 'lxml') #html的信息都在mysoup中了
假設我們對html中的如下部分數(shù)據(jù)感興趣
<data>
<day>20200214</day>
<id>1</id>
<rank>11</rank>
<name>張三</name>
</data>
<data>
<day>20200214</day>
<id>4</id>
<rank>17</rank>
<name>李斯</name>
</data>
首先要找到tag標簽為<data>的數(shù)據(jù)耙旦,而這類數(shù)據(jù)不止一條,我們以兩條為例萝究。那么需要用到beautifulsoup的find_all函數(shù)免都,返回的結果應該是兩個<data>數(shù)據(jù)。當處理每一個<data>數(shù)據(jù)時糊肤,里面的<id><name>等標簽都是唯一的,這時使用find函數(shù)氓鄙。
mysoup=BeautifulSoup(html, 'lxml')
data_list=mysoup.find_all('data')
for data in data_list:#list應該有兩個元素
day = data.find('day').get_text() #get_text是獲取字符串馆揉,可以用.string代替
id = data.find('id').get_text()
rank = data.find('rank').get_text()
name = data.find('name').get_text()
#print name 可以print測試解析結果
這是beautifulsoup最簡單的用法,find和find_all不僅可以按照標簽的名字定位元素抖拦,還可以按照class升酣,style等各種屬性舷暮,以及文本內(nèi)容text作為條件來查找你感興趣的內(nèi)容,非常強大噩茄。
requests庫如何抓取網(wǎng)頁的動態(tài)加載數(shù)據(jù)
還是以新冠肺炎的疫情統(tǒng)計網(wǎng)頁為例下面。本文開頭requests例子最后打印的結果里面只有標題、欄目名稱之類的绩聘,沒有累計確診沥割、累計死亡等等的數(shù)據(jù)。因為這個頁面的數(shù)據(jù)是動態(tài)加載上去的凿菩,不是靜態(tài)的html頁面机杜。需要按照我上面寫的步驟來獲取數(shù)據(jù),關鍵是獲得URL和對應參數(shù)formdata衅谷。下面以火狐瀏覽器講講如何獲得這兩個數(shù)據(jù)椒拗。
肺炎頁面右鍵,出現(xiàn)的菜單選擇檢查元素获黔。
點擊上圖紅色箭頭網(wǎng)絡選項,然后刷新頁面。如下彩倚,
這里會出現(xiàn)很多網(wǎng)絡傳輸記錄摔蓝,觀察最右側紅框“大小”那列,這列表示這個http請求傳輸?shù)臄?shù)據(jù)量大小预茄,動態(tài)加載的數(shù)據(jù)一般數(shù)據(jù)量會比其它頁面元素的傳輸大兴溜,119kb相比其它按字節(jié)計算的算是很大的數(shù)據(jù)了,當然網(wǎng)頁的裝飾圖片有的也很大耻陕,這個需要按照文件類型那列來甄別拙徽。
url帶參數(shù)
然后點擊域名列對應那行,如下
可以在消息頭中看見請求網(wǎng)址诗宣,url的尾部問號后面已經(jīng)把參數(shù)寫上了膘怕。
途中url解釋,name是disease_h5召庞,callback是頁面回調(diào)函數(shù)岛心,我們不需要有回調(diào)動作,所以設置為空篮灼,_對應的是時間戳(Python很容易獲得時間戳的)忘古,因為查詢肺炎患者數(shù)量和時間是緊密相關的。
我們?nèi)绻褂脦?shù)的URL诅诱,那么就用
url='網(wǎng)址/g2/getOnsInfo?name=disease_h5&callback=&_=%d'%int(stamp*1000)
requests.get(url)
url和參數(shù)分離
點擊參數(shù)可以看見url對應的參數(shù)
如果使用參數(shù)和url分離的形式那么
那么就這樣
url="網(wǎng)址/g2/getOnsInfo"
formdata = {'name': 'disease_h5',
'callback': '',
'_': 當前時間戳
}
requests.get(url, formdata)
找url和參數(shù)需要耐心分析髓堪,才能正確甄別url和參數(shù)的含義,進行正確的編程實現(xiàn)。參數(shù)是否可以空干旁,是否可以硬編碼寫死驶沼,是否有特殊要求,比較依賴經(jīng)驗争群。
總結
學完本文回怜,閱讀爬蟲代碼就很容易了,所有代碼都是為了成功get到url做的準備以及抓到數(shù)據(jù)之后的解析而已换薄。
有的url很簡單玉雾,返回一個.dat文件,里面直接就是json格式的數(shù)據(jù)专控。有的需要設置大量參數(shù)抹凳,才能獲得,而且獲得的是html格式的伦腐,需要解析才能提取數(shù)據(jù)赢底。
爬到的數(shù)據(jù)可以存入數(shù)據(jù)庫,寫入文件柏蘑,也可以現(xiàn)抓現(xiàn)展示不存儲幸冻。