一谈撒、前言
在上一篇博文中港华,我們的爬蟲(chóng)面臨著一個(gè)問(wèn)題立宜,在爬取Unsplash網(wǎng)站的時(shí)候橙数,由于網(wǎng)站是下拉刷新灯帮,并沒(méi)有分頁(yè)钟哥。所以不能夠通過(guò)頁(yè)碼獲取頁(yè)面的url來(lái)分別發(fā)送網(wǎng)絡(luò)請(qǐng)求。我也嘗試了其他方式腻贰,比如下拉的時(shí)候監(jiān)控http請(qǐng)求,看看請(qǐng)求是否有規(guī)律可以模擬伴奥。后來(lái)發(fā)現(xiàn)請(qǐng)求并沒(méi)有規(guī)律拾徙,也就是不能夠模擬http請(qǐng)求來(lái)獲取新的數(shù)據(jù)(也可能是我水平有限尼啡,哪位童鞋找到了規(guī)律一定要告訴我哦)玄叠。那么就只有模擬下拉操作了。
想要模擬下拉操作代态,我們需要用到兩個(gè)工具蹦疑,一個(gè)是PhatomJs歉摧,一個(gè)是Selenium叁温。
PhatomJS其實(shí)就是一個(gè)沒(méi)有界面的瀏覽器膝但,最主要的功能是能夠讀取js加載的頁(yè)面跟束。
Selenium實(shí)質(zhì)上是一個(gè)自動(dòng)化測(cè)試工具冀宴,能夠模擬用戶(hù)的一些行為操作略贮,比如下拉網(wǎng)頁(yè)刨肃。
一直有個(gè)說(shuō)法真友,Python + PhatomJS + Selenium 是爬蟲(chóng)的無(wú)敵三件套盔然,基本能夠?qū)崿F(xiàn)所有爬蟲(chóng)需求愈案。
OK,我們分別介紹下他們的使用遭铺,然后開(kāi)始我們的實(shí)戰(zhàn)魂挂。
二涂召、運(yùn)行環(huán)境
我的運(yùn)行環(huán)境如下:
系統(tǒng)版本
Windows10果正。Python版本
Python3.5秋泳,推薦使用Anaconda 這個(gè)科學(xué)計(jì)算版本轮锥,主要是因?yàn)樗詭б粋€(gè)包管理工具舍杜,可以解決有些包安裝錯(cuò)誤的問(wèn)題。去Anaconda官網(wǎng)赵辕,選擇Python3.5版本既绩,然后下載安裝。IDE
我使用的是PyCharm还惠,是專(zhuān)門(mén)為Python開(kāi)發(fā)的IDE饲握。這是JetBrians的產(chǎn)品,點(diǎn)我下載。
三救欧、PhatomJS
1. 簡(jiǎn)介
PhatomJS是一個(gè)WebKit內(nèi)核的瀏覽器引擎,它能像瀏覽器一樣(它就是一個(gè)瀏覽器笆怠,只不過(guò)沒(méi)有界面)解析網(wǎng)頁(yè)铝耻,以及運(yùn)行JavaScript腳本。
迄今為止蹬刷,我們的實(shí)戰(zhàn)小爬蟲(chóng)只是在模擬http請(qǐng)求瓢捉,然后獲取response,從response中解析HTML代碼獲得想要的數(shù)據(jù)办成。但是泡态,網(wǎng)頁(yè)中有些數(shù)據(jù)是用js動(dòng)態(tài)加載的,這樣迂卢,我們使用使用http請(qǐng)求獲得的數(shù)據(jù)中并不包含js動(dòng)態(tài)加載的內(nèi)容某弦。比如我在本系列的第一篇博文中請(qǐng)求了一下網(wǎng)易云音樂(lè)的網(wǎng)站,本來(lái)想用網(wǎng)易云音樂(lè)做實(shí)戰(zhàn)示例的(我的設(shè)計(jì)師小伙伴兒的另一個(gè)需求)而克,不過(guò)由于它是由js動(dòng)態(tài)加載的刀崖,用不到requests庫(kù),所以就先以Unsplash網(wǎng)站為實(shí)例了拍摇。寫(xiě)完Unsplash網(wǎng)站的爬蟲(chóng)后就開(kāi)始網(wǎng)易云音樂(lè)的實(shí)戰(zhàn)!
那么馆截,怎么判斷一個(gè)網(wǎng)站的內(nèi)容是不是js動(dòng)態(tài)加載的呢充活?
打開(kāi)網(wǎng)易云音樂(lè),在頁(yè)面上點(diǎn)擊右鍵-->View page source蜡娶。會(huì)彈出一個(gè)新窗口混卵,在新窗口中搜索你想要爬取的內(nèi)容,發(fā)現(xiàn)搜不到窖张。那就肯定是js動(dòng)態(tài)加載的了幕随。
比如看下圖中的選中圖片,下面有文字:“影視歌曲|重新演繹經(jīng)典 聽(tīng)翻唱煥發(fā)新生命力”宿接。
我們?cè)赩iew page source頁(yè)面搜索該內(nèi)容赘淮,發(fā)現(xiàn)搜索不到,可見(jiàn)這部分內(nèi)容是由js動(dòng)態(tài)加載的睦霎。
好了梢卸,進(jìn)入正題,來(lái)看看PhatomJS如何使用副女。
2. 安裝 PhatomJS
PhatomJS 不能使用conda install 或者pip install 來(lái)安裝蛤高。需要去官網(wǎng)下載,選擇你的系統(tǒng)版本。下載完成的是一個(gè)壓縮包戴陡,解壓到你想存放的目錄(我放在了“C:\Program Files\” 目錄)塞绿。
接下來(lái)需要把PhatomJS配置成環(huán)境變量,這樣就可以直接調(diào)用了恤批。
步驟:
1). 按win+E快捷鍵打開(kāi)文件資源管理器“异吻,在左側(cè)的“此電腦”上點(diǎn)擊右鍵,選擇“屬性”开皿。
2). 在打開(kāi)的窗口中左側(cè)涧黄,點(diǎn)擊“高級(jí)系統(tǒng)設(shè)置”。
3). 在彈出的窗口中點(diǎn)擊“環(huán)境變量”赋荆。
4). 在新窗口中選擇“PATH”笋妥,在下方點(diǎn)擊編輯按鈕。
5). 把phatomjs.exe所在的目錄添加到path中即可窄潭。
這樣春宣,安裝過(guò)程就搞定了。
3. PhatomJS 的使用
在網(wǎng)上搜了一下嫉你,沒(méi)有找到中文的官網(wǎng)文檔月帝,只找到了PhatomJS英文官方文檔。
3.1 舉個(gè)栗子
先來(lái)一個(gè)官網(wǎng)上的例子幽污,PhatomJS執(zhí)行js文件嚷辅,輸出“Hello, World距误!”
新建一個(gè)js文件簸搞,包含下面的代碼,然后保存為hello.js准潭。
console.log('Hello, world!');
phantom.exit(); #用來(lái)終止phtomjs程序
打開(kāi)cmd命令窗口趁俊,進(jìn)入到hello.js 文件所在目錄,執(zhí)行下面的命令:
phantomjs hello.js
輸出:
Hello, world!
這個(gè)例子雖然方法比較笨刑然,需要先創(chuàng)建一個(gè)js文件鲜漩,然后再去執(zhí)行硝训。但是演示了PhatomJS的一個(gè)很重要的功能亡脸,就是執(zhí)行js代碼衣厘。我們后面會(huì)用到它來(lái)執(zhí)行下拉操作哦。
3.2 再來(lái)個(gè)栗子
我們使用PhatomJS來(lái)請(qǐng)求一個(gè)網(wǎng)頁(yè)择镇,然后把網(wǎng)頁(yè)截圖保存爽雄。
創(chuàng)建一個(gè)js文件,包含下面的代碼沐鼠,保存為music.js
var page = require('webpage').create();
page.open('http://music.163.com/', function(status) {
console.log("Status: " + status);
if(status === "success") {
page.render('music.png');
}
phantom.exit();
});
然后使用cmd命令窗口挚瘟,在music.js文件所在目錄叹谁,執(zhí)行下面的命令:
phatomjs music.js
這樣會(huì)有一個(gè)屏幕截圖保存在文件所在的文件夾嘍。
3.3 其他栗子
還有一些功能就不細(xì)細(xì)展開(kāi)了乘盖,知道常用的就可以繼續(xù)咱們的爬蟲(chóng)了焰檩。有用到其他功能的童鞋們?nèi)ス倬W(wǎng)看看例子。
對(duì)了订框,官網(wǎng)還有許多栗子析苫,奉上鏈接:Phatomjs官網(wǎng)栗子。
四穿扳、Selenium
1. 簡(jiǎn)介
Selenium是一個(gè)自動(dòng)化測(cè)試框架衩侥,廣泛的用于自動(dòng)化測(cè)試領(lǐng)域(是不是真的廣泛用于自動(dòng)化測(cè)試領(lǐng)域我也不知道,沒(méi)怎么搞過(guò)自動(dòng)化測(cè)試 -_-!矛物,這是我臆測(cè)的 = ̄ω ̄=)茫死。因?yàn)樗軌蚰M人工操作,比如能在瀏覽器中點(diǎn)擊按鈕履羞、在輸入框中輸入文本峦萎、自動(dòng)填充表單、還能進(jìn)行瀏覽器窗口的切換忆首、對(duì)彈出窗口進(jìn)行操作爱榔。也就是說(shuō)你能手動(dòng)做的東西,基本都能用它來(lái)實(shí)現(xiàn)自動(dòng)化糙及!
自己總結(jié)的大白話(huà)介紹~详幽,大家湊合看哦。主要是文學(xué)水平有限浸锨,青春期的時(shí)候還想當(dāng)一個(gè)文藝青年妒潭,沒(méi)事兒矯情矯情寫(xiě)點(diǎn)東西,還注重個(gè)押韻啥的揣钦,學(xué)了理工科以后,矯情的東西受不了了漠酿,喜歡直接了當(dāng)?shù)姆氚肌0ミ希芷顺闯埃s緊回歸正題宇姚!
該框架還支持多種語(yǔ)言:Java、C#夫凸、Python浑劳、Ruby、PHP夭拌、Perl魔熏、JavaScript衷咽。
當(dāng)然,我們使用的是面向Python語(yǔ)言的API蒜绽。
2. 安裝 Selenium
可以使用pip install selenium
來(lái)安裝镶骗。使用Anaconda3版本的童鞋們,conda install selenium
在我的機(jī)器上不會(huì)下載躲雅,未找到原因鼎姊。但是同樣使用pip install selenium
安裝成功了。通過(guò)在命令行里面輸入conda list
相赁,可以看到已經(jīng)安裝的包相寇。
同時(shí)裝有Python2.7和Python3.5的童鞋,使用下面的命令來(lái)安裝钮科。
py -3 -m pip install selenium
3. Selenium 的使用
Selenium支持很多語(yǔ)言的使用唤衫,上面也提到了。其他語(yǔ)言的使用我沒(méi)有接觸過(guò)跺嗽,直接看Python語(yǔ)言的使用战授。官網(wǎng):Selenium with Python。
3.1 同樣先來(lái)個(gè)栗子
因?yàn)镻hatomJS沒(méi)有界面桨嫁,在使用的時(shí)候沒(méi)有直觀(guān)感受植兰。所以,我們暫時(shí)使用Chrome瀏覽器代替PhatomJS璃吧。
首先下載Chrome瀏覽器驅(qū)動(dòng):下載地址楣导,選擇自己的系統(tǒng)版本,然后下載畜挨。這是一個(gè)壓縮包筒繁,解壓后存到一個(gè)目錄中,然后把該目錄添加到環(huán)境變量巴元。因?yàn)樯厦娴腜hatomJS已經(jīng)演示過(guò)添加環(huán)境變量的流程毡咏,這里就不贅述了。
在PyCharm中輸入下面代碼逮刨,然后運(yùn)行看看有什么反應(yīng)呕缭。
from selenium import webdriver #導(dǎo)入Selenium的webdriver
from selenium.webdriver.common.keys import Keys #導(dǎo)入Keys
driver = webdriver.Chrome() #指定使用的瀏覽器,初始化webdriver
#注:如果添加了環(huán)境變量也不能成功調(diào)用谷歌瀏覽器的話(huà)修己,直接添加你的谷歌瀏覽器驅(qū)動(dòng)地址恢总,如下:
#driver = webdriver.Chrome("C:\Program Files\chromedriver_win32\chromedriver.exe") #左邊驅(qū)動(dòng)地址是我存放的目錄
driver.get("http://www.python.org") #請(qǐng)求網(wǎng)頁(yè)地址
assert "Python" in driver.title #看看Python關(guān)鍵字是否在網(wǎng)頁(yè)title中,如果在則繼續(xù)睬愤,如果不在片仿,程序跳出。
elem = driver.find_element_by_name("q") #找到name為q的元素尤辱,這里是個(gè)搜索框
elem.clear() #清空搜索框中的內(nèi)容
elem.send_keys("pycon") #在搜索框中輸入pycon
elem.send_keys(Keys.RETURN) #相當(dāng)于回車(chē)鍵砂豌,提交
assert "No results found." not in driver.page_source #如果當(dāng)前頁(yè)面文本中有“No results found.”則程序跳出
driver.close() #關(guān)閉webdriver
哎呀厢岂,其實(shí)瀏覽器的變化流程我都寫(xiě)到上面的代碼的注釋中了,就不再說(shuō)一遍了哦奸鸯。
通過(guò)上面的例子咪笑,我們可以大概的了解了Selenium都能做什么。個(gè)人認(rèn)為其中比較重要的就是定位娄涩,即找到頁(yè)面中的元素窗怒,然后進(jìn)行相關(guān)操作。
3.2 導(dǎo)航操作 Navigating
導(dǎo)航操作的使用非常簡(jiǎn)單蓄拣,完全可以通名字就知道它們是干什么的扬虚,不信先給你幾個(gè)例子瞧瞧:
element = driver.find_element_by_id("passwd-id") #通過(guò)id獲取元素
element = driver.find_element_by_name("passwd") #通過(guò)name獲取元素
element = driver.find_element_by_xpath("http://input[@id='passwd-id']") #通過(guò)使用xpath匹配獲取元素
下面列出詳細(xì)的定位方法。有定位一個(gè)元素的球恤,也有定位多個(gè)元素的辜昵。
- 定位一個(gè)元素:
find_element_by_id
find_element_by_name
find_element_by_xpath
find_element_by_link_text
find_element_by_partial_link_text
find_element_by_tag_name
find_element_by_class_name
find_element_by_css_selector
- 定位多個(gè)元素:
find_elements_by_name
find_elements_by_xpath
find_elements_by_link_text
find_elements_by_partial_link_text
find_elements_by_tag_name
find_elements_by_class_name
find_elements_by_css_selector
通過(guò)導(dǎo)航操作,我們就可以在找到想找的元素咽斧,然后進(jìn)行接下來(lái)的處理堪置,比如,想在一個(gè)輸入框中輸入數(shù)據(jù)张惹∫ㄏ牵看3.1的那個(gè)栗子,通過(guò)導(dǎo)航宛逗,找到了name為p的輸入框坎匿,然后使用send_keys
在輸入框中寫(xiě)入數(shù)據(jù):
elem.send_keys("pycon")
我們知道了如何在輸入框中輸入數(shù)據(jù),那如果我們碰到了下拉框該怎么辦呢雷激?
from selenium.webdriver.support.ui import Select #導(dǎo)入Select
select = Select(driver.find_element_by_name('name')) #通過(guò)Select來(lái)定義該元素是下拉框
select.select_by_index(index) #通過(guò)下拉元素的位置來(lái)選擇
select.select_by_visible_text("text") #通過(guò)下拉元素的內(nèi)容來(lái)選擇
select.select_by_value(value) #通過(guò)下拉元素的取值來(lái)選擇
來(lái)看一個(gè)下拉框的HTML:
<select name="cars">
<option value ="volvo">沃爾沃</option>
<option value ="bmw">寶馬</option>
<option value="benz">奔馳</option>
<option value="audi">奧迪</option>
</select>
結(jié)合上面的例子:
from selenium.webdriver.support.ui import Select
select = Select(driver.find_element_by_name('cars')) #找到name為cars的select標(biāo)簽
select.select_by_index(1) #下拉框選中沃爾沃
select.select_by_visible_text("寶馬") #下拉框選中寶馬
select.select_by_value("benz") #下拉框選中奧迪
嗯...替蔬,讓我想想還有什么... ...。對(duì)了屎暇,還有一個(gè)操作特別常用承桥,就是點(diǎn)擊操作。這個(gè)很簡(jiǎn)單:
elem.click()
在找到的元素后面加上click()就可以了根悼。
3.3 Cookies
我們想要爬取的網(wǎng)站有些可能需要登錄凶异,這樣就需要在請(qǐng)求網(wǎng)站的時(shí)候添加Cookies。
driver.get("http://www.example.com") #先請(qǐng)求一個(gè)網(wǎng)頁(yè)
cookie = {‘name’ : ‘foo’, ‘value’ : ‘bar’} #設(shè)置cookie內(nèi)容
driver.add_cookie(cookie) #添加cookie
3.4 其他
還有其他的功能番挺,比如拖拽頁(yè)面的元素、瀏覽器切換屯掖、處理彈出框口等玄柏。我就不一一列舉了,有需要的小伙伴兒們?nèi)タ纯垂倬W(wǎng)吧贴铜。
五粪摘、后語(yǔ)
我們的PhatomJS 和Selenium 已經(jīng)安裝完成瀑晒,并且了解了他們的使用。
這篇就先到這里吧徘意,下一篇開(kāi)始改造我們的小爬蟲(chóng)嘍苔悦。