Python爬蟲(chóng)小白入門(mén)(四)PhatomJS+Selenium第一篇

一谈撒、前言


在上一篇博文中港华,我們的爬蟲(chóng)面臨著一個(gè)問(wèn)題立宜,在爬取Unsplash網(wǎng)站的時(shí)候橙数,由于網(wǎng)站是下拉刷新灯帮,并沒(méi)有分頁(yè)钟哥。所以不能夠通過(guò)頁(yè)碼獲取頁(yè)面的url來(lái)分別發(fā)送網(wǎng)絡(luò)請(qǐng)求。我也嘗試了其他方式腻贰,比如下拉的時(shí)候監(jiān)控http請(qǐng)求,看看請(qǐng)求是否有規(guī)律可以模擬伴奥。后來(lái)發(fā)現(xiàn)請(qǐng)求并沒(méi)有規(guī)律拾徙,也就是不能夠模擬http請(qǐng)求來(lái)獲取新的數(shù)據(jù)(也可能是我水平有限尼啡,哪位童鞋找到了規(guī)律一定要告訴我哦)玄叠。那么就只有模擬下拉操作了。

想要模擬下拉操作代态,我們需要用到兩個(gè)工具蹦疑,一個(gè)是PhatomJs歉摧,一個(gè)是Selenium叁温。
PhatomJS其實(shí)就是一個(gè)沒(méi)有界面的瀏覽器膝但,最主要的功能是能夠讀取js加載的頁(yè)面跟束。
Selenium實(shí)質(zhì)上是一個(gè)自動(dòng)化測(cè)試工具冀宴,能夠模擬用戶(hù)的一些行為操作略贮,比如下拉網(wǎng)頁(yè)刨肃。

一直有個(gè)說(shuō)法真友,Python + PhatomJS + Selenium 是爬蟲(chóng)的無(wú)敵三件套盔然,基本能夠?qū)崿F(xiàn)所有爬蟲(chóng)需求愈案。

OK,我們分別介紹下他們的使用遭铺,然后開(kāi)始我們的實(shí)戰(zhàn)魂挂。

二涂召、運(yùn)行環(huán)境


我的運(yùn)行環(huán)境如下:

  • 系統(tǒng)版本
    Windows10果正。

  • Python版本
    Python3.5秋泳,推薦使用Anaconda 這個(gè)科學(xué)計(jì)算版本轮锥,主要是因?yàn)樗詭б粋€(gè)包管理工具舍杜,可以解決有些包安裝錯(cuò)誤的問(wèn)題。去Anaconda官網(wǎng)赵辕,選擇Python3.5版本既绩,然后下載安裝。

  • IDE
    我使用的是PyCharm还惠,是專(zhuān)門(mén)為Python開(kāi)發(fā)的IDE饲握。這是JetBrians的產(chǎn)品,點(diǎn)我下載

三救欧、PhatomJS


1. 簡(jiǎn)介

PhatomJS是一個(gè)WebKit內(nèi)核的瀏覽器引擎,它能像瀏覽器一樣(它就是一個(gè)瀏覽器笆怠,只不過(guò)沒(méi)有界面)解析網(wǎng)頁(yè)铝耻,以及運(yùn)行JavaScript腳本。

迄今為止蹬刷,我們的實(shí)戰(zhàn)小爬蟲(chóng)只是在模擬http請(qǐng)求瓢捉,然后獲取response,從response中解析HTML代碼獲得想要的數(shù)據(jù)办成。但是泡态,網(wǎng)頁(yè)中有些數(shù)據(jù)是用js動(dòng)態(tài)加載的,這樣迂卢,我們使用使用http請(qǐng)求獲得的數(shù)據(jù)中并不包含js動(dòng)態(tài)加載的內(nèi)容某弦。比如我在本系列的第一篇博文中請(qǐng)求了一下網(wǎng)易云音樂(lè)的網(wǎng)站,本來(lái)想用網(wǎng)易云音樂(lè)做實(shí)戰(zhàn)示例的(我的設(shè)計(jì)師小伙伴兒的另一個(gè)需求)而克,不過(guò)由于它是由js動(dòng)態(tài)加載的刀崖,用不到requests庫(kù),所以就先以Unsplash網(wǎng)站為實(shí)例了拍摇。寫(xiě)完Unsplash網(wǎng)站的爬蟲(chóng)后就開(kāi)始網(wǎng)易云音樂(lè)的實(shí)戰(zhàn)!

那么馆截,怎么判斷一個(gè)網(wǎng)站的內(nèi)容是不是js動(dòng)態(tài)加載的呢充活?
打開(kāi)網(wǎng)易云音樂(lè),在頁(yè)面上點(diǎn)擊右鍵-->View page source蜡娶。會(huì)彈出一個(gè)新窗口混卵,在新窗口中搜索你想要爬取的內(nèi)容,發(fā)現(xiàn)搜不到窖张。那就肯定是js動(dòng)態(tài)加載的了幕随。
比如看下圖中的選中圖片,下面有文字:“影視歌曲|重新演繹經(jīng)典 聽(tīng)翻唱煥發(fā)新生命力”宿接。

我們?cè)赩iew page source頁(yè)面搜索該內(nèi)容赘淮,發(fā)現(xiàn)搜索不到,可見(jiàn)這部分內(nèi)容是由js動(dòng)態(tài)加載的睦霎。

好了梢卸,進(jìn)入正題,來(lái)看看PhatomJS如何使用副女。

2. 安裝 PhatomJS

PhatomJS 不能使用conda install 或者pip install 來(lái)安裝蛤高。需要去官網(wǎng)下載,選擇你的系統(tǒng)版本。下載完成的是一個(gè)壓縮包戴陡,解壓到你想存放的目錄(我放在了“C:\Program Files\” 目錄)塞绿。

接下來(lái)需要把PhatomJS配置成環(huán)境變量,這樣就可以直接調(diào)用了恤批。
步驟:
1). 按win+E快捷鍵打開(kāi)文件資源管理器“异吻,在左側(cè)的“此電腦”上點(diǎn)擊右鍵,選擇“屬性”开皿。
2). 在打開(kāi)的窗口中左側(cè)涧黄,點(diǎn)擊“高級(jí)系統(tǒng)設(shè)置”。


3). 在彈出的窗口中點(diǎn)擊“環(huán)境變量”赋荆。


4). 在新窗口中選擇“PATH”笋妥,在下方點(diǎn)擊編輯按鈕。


5). 把phatomjs.exe所在的目錄添加到path中即可窄潭。


這樣春宣,安裝過(guò)程就搞定了。

3. PhatomJS 的使用

在網(wǎng)上搜了一下嫉你,沒(méi)有找到中文的官網(wǎng)文檔月帝,只找到了PhatomJS英文官方文檔

3.1 舉個(gè)栗子

先來(lái)一個(gè)官網(wǎng)上的例子幽污,PhatomJS執(zhí)行js文件嚷辅,輸出“Hello, World距误!”
新建一個(gè)js文件簸搞,包含下面的代碼,然后保存為hello.js准潭。

console.log('Hello, world!');
phantom.exit();  #用來(lái)終止phtomjs程序

打開(kāi)cmd命令窗口趁俊,進(jìn)入到hello.js 文件所在目錄,執(zhí)行下面的命令:
phantomjs hello.js
輸出:
Hello, world!

這個(gè)例子雖然方法比較笨刑然,需要先創(chuàng)建一個(gè)js文件鲜漩,然后再去執(zhí)行硝训。但是演示了PhatomJS的一個(gè)很重要的功能亡脸,就是執(zhí)行js代碼衣厘。我們后面會(huì)用到它來(lái)執(zhí)行下拉操作哦。

3.2 再來(lái)個(gè)栗子

我們使用PhatomJS來(lái)請(qǐng)求一個(gè)網(wǎng)頁(yè)择镇,然后把網(wǎng)頁(yè)截圖保存爽雄。
創(chuàng)建一個(gè)js文件,包含下面的代碼沐鼠,保存為music.js

var page = require('webpage').create();
page.open('http://music.163.com/', function(status) {
  console.log("Status: " + status);
  if(status === "success") {
    page.render('music.png');
  }
  phantom.exit();
});

然后使用cmd命令窗口挚瘟,在music.js文件所在目錄叹谁,執(zhí)行下面的命令:
phatomjs music.js
這樣會(huì)有一個(gè)屏幕截圖保存在文件所在的文件夾嘍。

3.3 其他栗子

還有一些功能就不細(xì)細(xì)展開(kāi)了乘盖,知道常用的就可以繼續(xù)咱們的爬蟲(chóng)了焰檩。有用到其他功能的童鞋們?nèi)ス倬W(wǎng)看看例子。
對(duì)了订框,官網(wǎng)還有許多栗子析苫,奉上鏈接:Phatomjs官網(wǎng)栗子

四穿扳、Selenium


1. 簡(jiǎn)介

Selenium是一個(gè)自動(dòng)化測(cè)試框架衩侥,廣泛的用于自動(dòng)化測(cè)試領(lǐng)域(是不是真的廣泛用于自動(dòng)化測(cè)試領(lǐng)域我也不知道,沒(méi)怎么搞過(guò)自動(dòng)化測(cè)試 -_-!矛物,這是我臆測(cè)的 = ̄ω ̄=)茫死。因?yàn)樗軌蚰M人工操作,比如能在瀏覽器中點(diǎn)擊按鈕履羞、在輸入框中輸入文本峦萎、自動(dòng)填充表單、還能進(jìn)行瀏覽器窗口的切換忆首、對(duì)彈出窗口進(jìn)行操作爱榔。也就是說(shuō)你能手動(dòng)做的東西,基本都能用它來(lái)實(shí)現(xiàn)自動(dòng)化糙及!

自己總結(jié)的大白話(huà)介紹~详幽,大家湊合看哦。主要是文學(xué)水平有限浸锨,青春期的時(shí)候還想當(dāng)一個(gè)文藝青年妒潭,沒(méi)事兒矯情矯情寫(xiě)點(diǎn)東西,還注重個(gè)押韻啥的揣钦,學(xué)了理工科以后,矯情的東西受不了了漠酿,喜歡直接了當(dāng)?shù)姆氚肌0ミ希芷顺闯埃s緊回歸正題宇姚!

該框架還支持多種語(yǔ)言:Java、C#夫凸、Python浑劳、Ruby、PHP夭拌、Perl魔熏、JavaScript衷咽。
當(dāng)然,我們使用的是面向Python語(yǔ)言的API蒜绽。

2. 安裝 Selenium

可以使用pip install selenium來(lái)安裝镶骗。使用Anaconda3版本的童鞋們,conda install selenium在我的機(jī)器上不會(huì)下載躲雅,未找到原因鼎姊。但是同樣使用pip install selenium安裝成功了。通過(guò)在命令行里面輸入conda list相赁,可以看到已經(jīng)安裝的包相寇。

同時(shí)裝有Python2.7和Python3.5的童鞋,使用下面的命令來(lái)安裝钮科。
py -3 -m pip install selenium

3. Selenium 的使用

Selenium支持很多語(yǔ)言的使用唤衫,上面也提到了。其他語(yǔ)言的使用我沒(méi)有接觸過(guò)跺嗽,直接看Python語(yǔ)言的使用战授。官網(wǎng):Selenium with Python

3.1 同樣先來(lái)個(gè)栗子

因?yàn)镻hatomJS沒(méi)有界面桨嫁,在使用的時(shí)候沒(méi)有直觀(guān)感受植兰。所以,我們暫時(shí)使用Chrome瀏覽器代替PhatomJS璃吧。

首先下載Chrome瀏覽器驅(qū)動(dòng):下載地址楣导,選擇自己的系統(tǒng)版本,然后下載畜挨。這是一個(gè)壓縮包筒繁,解壓后存到一個(gè)目錄中,然后把該目錄添加到環(huán)境變量巴元。因?yàn)樯厦娴腜hatomJS已經(jīng)演示過(guò)添加環(huán)境變量的流程毡咏,這里就不贅述了。

在PyCharm中輸入下面代碼逮刨,然后運(yùn)行看看有什么反應(yīng)呕缭。

from selenium import webdriver  #導(dǎo)入Selenium的webdriver
from selenium.webdriver.common.keys import Keys  #導(dǎo)入Keys

driver = webdriver.Chrome()  #指定使用的瀏覽器,初始化webdriver
#注:如果添加了環(huán)境變量也不能成功調(diào)用谷歌瀏覽器的話(huà)修己,直接添加你的谷歌瀏覽器驅(qū)動(dòng)地址恢总,如下:
#driver = webdriver.Chrome("C:\Program Files\chromedriver_win32\chromedriver.exe")  #左邊驅(qū)動(dòng)地址是我存放的目錄
driver.get("http://www.python.org")  #請(qǐng)求網(wǎng)頁(yè)地址
assert "Python" in driver.title  #看看Python關(guān)鍵字是否在網(wǎng)頁(yè)title中,如果在則繼續(xù)睬愤,如果不在片仿,程序跳出。
elem = driver.find_element_by_name("q")  #找到name為q的元素尤辱,這里是個(gè)搜索框
elem.clear()  #清空搜索框中的內(nèi)容
elem.send_keys("pycon")  #在搜索框中輸入pycon
elem.send_keys(Keys.RETURN)  #相當(dāng)于回車(chē)鍵砂豌,提交
assert "No results found." not in driver.page_source  #如果當(dāng)前頁(yè)面文本中有“No results found.”則程序跳出
driver.close()  #關(guān)閉webdriver

哎呀厢岂,其實(shí)瀏覽器的變化流程我都寫(xiě)到上面的代碼的注釋中了,就不再說(shuō)一遍了哦奸鸯。

通過(guò)上面的例子咪笑,我們可以大概的了解了Selenium都能做什么。個(gè)人認(rèn)為其中比較重要的就是定位娄涩,即找到頁(yè)面中的元素窗怒,然后進(jìn)行相關(guān)操作。

3.2 導(dǎo)航操作 Navigating

導(dǎo)航操作的使用非常簡(jiǎn)單蓄拣,完全可以通名字就知道它們是干什么的扬虚,不信先給你幾個(gè)例子瞧瞧:

element = driver.find_element_by_id("passwd-id")  #通過(guò)id獲取元素

element = driver.find_element_by_name("passwd")  #通過(guò)name獲取元素

element = driver.find_element_by_xpath("http://input[@id='passwd-id']")  #通過(guò)使用xpath匹配獲取元素

下面列出詳細(xì)的定位方法。有定位一個(gè)元素的球恤,也有定位多個(gè)元素的辜昵。

  • 定位一個(gè)元素:
find_element_by_id
find_element_by_name
find_element_by_xpath
find_element_by_link_text
find_element_by_partial_link_text
find_element_by_tag_name
find_element_by_class_name
find_element_by_css_selector
  • 定位多個(gè)元素:
find_elements_by_name
find_elements_by_xpath
find_elements_by_link_text
find_elements_by_partial_link_text
find_elements_by_tag_name
find_elements_by_class_name
find_elements_by_css_selector

通過(guò)導(dǎo)航操作,我們就可以在找到想找的元素咽斧,然后進(jìn)行接下來(lái)的處理堪置,比如,想在一個(gè)輸入框中輸入數(shù)據(jù)张惹∫ㄏ牵看3.1的那個(gè)栗子,通過(guò)導(dǎo)航宛逗,找到了name為p的輸入框坎匿,然后使用send_keys在輸入框中寫(xiě)入數(shù)據(jù):
elem.send_keys("pycon")

我們知道了如何在輸入框中輸入數(shù)據(jù),那如果我們碰到了下拉框該怎么辦呢雷激?

from selenium.webdriver.support.ui import Select   #導(dǎo)入Select
select = Select(driver.find_element_by_name('name'))  #通過(guò)Select來(lái)定義該元素是下拉框
select.select_by_index(index)  #通過(guò)下拉元素的位置來(lái)選擇
select.select_by_visible_text("text")  #通過(guò)下拉元素的內(nèi)容來(lái)選擇
select.select_by_value(value)  #通過(guò)下拉元素的取值來(lái)選擇

來(lái)看一個(gè)下拉框的HTML:

<select name="cars">
  <option value ="volvo">沃爾沃</option>
  <option value ="bmw">寶馬</option>
  <option value="benz">奔馳</option>
  <option value="audi">奧迪</option>
</select>

結(jié)合上面的例子:

from selenium.webdriver.support.ui import Select  
select = Select(driver.find_element_by_name('cars'))  #找到name為cars的select標(biāo)簽
select.select_by_index(1)  #下拉框選中沃爾沃
select.select_by_visible_text("寶馬")  #下拉框選中寶馬
select.select_by_value("benz")  #下拉框選中奧迪

嗯...替蔬,讓我想想還有什么... ...。對(duì)了屎暇,還有一個(gè)操作特別常用承桥,就是點(diǎn)擊操作。這個(gè)很簡(jiǎn)單:
elem.click()

在找到的元素后面加上click()就可以了根悼。

3.3 Cookies

我們想要爬取的網(wǎng)站有些可能需要登錄凶异,這樣就需要在請(qǐng)求網(wǎng)站的時(shí)候添加Cookies。

driver.get("http://www.example.com") #先請(qǐng)求一個(gè)網(wǎng)頁(yè)

cookie = {‘name’ : ‘foo’, ‘value’ : ‘bar’} #設(shè)置cookie內(nèi)容
driver.add_cookie(cookie)  #添加cookie

3.4 其他

還有其他的功能番挺,比如拖拽頁(yè)面的元素、瀏覽器切換屯掖、處理彈出框口等玄柏。我就不一一列舉了,有需要的小伙伴兒們?nèi)タ纯垂倬W(wǎng)吧贴铜。

五粪摘、后語(yǔ)


我們的PhatomJS 和Selenium 已經(jīng)安裝完成瀑晒,并且了解了他們的使用。

這篇就先到這里吧徘意,下一篇開(kāi)始改造我們的小爬蟲(chóng)嘍苔悦。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市椎咧,隨后出現(xiàn)的幾起案子玖详,更是在濱河造成了極大的恐慌,老刑警劉巖勤讽,帶你破解...
    沈念sama閱讀 216,372評(píng)論 6 498
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件蟋座,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡脚牍,警方通過(guò)查閱死者的電腦和手機(jī)向臀,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,368評(píng)論 3 392
  • 文/潘曉璐 我一進(jìn)店門(mén),熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)诸狭,“玉大人券膀,你說(shuō)我怎么就攤上這事⊙庇觯” “怎么了芹彬?”我有些...
    開(kāi)封第一講書(shū)人閱讀 162,415評(píng)論 0 353
  • 文/不壞的土叔 我叫張陵,是天一觀(guān)的道長(zhǎng)妹懒。 經(jīng)常有香客問(wèn)我雀监,道長(zhǎng),這世上最難降的妖魔是什么眨唬? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 58,157評(píng)論 1 292
  • 正文 為了忘掉前任会前,我火速辦了婚禮,結(jié)果婚禮上匾竿,老公的妹妹穿的比我還像新娘瓦宜。我一直安慰自己,他們只是感情好岭妖,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,171評(píng)論 6 388
  • 文/花漫 我一把揭開(kāi)白布临庇。 她就那樣靜靜地躺著,像睡著了一般昵慌。 火紅的嫁衣襯著肌膚如雪假夺。 梳的紋絲不亂的頭發(fā)上,一...
    開(kāi)封第一講書(shū)人閱讀 51,125評(píng)論 1 297
  • 那天斋攀,我揣著相機(jī)與錄音已卷,去河邊找鬼。 笑死淳蔼,一個(gè)胖子當(dāng)著我的面吹牛侧蘸,可吹牛的內(nèi)容都是我干的裁眯。 我是一名探鬼主播,決...
    沈念sama閱讀 40,028評(píng)論 3 417
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼讳癌,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼穿稳!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起晌坤,我...
    開(kāi)封第一講書(shū)人閱讀 38,887評(píng)論 0 274
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤逢艘,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后泡仗,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體埋虹,經(jīng)...
    沈念sama閱讀 45,310評(píng)論 1 310
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,533評(píng)論 2 332
  • 正文 我和宋清朗相戀三年娩怎,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了搔课。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 39,690評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡截亦,死狀恐怖爬泥,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情崩瓤,我是刑警寧澤袍啡,帶...
    沈念sama閱讀 35,411評(píng)論 5 343
  • 正文 年R本政府宣布,位于F島的核電站却桶,受9級(jí)特大地震影響境输,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜颖系,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,004評(píng)論 3 325
  • 文/蒙蒙 一嗅剖、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧嘁扼,春花似錦信粮、人聲如沸。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 31,659評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至不傅,卻和暖如春旅掂,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背访娶。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 32,812評(píng)論 1 268
  • 我被黑心中介騙來(lái)泰國(guó)打工商虐, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 47,693評(píng)論 2 368
  • 正文 我出身青樓称龙,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親戳晌。 傳聞我的和親對(duì)象是個(gè)殘疾皇子鲫尊,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,577評(píng)論 2 353

推薦閱讀更多精彩內(nèi)容