0 背景
最近在做對網(wǎng)站的自動化測試帖池,最開始使用 Python Requests 進行測試奈惑,測試通過,然而頁面還是會出現(xiàn)這樣那樣問題睡汹。一方面是因為測試用例還不夠詳細肴甸,另一方面,Requests 是 url 層面或者說 api 層面的測試囚巴,并沒有完全模擬用戶在瀏覽器中的操作原在。比如,頁面有些元素是 JS 動態(tài)生成的彤叉,Requests 是無法得到的庶柿;或者頁面中的 img 或者 script 鏈接壞了,用 Requests 的話就需要去解析 html 了姆坚,這樣如果網(wǎng)站對排版做一點點改動就要重寫測試用例澳泵,非常費時費力。
經(jīng)過一番搜索兼呵,了解到兩個神器 Selenium 和 PhantomJS兔辅。關(guān)于這兩個軟件,就簡單說一下击喂,Selenium 是一個Web瀏覽器自動化測試框架维苔,而 PhantomJS 是一個基于 Webkit 的無 UI 的瀏覽器,詳細介紹請自行搜索懂昂。
1 目的
測試頁面中哪些鏈接是壞的介时。
2 遇到的問題
Selenium 可以通過 PhantomJS 獲取實際顯示的頁面(JS 動態(tài)生成的元素也可以得到),并且可以模擬用戶對頁面操作凌彬,但是上面提到的頁面中的鏈接壞了或者頁面的跳轉(zhuǎn)沸柔,它也是無法感知的,這些動作其實在 PhantomJS 中都可以得到铲敛,但是如果沒有做處理褐澎,在 Selenium 中是無法直接得到的。
3 解決
在 PhantomJS 中伐蒋,可以通過許多的句柄來獲取頁面的動作工三。比如下面這個腳本可以記錄整個頁面訪問的過程(netlog.js):
"use strict";
var page = require('webpage').create(),
system = require('system'),
address;
if (system.args.length === 1) {
console.log('Usage: netlog.js <some URL>');
phantom.exit(1);
} else {
address = system.args[1];
page.onResourceRequested = function (req) {
console.log('requested: ' + JSON.stringify(req, undefined, 4));
};
page.onResourceReceived = function (res) {
console.log('received: ' + JSON.stringify(res, undefined, 4));
};
page.open(address, function (status) {
if (status !== 'success') {
console.log('FAIL to load the address');
}
phantom.exit();
});
}
執(zhí)行phantomjs netlog.js http://www.baidu.com
迁酸,可以得到如下類似的輸出:
requested: {
"headers": [
{
"name": "Accept",
"value": "text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8"
},
{
"name": "User-Agent",
"value": "Mozilla/5.0 (Unknown; Linux x86_64) AppleWebKit/538.1 (KHTML, like Gecko) PhantomJS/2.1.1 Safari/538.1"
}
],
"id": 1,
"method": "GET",
"time": "2017-01-05T03:42:14.125Z",
"url": "http://www.baidu.com/"
}
received: {
"body": "",
"bodySize": 215,
"contentType": "text/html",
"headers": [
{
"name": "Date",
"value": "Thu, 05 Jan 2017 03:42:14 GMT"
},
{
"name": "Content-Type",
"value": "text/html"
},
{
"name": "Content-Length",
"value": "215"
},
...
Selenium 正常調(diào)用 PhantomJS 的方法如下(Python 語言,下同):
from selenium import webdriver
driver = webdriver.PhantomJS()
driver.get('http://www.baidu.com')
print(driver.get_log('browser'))
其中最后一條語句可以得到頁面的 console.log 的輸出俭正,同時會生成一個 ghostdriver.log 的文件奸鬓,其中是 PhantomJS 的日志。
接下來就是如何在 Selenium 中獲取 PhantomJS 的輸出了掸读。
首先是在 Selenium 中讓 PhantomJS 執(zhí)行它的 API 的 Hack(參考):
driver = webdriver.PhantomJS()
script = "this.onResourceError = function(res) {console.log(JSON.stringify({'url': res.url, 'status': res.status}));};"
driver.command_executor._commands['executePhantomScript'] = ('POST', '/session/$sessionId/phantom/execute')
driver.execute('executePhantomScript', {'script': script, 'args': []})
但是這樣通過driver.get_log('browser')
是得不到想要的內(nèi)容的串远,因為雖然和頁面 JS 的 console.log 是同樣的名字,然而 PhantomJS API 的 console.log 的輸出是在剛才提到的 ghostdriver.log 文件中儿惫,當然你也可以每次就讀取該文件來獲取內(nèi)容(可以通過 webdriver 的 service_log_path 參數(shù)來設(shè)置文件名)抑淫。筆者覺得這樣不夠優(yōu)雅,于是繼續(xù)……
通過閱讀 PhantomJS 的源碼姥闪,終于在 session.js 找到了一個隱藏的變量 browserLog 來實現(xiàn)這個功能始苇,這個變量其實就是driver.get_log('browser')
讀取的變量,把你想要的內(nèi)容藏在這個變量里就好了筐喳。
from selenium import webdriver
driver = webdriver.PhantomJS()
script = "var page = this; page.onResourceError = function(res) {page.browserLog.push({'url': res.url, 'status': res.status});};"
driver.command_executor._commands['executePhantomScript'] = ('POST', '/session/$sessionId/phantom/execute')
driver.execute('executePhantomScript', {'script': script, 'args': []})
driver.get('http://www.baidu.com')
print(driver.get_log('browser'))
需要注意的是催式,1) PhantomJS 腳本中必須執(zhí)行語句var page = this
,然后通過 page 變量來調(diào)用 API避归,否則會失敗荣月。
-
driver.get_log('browser')
同樣也會得到頁面的 console.log 的輸出,需要進行過濾梳毙。它的輸出格式是{"level": level, "message": message, "timestamp": timestamp}
哺窄,可以通過filter(lambda x: 'url' in x, driver.get_log('browser'))
語句過濾掉。 - 這個方法僅限于 PhantomJS账锹,其他的 WebDriver 還沒有測試過萌业。
Mission accomplished.