自己以前一直使用 Chrome 后來換成 linux 系統(tǒng)就用了火狐
from selenium import webdriver
from selenium.webdriver.firefox.firefox_binary import FirefoxBinary
caps=webdriver.DesiredCapabilities().FIREFOX
caps["marionette"]=False
binary=FirefoxBinary(r'firefox.exe的地址')
dirver = webdriver.Firefox(firefox_binary=binary, capabilities=caps)
這兩個參數我沒搞懂是什么辐啄,如果有人
dirver.get(url)
關于第一章提到的提升 selenium 速度
①限制 css 加載
from selenium import webdriver
from selenium.webdriver.firefox.firefox_binary import FirefoxBinary
caps=webdriver.DesiredCapabilities().FIREFOX
caps["marionette"]=False
binary=FirefoxBinary(r'firefox.exe的地址')
fp=webdriver.FirefoxProfile()
fp.set_preference("permissions.default.stylesheet",2)
driver=webdriver.Firefox(firefox_binary=binary浙宜,firefox_profile=fp,capabilities=caps)
driver.get(url)
②限制圖片加載
from selenium import webdriver
from selenium.webdriver.firefox.firefox_binary import FirefoxBinary
caps=webdriver.DesiredCapabilities().FIREFOX
caps["marionette"]=False
binary=FirefoxBinary(r'firefox.exe的地址')
fp=webdriver.FirefoxProfile()
fp.set_preference("permissions.default.image",2)
driver=webdriver.Firefox(firefox_binary=binary擂啥,firefox_profile=fp,capabilities=caps)
driver.get(url)
③限制 JavaScript 的運行
如果需要抓取的內容不是通過 JavaScript 動態(tài)加載得到的昌妹,可以禁用 JavaScript 的執(zhí)行來提高爬取效率涯竟,因為大多數網頁都會利用 JavaScript 異步加載很多內容
from selenium import webdriver
from selenium.webdriver.firefox.firefox_binary import FirefoxBinary
caps=webdriver.DesiredCapabilities().FIREFOX
caps["marionette"]=False
binary=FirefoxBinary(r'firefox.exe的地址')
fp=webdriver.FirefoxProfile()
fp.set_preference(“Javascript.enabled",False)
driver=webdriver.Firefox(firefox_binary=binary实幕,firefox_profile=fp,capabilities=caps)
driver.get(url)