在上一篇文章配置好 Selenium 和 Chrome Driver 后香府,我們該來了學習一下 Selenium 了狈茉。
在此之前我先簡單介紹一下Selenium調(diào)用Chrome Drive的幾個常用的參數(shù)設置:
1、不加載圖片
2劣欢、不使用GUI(handless,也就是不打開Chrome的界面裁良,后臺運行凿将,這樣子的話在服務器上很好用)
代碼如下:
from selenium import webdriver
PicLoad = False #這里設置是否加載圖片
GUILoad = True #這里設置是否啟動GUI
chrome_options = webdriver.ChromeOptions() #初始化chrome的options
#加載圖片設置
if not PicLoad:
prefs = {"profile.managed_default_content_settings.images": 2}
chrome_options.add_experimental_option("prefs", prefs)
#加載GUI設置
if not GUILoad:
chrome_options.add_argument('--headless')
chrome_options.add_argument('--disable-gpu')
在完成了Chrome Driver的設置之后,我們就可以開始學習Selenium的函數(shù)了价脾。
首先我們打開一個網(wǎng)站丸相,以百度的主頁為例:
driver = webdriver.Chrome(chrome_options=chrome_options) #初始化webdriver
driver.get('https://www.baidu.com/') #打開百度的頁面
打開頁面之后,我們先開始尋找我們要抓取或者進行操作的元素彼棍。
Selenium提供了八種定位方式:
id , name , class name , tag name ,link text , partial link text , xpath , css selector
調(diào)用的方法也比較相似灭忠。
假設我們要實現(xiàn)在百度頁面的輸入框輸入文字并且進行搜索。
我們先定位到搜索框:
這里有很多種定位方式座硕,我舉例兩種:
dr.find_element_by_id("kw") #通過id定位
或者
elem = driver.find_element_by_xpath('//*[@id="kw"]') #通過xpath定位
雖然兩種方式都是按他的id定位的…
這里我簡單提一下xpath的快速獲取方式:
可以在Chrome中右鍵Copy Xpath
下面開始介紹Selenium的一些基本的操作函數(shù):
方法 | 功能 |
---|---|
set_window_size() | 設置瀏覽器的大小 |
back() | 控制瀏覽器后退 |
forward() | 控制瀏覽器前進 |
refresh() | 刷新當前頁面 |
clear() | 清除文本 |
send_keys (value) | 模擬按鍵輸入 |
click() | 單擊元素 |
submit() | 用于提交表單 |
get_attribute(name) | 獲取元素屬性值 |
is_displayed() | 設置該元素是否用戶可見 |
size | 返回元素的尺寸 |
text | 獲取元素的文本 |
我們要定位到了輸入的表單弛作,現(xiàn)在要給他輸入一個搜索的關(guān)鍵字并回車,代碼如下:
elem.send_keys('Hello world!')
elem.send_keys(Keys.RETURN)
其中的 Keys.RETURN 要在文件中先import
from selenium.webdriver.common.keys import Keys
然后我們再打開第一個鏈接:
elem = driver.find_element_by_xpath('//*[@id="1"]/h3/a')
elem.click()
Selenium的基本操作就到這里了华匾。
附上完整代碼:
#coding:utf-8
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
import time
import sys
reload(sys)
sys.setdefaultencoding('utf-8')
PicLoad = True
GUILoad = True
chrome_options = webdriver.ChromeOptions()
if not PicLoad:
prefs = {"profile.managed_default_content_settings.images": 2}
chrome_options.add_experimental_option("prefs", prefs)
if not GUILoad:
chrome_options.add_argument('--headless')
chrome_options.add_argument('--disable-gpu')
driver = webdriver.Chrome(chrome_options=chrome_options)
driver.get('https://www.baidu.com/')
elem = driver.find_element_by_name('wd')
elem.send_keys('Hello world!')
elem.send_keys(Keys.RETURN)
time.sleep(1)
elem = driver.find_element_by_xpath('//*[@id="1"]/h3/a')
elem.click()
感謝:
https://blog.csdn.net/qq_36962569/article/details/77200118
https://blog.csdn.net/weixin_36279318/article/details/79475388