網(wǎng)絡(luò)爬蟲(chóng)-Selenium

基本使用

from selenium import webdriver

from selenium.webdriver.common.by import By

from selenium.webdriver.common.keys import Keys

from selenium.webdriver.support import expected_conditions as EC

from selenium.webdriver.support.wait import WebDriverWait

browser = webdriver.Chrome()

try:

? ? browser.get('https://www.baidu.com')

? ? input = browser.find_element_by_id('kw')

? ? input.send_keys('Python')

? ? input.send_keys(Keys.ENTER)

? ? wait = WebDriverWait(browser, 10)

? ? wait.until(EC.presence_of_element_located((By.ID, 'content_left')))

? ? print(browser.current_url)

? ? print(browser.get_cookies())

? ? print(browser.page_source)

finally:

? ? browser.close()

聲明瀏覽器對(duì)象

from selenium import webdriver

browser = webdriver.Chrome()

browser = webdriver.Firefox()

browser = webdriver.Edge()

browser = webdriver.PhantomJS()

browser = webdriver.Safari()

訪(fǎng)問(wèn)頁(yè)面

from selenium import webdriver

browser = webdriver.Chrome()

browser.get('https://www.taobao.com')

print(browser.page_source)

browser.close()

查找元素

單個(gè)元素

from selenium import webdriver

browser = webdriver.Chrome()

browser.get('https://www.taobao.com')

input_first = browser.find_element_by_id('q')

input_second = browser.find_element_by_css_selector('#q')

input_third = browser.find_element_by_xpath('//*[@id="q"]')

print(input_first, input_second, input_third)

browser.close()

find_element_by_name

find_element_by_xpath

find_element_by_link_text

find_element_by_partial_link_text

find_element_by_tag_name

find_element_by_class_name

find_element_by_css_selector

多個(gè)元素

from selenium import webdriver

browser = webdriver.Chrome()

browser.get('https://www.taobao.com')

lis = browser.find_elements_by_css_selector('.service-bd li')

print(lis)

browser.close()

from selenium import webdriver

from selenium.webdriver.common.by import By

browser = webdriver.Chrome()

browser.get('https://www.taobao.com')

lis = browser.find_elements(By.CSS_SELECTOR, '.service-bd li')

print(lis)

browser.close()

find_elements_by_name

find_elements_by_xpath

* find_elements_by_link_text

* find_elements_by_partial_link_text

* find_elements_by_tag_name

* find_elements_by_class_name

* find_elements_by_css_selector

元素交互操作

對(duì)獲取的元素調(diào)用交互方法

from selenium import webdriver

import time

browser = webdriver.Chrome()

browser.get('https://www.taobao.com')

input = browser.find_element_by_id('q')

input.send_keys('iPhone')

time.sleep(1)

input.clear()

input.send_keys('iPad')

button = browser.find_element_by_class_name('btn-search')

button.click()

更多操作:?http://selenium-python.readthedocs.io/api.html#module-selenium.webdriver.remote.webelement

交互動(dòng)作

將動(dòng)作附加到動(dòng)作鏈中串行執(zhí)行

from selenium import webdriver

from selenium.webdriver import ActionChains

browser = webdriver.Chrome()

url = 'http://www.runoob.com/try/try.php?filename=jqueryui-api-droppable'

browser.get(url)

browser.switch_to.frame('iframeResult')

source = browser.find_element_by_css_selector('#draggable')

target = browser.find_element_by_css_selector('#droppable')

actions = ActionChains(browser)

actions.drag_and_drop(source, target)

actions.perform()

更多操作:?http://selenium-python.readthedocs.io/api.html#module-selenium.webdriver.common.action_chains

執(zhí)行JavaScript

from selenium import webdriver

browser = webdriver.Chrome()

browser.get('https://www.zhihu.com/explore')

browser.execute_script('window.scrollTo(0, document.body.scrollHeight)')

browser.execute_script('alert("To Bottom")')

獲取元素信息

獲取屬性

from selenium import webdriver

from selenium.webdriver import ActionChains

browser = webdriver.Chrome()

url = 'https://www.zhihu.com/explore'

browser.get(url)

logo = browser.find_element_by_id('zh-top-link-logo')

print(logo)

print(logo.get_attribute('class'))

獲取文本值

from selenium import webdriver

browser = webdriver.Chrome()

url = 'https://www.zhihu.com/explore'

browser.get(url)

input = browser.find_element_by_class_name('zu-top-add-question')

print(input.text)

獲取ID、位置、標(biāo)簽名愉择、大小

from selenium import webdriver

browser = webdriver.Chrome()

url = 'https://www.zhihu.com/explore'

browser.get(url)

input = browser.find_element_by_class_name('zu-top-add-question')

print(input.id)

print(input.location)

print(input.tag_name)

print(input.size)

Frame

import time

from selenium import webdriver

from selenium.common.exceptions import NoSuchElementException

browser = webdriver.Chrome()

url = 'http://www.runoob.com/try/try.php?filename=jqueryui-api-droppable'

browser.get(url)

browser.switch_to.frame('iframeResult')

source = browser.find_element_by_css_selector('#draggable')

print(source)

try:

? ? logo = browser.find_element_by_class_name('logo')

except NoSuchElementException:

? ? print('NO LOGO')

browser.switch_to.parent_frame()

logo = browser.find_element_by_class_name('logo')

print(logo)

print(logo.text)

等待

隱式等待

????????當(dāng)使用了隱式等待執(zhí)行測(cè)試的時(shí)候廷雅,如果 WebDriver沒(méi)有在 DOM中找到元素炕淮,將繼續(xù)等待,超出設(shè)定時(shí)間后則拋出找不到元素的異常, 換句話(huà)說(shuō),當(dāng)查找元素或元素并沒(méi)有立即出現(xiàn)的時(shí)候燕雁,隱式等待將等待一段時(shí)間再查找 DOM螟碎,默認(rèn)的時(shí)間是0

from selenium import webdriver

browser = webdriver.Chrome()

browser.implicitly_wait(10)

browser.get('https://www.zhihu.com/explore')

input = browser.find_element_by_class_name('zu-top-add-question')

print(input)

顯式等待

from selenium import webdriver

from selenium.webdriver.common.by import By

from selenium.webdriver.support.ui import WebDriverWait

from selenium.webdriver.support import expected_conditions as EC

browser = webdriver.Chrome()

browser.get('https://www.taobao.com/')

wait = WebDriverWait(browser, 10)

input = wait.until(EC.presence_of_element_located((By.ID, 'q')))

button = wait.until(EC.element_to_be_clickable((By.CSS_SELECTOR, '.btn-search')))

print(input, button)

*? title_is 標(biāo)題是某內(nèi)容

*? title_contains 標(biāo)題包含某內(nèi)容

*? presence_of_element_located 元素加載出眉菱,傳入定位元組,如(By.ID, 'p')

*? visibility_of_element_located 元素可見(jiàn)掉分,傳入定位元組

*? visibility_of 可見(jiàn)倍谜,傳入元素對(duì)象

*? presence_of_all_elements_located 所有元素加載出

*? text_to_be_present_in_element 某個(gè)元素文本包含某文字

*? text_to_be_present_in_element_value 某個(gè)元素值包含某文字

*? frame_to_be_available_and_switch_to_it frame加載并切換

*? invisibility_of_element_located 元素不可見(jiàn)

*? element_to_be_clickable 元素可點(diǎn)擊

*? staleness_of 判斷一個(gè)元素是否仍在DOM,可判斷頁(yè)面是否已經(jīng)刷新

*? element_to_be_selected 元素可選擇叉抡,傳元素對(duì)象

*? element_located_to_be_selected 元素可選擇尔崔,傳入定位元組

*? element_selection_state_to_be 傳入元素對(duì)象以及狀態(tài),相等返回True褥民,否則返回False

*? element_located_selection_state_to_be 傳入定位元組以及狀態(tài)季春,相等返回True,否則返回False

*? alert_is_present 是否出現(xiàn)Alert

詳細(xì)內(nèi)容:http://selenium-python.readthedocs.io/api.html#module-

selenium.webdriver.support.expected_conditions

前進(jìn)后退

import time

from selenium import webdriver

browser = webdriver.Chrome()

browser.get('https://www.baidu.com/')

browser.get('https://www.taobao.com/')

browser.get('https://www.python.org/')

browser.back()

time.sleep(1)

browser.forward()

browser.close()

Cookies

from selenium import webdriver

browser = webdriver.Chrome()

browser.get('https://www.zhihu.com/explore')

print(browser.get_cookies())

browser.add_cookie({'name': 'name', 'domain': 'www.zhihu.com', 'value': 'germey'})

print(browser.get_cookies())

browser.delete_all_cookies()

print(browser.get_cookies())

選項(xiàng)卡管理

import time

from selenium import webdriver

browser = webdriver.Chrome()

browser.get('https://www.baidu.com')

browser.execute_script('window.open()')

print(browser.window_handles)

browser.switch_to_window(browser.window_handles[1])

browser.get('https://www.taobao.com')

time.sleep(1)

browser.switch_to_window(browser.window_handles[0])

browser.get('https://python.org')

異常處理

from selenium import webdriver

browser = webdriver.Chrome()

browser.get('https://www.baidu.com')

browser.find_element_by_id('hello')

from selenium import webdriver

from selenium.common.exceptions import TimeoutException, NoSuchElementException

browser = webdriver.Chrome()

try:

? ? browser.get('https://www.baidu.com')

except TimeoutException:

? ? print('Time Out')

try:

? ? browser.find_element_by_id('hello')

except NoSuchElementException:

? ? print('No Element')

finally:

? ? browser.close()

詳細(xì)文檔:http://selenium-python.readthedocs.io/api.html#module-selenium.common.exceptions

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末消返,一起剝皮案震驚了整個(gè)濱河市载弄,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌撵颊,老刑警劉巖宇攻,帶你破解...
    沈念sama閱讀 211,948評(píng)論 6 492
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異倡勇,居然都是意外死亡逞刷,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,371評(píng)論 3 385
  • 文/潘曉璐 我一進(jìn)店門(mén)妻熊,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)夸浅,“玉大人,你說(shuō)我怎么就攤上這事扔役》” “怎么了?”我有些...
    開(kāi)封第一講書(shū)人閱讀 157,490評(píng)論 0 348
  • 文/不壞的土叔 我叫張陵亿胸,是天一觀(guān)的道長(zhǎng)坯钦。 經(jīng)常有香客問(wèn)我,道長(zhǎng)侈玄,這世上最難降的妖魔是什么婉刀? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 56,521評(píng)論 1 284
  • 正文 為了忘掉前任,我火速辦了婚禮拗馒,結(jié)果婚禮上路星,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好洋丐,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,627評(píng)論 6 386
  • 文/花漫 我一把揭開(kāi)白布呈昔。 她就那樣靜靜地躺著,像睡著了一般友绝。 火紅的嫁衣襯著肌膚如雪堤尾。 梳的紋絲不亂的頭發(fā)上,一...
    開(kāi)封第一講書(shū)人閱讀 49,842評(píng)論 1 290
  • 那天迁客,我揣著相機(jī)與錄音郭宝,去河邊找鬼。 笑死掷漱,一個(gè)胖子當(dāng)著我的面吹牛粘室,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播卜范,決...
    沈念sama閱讀 38,997評(píng)論 3 408
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼衔统,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了海雪?” 一聲冷哼從身側(cè)響起锦爵,我...
    開(kāi)封第一講書(shū)人閱讀 37,741評(píng)論 0 268
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎奥裸,沒(méi)想到半個(gè)月后险掀,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 44,203評(píng)論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡湾宙,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,534評(píng)論 2 327
  • 正文 我和宋清朗相戀三年樟氢,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片创倔。...
    茶點(diǎn)故事閱讀 38,673評(píng)論 1 341
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡嗡害,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出畦攘,到底是詐尸還是另有隱情,我是刑警寧澤十电,帶...
    沈念sama閱讀 34,339評(píng)論 4 330
  • 正文 年R本政府宣布知押,位于F島的核電站,受9級(jí)特大地震影響鹃骂,放射性物質(zhì)發(fā)生泄漏台盯。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,955評(píng)論 3 313
  • 文/蒙蒙 一畏线、第九天 我趴在偏房一處隱蔽的房頂上張望静盅。 院中可真熱鬧,春花似錦、人聲如沸蒿叠。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 30,770評(píng)論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)市咽。三九已至痊银,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間施绎,已是汗流浹背溯革。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 32,000評(píng)論 1 266
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留谷醉,地道東北人致稀。 一個(gè)月前我還...
    沈念sama閱讀 46,394評(píng)論 2 360
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像俱尼,于是被迫代替她去往敵國(guó)和親抖单。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,562評(píng)論 2 349

推薦閱讀更多精彩內(nèi)容

  • selenium用法詳解 selenium主要是用來(lái)做自動(dòng)化測(cè)試号显,支持多種瀏覽器臭猜,爬蟲(chóng)中主要用來(lái)解決JavaScr...
    陳_CHEN_陳閱讀 3,880評(píng)論 1 5
  • selenium主要是用來(lái)做自動(dòng)化測(cè)試,支持多種瀏覽器押蚤,爬蟲(chóng)中主要用來(lái)解決JavaScript渲染問(wèn)題蔑歌。 模擬瀏覽...
    拾柒丶_8257閱讀 2,194評(píng)論 0 2
  • # Selenium # # 自動(dòng)化測(cè)試工具,致辭多種瀏覽器 # 爬蟲(chóng)中主要用來(lái)解決JavaScript渲染的問(wèn)題...
    拾柒丶_8257閱讀 387評(píng)論 0 0
  • 欲將跳舞當(dāng)健身揽碘, 舞到濃時(shí)聲不聞次屠。 偷得浮生半日閑, 且做世間快樂(lè)人雳刺。
    善護(hù)念之合一閱讀 289評(píng)論 0 2
  • 時(shí)間劫灶,有點(diǎn)放縱 從午夜到黃昏 夢(mèng)里的風(fēng)景如此艷麗 一個(gè)個(gè)美乳豐臀 也有海的遼闊 帆,架起白云 是放棄掖桦,還是追逐 一...
    壟上行云閱讀 147評(píng)論 0 1