一、首先準(zhǔn)備環(huán)境
1迈嘹、window10環(huán)境下
2蜕提、Selenium最新版本
pip install Selenium
3、下載瀏覽器驅(qū)動(dòng)
火狐瀏覽器驅(qū)動(dòng)使兔,其下載地址是:https://github.com/mozilla/geckodriver/releases
谷歌瀏覽器驅(qū)動(dòng)建钥,其下載地址是:http://chromedriver.storage.googleapis.com/index.html?path=2.33/
opera瀏覽器驅(qū)動(dòng),其下載地址是:https://github.com/operasoftware/operachromiumdriver/releases
下載解壓后虐沥,將所在的目錄添加系統(tǒng)的環(huán)境變量中熊经。當(dāng)然你也可以將下載下來(lái)的驅(qū)動(dòng)放到python安裝目錄的lib目錄中,因?yàn)樗旧硪呀?jīng)存在于環(huán)境變量(我就是這么干的)置蜀。
image.png
4奈搜、BeautifulSoup解析
pip install bs4
5、下載瀏覽器
注意:瀏覽器驅(qū)動(dòng)一定要與瀏覽器對(duì)應(yīng)
二盯荤、就可以開(kāi)始寫代碼了
1、要使用selenium先需要定義一個(gè)具體browser對(duì)象焕盟,這里就定義的時(shí)候就看你電腦安裝的具體瀏覽器和安裝的哪個(gè)瀏覽器的驅(qū)動(dòng)秋秤。這里以火狐瀏覽器為例:
from selenium import webdriver
# 地址是瀏覽器驅(qū)動(dòng)文件所在的路徑
browser = webdriver.Firefox(executable_path=r"C:\Python3.6.4\Lib\geckodriver.exe")
2宏粤、再模擬打開(kāi)貼吧首頁(yè):
browser.get("https://tieba.baidu.com/index.html")
3、再模擬滾動(dòng)條滾動(dòng)到底部
# 這個(gè)是循環(huán)四次灼卢,往下翻滾四次
for i in range(1, 5):
# 滑動(dòng)鼠標(biāo)到網(wǎng)頁(yè)底部
browser.execute_script('window.scrollTo(0, document.body.scrollHeight)')
# 模擬用戶的點(diǎn)擊事件
browser.find_element_by_class_name("kuMore").click()
time.sleep(1)
4绍哎、最后再使用BeautifulSoup,解析圖片標(biāo)簽:
from bs4 import BeautifulSoup
html = BeautifulSoup(browser.page_source, "lxml")
imgs = html.select("#new_list li img")
# 關(guān)閉瀏覽器
browser.close()