Pyppeteer是Puppeteer的非官方Python支持,Puppeteer是一個無頭JavaScript的基于Chrome/Chromium瀏覽器自動化庫阔涉,可以用于對渲染網(wǎng)頁的抓取。
比較了Pyppeteer和Selenium突照,感覺還是Selenium在函數(shù)的語義上更清晰。
GitHub地址是:https://miyakogi.github.io/pyppeteer
安裝
pip install pyppeteer
用今日頭條練習(xí)一下
import asyncio
from pyppeteer import launch
async def main():
# headless參數(shù)設(shè)為False怔檩,則變成有頭模式
browser = await launch(
# headless=False
)
page = await browser.newPage()
# 設(shè)置頁面視圖大小
await page.setViewport(viewport={'width':1280, 'height':800})
# 是否啟用JS,enabled設(shè)為False蓄诽,則無渲染效果
await page.setJavaScriptEnabled(enabled=True)
await page.goto('https://www.toutiao.com/')
# 打印頁面cookies
print(await page.cookies())
# 打印頁面文本
print(await page.content())
# 打印當(dāng)前頁標(biāo)題
print(await page.title())
# 抓取新聞標(biāo)題
title_elements = await page.xpath('//div[@class="title-box"]/a')
for item in title_elements:
# 獲取文本
title_str = await (await item.getProperty('textContent')).jsonValue()
print(await item.getProperty('textContent'))
# 獲取鏈接
title_link = await (await item.getProperty('href')).jsonValue()
print(title_str)
print(title_link)
# 關(guān)閉瀏覽器
await browser.close()
asyncio.get_event_loop().run_until_complete(main())
與百度首頁交互
import time
import asyncio
from pyppeteer import launch
async def main():
browser = await launch(headless=False)
page = await browser.newPage()
await page.setViewport({'width': 1200, 'height': 800})
await page.goto('https://www.baidu.com')
# 在搜索框中輸入python
await page.type('input#kw.s_ipt','python')
# 點擊搜索按鈕
await page.click('input#su')
# 等待元素加載薛训,第一種方法,強行等待5秒
# await asyncio.sleep(5)
# 第二種方法仑氛,在while循環(huán)里強行查詢某元素進行等待
while not await page.querySelector('.t'):
pass
# 滾動到頁面底部
await page.evaluate('window.scrollBy(0, window.innerHeight)')
# 這些等待方法都不好用
# await page.waitForXPath('h3', timeout=300)
# await page.waitForNavigation(waitUntil="networkidle0")
# await page.waitForFunction('document.getElementByTag("h3")')
# await page.waitForSelector('.t')
# await page.waitFor('document.querySelector("#t")')
# await page.waitForNavigation(waitUntil='networkidle0')
# await page.waitForFunction('document.querySelector("").inner??Text.length == 7')
title_elements = await page.xpath('//h3[contains(@class,"t")]/a')
for item in title_elements:
title_str = await (await item.getProperty('textContent')).jsonValue()
print(title_str)
await browser.close()
asyncio.get_event_loop().run_until_complete(main())
官方文檔的兩個示例
# 1 打開一個網(wǎng)頁并做截圖
# 首次運行示例時乙埃,pyppeteer會自動下載對應(yīng)操作系統(tǒng)的chromium
import asyncio
from pyppeteer import launch
async def main():
browser = await launch()
page = await browser.newPage()
await page.goto('http://example.com')
await page.screenshot({'path': 'example.png'})
await browser.close()
asyncio.get_event_loop().run_until_complete(main())
# 2 在網(wǎng)頁上執(zhí)行一段腳本
import asyncio
from pyppeteer import launch
async def main():
browser = await launch()
page = await browser.newPage()
await page.goto('http://example.com')
await page.screenshot({'path': 'example.png'})
dimensions = await page.evaluate('''() => {
return {
width: document.documentElement.clientWidth,
height: document.documentElement.clientHeight,
deviceScaleFactor: window.devicePixelRatio,
}
}''')
print(dimensions)
# >>> {'width': 800, 'height': 600, 'deviceScaleFactor': 1}
await browser.close()
asyncio.get_event_loop().run_until_complete(main())
Pyppeteer和Puppeteer的不同點
- Pyppeteer支持字典和關(guān)鍵字傳參,Puppeteer只支持字典傳參
# Puppeteer只支持字典傳參
browser = await launch({'headless': True})
# Pyppeteer支持字典和關(guān)鍵字傳參
browser = await launch({'headless': True})
browser = await launch(headless=True)
- 元素選擇器方法名 $變?yōu)閝uerySelector
# Puppeteer使用$符
Page.$()/Page.$$()/Page.$x()
# Pyppeteer使用Python風(fēng)格的函數(shù)名
Page.querySelector()/Page.querySelectorAll()/Page.xpath()
# 簡寫方式為:
Page.J(), Page.JJ(), and Page.Jx()
- Page.evaluate() 和 Page.querySelectorEval()的參數(shù)
Puppeteer的evaluate()方法使用JavaScript原生函數(shù)或JavaScript表達(dá)式字符串锯岖。Pyppeteer的evaluate()方法只使用JavaScript字符串介袜,該字符串可以是函數(shù)也可以是表達(dá)式,Pyppeteer會進行自動判斷出吹。但有時會判斷錯誤遇伞,如果字符串被判斷成了函數(shù),并且報錯捶牢,可以添加選項force_expr=True
鸠珠,強制Pyppeteer作為表達(dá)式處理。
獲取頁面內(nèi)容:
content = await page.evaluate('document.body.textContent', force_expr=True)
獲取元素的內(nèi)部文字:
element = await page.querySelector('h1')
title = await page.evaluate('(element) => element.textContent', element)