安裝模塊
selenium
requests
beautifulsoup4
- selenium
主要用於登入或js互動(dòng),剩餘的在使用bs4進(jìn)行爬取饲常。
- requests
能模擬http請(qǐng)求蹲堂,如:get、post不皆、put贯城、delete熊楼,通常是爬取分頁(yè)或a標(biāo)籤時(shí)用到霹娄。
如何使用
模擬請(qǐng)求
r = requests.get('https://api.github.com/events')
查看請(qǐng)求狀態(tài)
r.status_code
輸出:
>>> 200
取得請(qǐng)求html內(nèi)容
r.text
輸出:
>>> '<!doctype html><html itemscope="" itemtype="http://schema.org/WebPage" lang="zh-TW"><head><meta content="text/html; charset=UTF-8" http-equiv="Content-Type"><meta content="/images/branding/googleg/1x/googleg_standard_color_128dp.png" ...</html>'
- Beautiful Soup
Beautiful Soup能解析html,能快速尋找標(biāo)籤內(nèi)容鲫骗,也可以透過(guò)CSS選擇器快速尋找?guī)в袠?biāo)籤屬性的內(nèi)容犬耻。
如何使用
from bs4 import BeautifulSoup
import requests
web_data = requests.get('https://api.github.com/events')
soup = BeautifulSoup(web_data, 'lxml') #解析Html
soup.title
啟動(dòng)
基本使用
selenium_bs4_demo1.py
from bs4 import BeautifulSoup
from selenium import webdriver
browser = webdriver.Firefox()
browser.get('https://w3.iiiedu.org.tw/')
wb_html = browser.page_source
soup = BeautifulSoup(wb_html,"lxml")
小結(jié)
大部分網(wǎng)頁(yè)都用requests都能獲取,用到selenium情況比較少执泰,有登入或js需求可以參考枕磁,在此紀(jì)錄心得。