頁(yè)面加載邏輯
當(dāng)你興致勃勃地從網(wǎng)上學(xué)習(xí)了基本的爬蟲(chóng)知識(shí)后就像找個(gè)目標(biāo)實(shí)踐下糊探,擁有大量文章的簡(jiǎn)書(shū)包含了大量的有價(jià)值信息,所以自然成為了你的選擇目標(biāo),如果你嘗試之后會(huì)發(fā)現(xiàn)并沒(méi)有想象的那么簡(jiǎn)單暇务,因?yàn)槔锩姘撕芏鄇s相關(guān)的數(shù)據(jù)傳輸。 讓我先使用傳統(tǒng)的爬蟲(chóng)演示一下吧: >
打開(kāi)簡(jiǎn)書(shū)首頁(yè)怔软,似乎沒(méi)有什么特別的
打開(kāi)
chrome
的開(kāi)發(fā)者模式垦细,發(fā)現(xiàn)文章的標(biāo)題,href
都在a
標(biāo)簽里挡逼,似乎也沒(méi)有什么不一樣的
接下來(lái)就是尋找頁(yè)面上所有的
a
標(biāo)簽括改,但是且慢如果你仔細(xì)觀察就會(huì)發(fā)現(xiàn)滑輪滾到一半的時(shí)候頁(yè)面就會(huì)加載更多,這樣的步驟會(huì)重復(fù)三次知道底部出現(xiàn)閱讀更多
的按鈕
不僅如此底部的閱讀更多的
href
并沒(méi)有告訴我們加載剩下的頁(yè)面信息家坎,唯一的辦法是不斷點(diǎn)擊閱讀更多這個(gè)按鈕
什么嘱能,將滑輪重復(fù)三次滑倒頁(yè)面的中央并且不斷點(diǎn)擊按鈕這種操作http
請(qǐng)求可做不到,這更像是js操作虱疏?沒(méi)錯(cuò)惹骂,簡(jiǎn)書(shū)的文章并不是常規(guī)的http請(qǐng)求,我們不能根據(jù)不同url不斷重定向做瞪,而是頁(yè)面的一些動(dòng)作來(lái)加載頁(yè)面信息析苫。
selenium介紹
selenium是一個(gè)web自動(dòng)化測(cè)試工具,支持很多種語(yǔ)言,我們?cè)谶@里可以使用python的selenium做爬蟲(chóng)使用衩侥,爬取簡(jiǎn)書(shū)的過(guò)程中国旷,它的工作原理是不斷注入js代碼,讓頁(yè)面源源不斷的加載茫死,最后再提取所有的a
標(biāo)簽跪但。首先你得在python中下載selenium包
>>> pip3 install selenium
chromedriver
selenium必須搭載瀏覽器使用,這里我使用的是chromedriver峦萎,Chrome的開(kāi)源測(cè)試版屡久,它可以使用headless模式不需要顯示前段來(lái)訪問(wèn)網(wǎng)頁(yè),算是最大特性了爱榔。
python中操作
在寫(xiě)代碼之前一定要把chromedriver同一文件夾內(nèi)被环,因?yàn)槲覀冃枰肞ATH,這樣方便點(diǎn)详幽。首先我們的第一個(gè)任務(wù)是刷出加載更多
的按鈕筛欢,需要做3次將滑輪重復(fù)三次滑倒頁(yè)面的中央,這里方便起見(jiàn)我滑到了底部
from selenium import webdriver
import time
browser = webdriver.Chrome("./chromedriver")
browser.get("http://www.reibang.com/")
for i in range(3):
browser.execute_script("window.scrollTo(0, document.body.scrollHeight);") // execute_script是插入js代碼的
time.sleep(2) //加載需要時(shí)間唇聘,2秒比較合理
看看效果
接下來(lái)就是不斷點(diǎn)擊按鈕加載頁(yè)面版姑,繼續(xù)加入剛才的py文件之中
for j in range(10): //這里我模擬10次點(diǎn)擊
try:
button = browser.execute_script("var a = document.getElementsByClassName('load-more'); a[0].click();")
time.sleep(2)
except:
pass
'''
上面的js代碼說(shuō)明一下
var a = document.getElementsByClassName('load-more');選擇load-more這個(gè)元素
a[0].click(); 因?yàn)閍是一個(gè)集合,索引0然后執(zhí)行click()函數(shù)
'''
這個(gè)我就不貼圖了迟郎,成功之后就是不斷地加載頁(yè)面 剥险,知道循環(huán)完了為止,接下來(lái)的工作就簡(jiǎn)單很多了宪肖,就是尋找a
標(biāo)簽表制,get
其中的text
和href
屬性,這里我直接把它們寫(xiě)在了txt文件之中.
titles = browser.find_elements_by_class_name("title")
with open("article_jianshu.txt", "w", encoding="utf-8") as f:
for t in titles:
try:
f.write(t.text + " " + t.get_attribute("href"))
f.write("\n")
except TypeError:
pass
最終結(jié)果
headless模式
不斷加載頁(yè)面肯定也很煩人,所以我們測(cè)試成功之后并不想把瀏覽器顯示出來(lái)控乾,這需要加上headless模式
options = webdriver.ChromeOptions()
options.add_argument('headless')
browser = webdriver.Chrome("./chromedriver", chrome_options=options) //把上面的browser加入chrome_options參數(shù)
總結(jié)
當(dāng)我們沒(méi)辦法使用正常的http請(qǐng)求爬取時(shí)么介,可以使用selenium操縱瀏覽器來(lái)抓取我們想要的內(nèi)容,這樣有利有弊阱持,比如
- 優(yōu)點(diǎn)
- 可以暴力爬蟲(chóng)
- 簡(jiǎn)書(shū)并不需要cookie才能查看文章,不需要費(fèi)勁心思找代理魔熏,或者說(shuō)我們可以無(wú)限抓取并且不會(huì)被ban
- 首頁(yè)應(yīng)該為ajax傳輸衷咽,不需要額外的http請(qǐng)求
- 缺點(diǎn)
- 爬取速度太滿,想象我們的程序蒜绽,點(diǎn)擊一次需要等待2秒那么點(diǎn)擊600次需要1200秒, 20分鐘...
附加
這是所有完整的代碼
from selenium import webdriver
import time
options = webdriver.ChromeOptions()
options.add_argument('headless')
browser = webdriver.Chrome("./chromedriver", chrome_options=options)
browser.get("http://www.reibang.com/")
for i in range(3):
browser.execute_script("window.scrollTo(0, document.body.scrollHeight);")
time.sleep(2)
# print(browser)
for j in range(10):
try:
button = browser.execute_script("var a = document.getElementsByClassName('load-more'); a[0].click();")
time.sleep(2)
except:
pass
#
titles = browser.find_elements_by_class_name("title")
with open("article_jianshu.txt", "w", encoding="utf-8") as f:
for t in titles:
try:
f.write(t.text + " " + t.get_attribute("href"))
f.write("\n")
except TypeError:
pass
如果你喜歡本篇文章的話镶骗, 快點(diǎn)擊關(guān)注,喜歡躲雅,打賞我吧 ??