爬蟲遇到 js 動(dòng)態(tài)數(shù)據(jù)時(shí)名扛,主要解決方法有兩種:
- 使用一些庫,例如 Selenium茧痒,來模擬瀏覽器環(huán)境抓取數(shù)據(jù)肮韧。但這樣做對(duì)內(nèi)存和 CPU 的消耗都比較大,爬蟲效率低旺订,應(yīng)盡量避免弄企。
- 手動(dòng)分析 js 請(qǐng)求,構(gòu)造請(qǐng)求 url
下面我選了一個(gè)漫畫網(wǎng)站作為小例子耸峭,講一下第二個(gè)方法桩蓉。
https://manhua.sfacg.com/mh/YSJ/5183/
我們的目的是獲取漫畫圖片 url,然后下載下來劳闹。
判斷待爬數(shù)據(jù)是否 js 動(dòng)態(tài)加載的
用 chrome 打開該網(wǎng)頁,右鍵漫畫圖片 -> 檢查
我們可以看到圖片的 url 就在里面洽瞬”咎椋可以右鍵此處(藍(lán)色部分)-> copy -> copy xpath 獲得圖片對(duì)應(yīng)的 xpath,然后可以使用 requests 和 xpath 獲取圖片 url伙窃。當(dāng)然最后還是失敗了菩颖。因?yàn)檫@里的圖片是 js 動(dòng)態(tài)加載出來的。
(當(dāng)然为障,還有更簡單的判斷方法晦闰,直接安裝 Chrome 插件 Toggle Javascript,該插件可以判斷網(wǎng)頁哪部分內(nèi)容是 js 加載的)
獲取跟待爬數(shù)據(jù)有關(guān)的 js 代碼信息
我們可以查看網(wǎng)頁源代碼鳍怨,Ctrl+F 定位圖片 id “curPic":
可以看到呻右,里面根本沒有圖片的 url,圖片是 js 加載的鞋喇。閱讀里面的 js 代碼声滥,我們可以知道圖片 url 是由下面這行代碼決定的:
pic2.src = hosts[getHost()] + picAy[curIndex]
在源碼中尋找 hosts
和 picAy
,發(fā)現(xiàn)它們只在這里出現(xiàn)過侦香。這說明這兩個(gè)數(shù)組可能是由 js 代碼加載的落塑。
尋找跟待爬數(shù)據(jù)有關(guān)的 js 請(qǐng)求
回到漫畫那個(gè)頁面,我們打開 Chrome 的 F12罐韩,點(diǎn)擊 network憾赁,勾選 js,刷新網(wǎng)頁散吵,查看相關(guān) js 請(qǐng)求對(duì)應(yīng)的 preview龙考,看看哪些包含 hosts
和 picAy
:
額蟆肆,這進(jìn)展還是出乎意料的順利,第一個(gè) js 就有我們想要尋找的內(nèi)容了洲愤。由此圖可知颓芭,我們進(jìn)入某一話漫畫的第一頁時(shí),就有一份 js 代碼請(qǐng)求了這一話漫畫所有頁的圖片 url柬赐。點(diǎn)擊該請(qǐng)求的 headers亡问,我們可以看到該請(qǐng)求的 url,里面包含了 js 文件名肛宋。
那么州藕,我們?cè)趯懗绦虻臅r(shí)候,該如何得到這份 js 的文件名酝陈?
觀察其他漫畫的情況床玻,我們可以發(fā)現(xiàn),雖然這份 js 代碼的命名沒啥規(guī)律沉帮,不過在網(wǎng)頁源代碼中锈死,它一般是處于第一個(gè) js 的位置。這樣就可以用正則表達(dá)式提取啦 O(∩_∩)O 哈哈~
知道 js 文件名后穆壕,我們就可以構(gòu)造請(qǐng)求 url 了待牵。以上圖為例:
url = 'https' + '//comic.sfacg.com/Utility/1887/ZP/117.js'
總結(jié)
至此,總結(jié)一下如何下載該網(wǎng)站漫畫:
- 獲取一話漫畫的第一頁 url
- 獲取該 url 響應(yīng)的 html
- 在 html 中尋找第一個(gè) js 代碼文件名
- 構(gòu)造請(qǐng)求 url喇勋,獲取該 js 的響應(yīng)內(nèi)容缨该,從中提取所有圖片 url
總結(jié)一下該例子中獲取 js 動(dòng)態(tài)數(shù)據(jù)的思路:
- 判斷是不是 js 加載的數(shù)據(jù)
- 如果是 js 加載的,查看網(wǎng)頁源代碼中待爬取數(shù)據(jù)附近的 js 代碼川背,獲取關(guān)鍵信息(比如一些變量名)
- 回到待爬網(wǎng)頁那里贰拿,按 F12(我用的 Chrome),點(diǎn)擊 network熄云,勾選 js膨更,刷新網(wǎng)頁,獲取 js 請(qǐng)求
- 逐個(gè)查看每個(gè)請(qǐng)求的 preview皱碘,看有沒有跟待爬取內(nèi)容相關(guān)的信息询一。
- 如果有某個(gè)請(qǐng)求的響應(yīng)內(nèi)容包含我們需要的信息,查看該請(qǐng)求的 headers 和 url癌椿,想辦法構(gòu)造這樣的請(qǐng)求url健蕊。