TuChong_Spider
偶然的機(jī)會(huì)在抖音看到這個(gè)APP,發(fā)現(xiàn)有很多高質(zhì)量的手機(jī)壁紙和圖片,對(duì)于一個(gè)爬蟲初學(xué)者,這就非常美滋滋了,好多歐美小姐姐啊,哎嘿嘿....
圖蟲網(wǎng)共享圖庫爬蟲, 通過抓取Ajax獲取圖片ID進(jìn)行圖片保存
爬取網(wǎng)站: https://stock.tuchong.com
爬取結(jié)果
運(yùn)行環(huán)境:
- Python 3.5+
- Windows 10
- VSCode
如何使用
下載項(xiàng)目源碼
`https://github.com/cexll/tuchong_Spider.git`
安裝依賴
`$ pip install -r requirements.txt`
運(yùn)行項(xiàng)目
```
$ python spider.py
輸入想要搜索的內(nèi)容: 少女
獲取圖片ID.....
解析imageID
存在ID,解析
解析HTML圖片URL...
準(zhǔn)備下載... //p3a.pstatp.com/weili/l/199813*************89.jpg
下載成功----------------------
拼接url訪問網(wǎng)頁
解析HTML圖片URL...
準(zhǔn)備下載... //p3a.pstatp.com/weili/l/189***********417.jpg
下載成功----------------------
拼接url訪問網(wǎng)頁
解析HTML圖片URL...
準(zhǔn)備下載... //p3a.pstatp.com/weili/l/1**************25.png
拼接url訪問網(wǎng)頁
解析HTML圖片URL...
準(zhǔn)備下載... //p3a.pstatp.com/weili/l/2***********62820.jpg
拼接url訪問網(wǎng)頁
解析HTML圖片URL...
準(zhǔn)備下載... //p3a.pstatp.com/weili/l/************2.jpg
拼接url訪問網(wǎng)頁
...
```
圖片鏈接我就大碼了,免得被打....
思路(前方高能,請(qǐng)流量黨注意)
首先爬取一個(gè)網(wǎng)頁,第一步,先打開這個(gè)網(wǎng)頁(/滑稽,,,,
打開之后,先看看怎么搜索圖片,下載圖片的..
嗯~~,好看山山水水...(我是來干嘛的....
回到正題~
打開開發(fā)者工具(F12 或者右鍵 ,然后刷新
然后看一看有沒有什么有用的東西....好像仔細(xì)找了找是沒有發(fā)現(xiàn)什么有用的...怎么辦呢?
好像真找不到了,怎么辦?
網(wǎng)頁往下翻一翻,,,,,
圖片中間出現(xiàn)了個(gè)奸細(xì)....這就是我們需要的東西,,但是打開發(fā)現(xiàn)不對(duì)啊,怎么沒有圖片下載的鏈接??
哎,別慌,先去網(wǎng)頁打開一個(gè)圖片看看是什么結(jié)構(gòu)的...
到這里我們發(fā)現(xiàn)了,網(wǎng)頁url鏈接有個(gè)imageID=這東西,好像和之前找到個(gè)奸細(xì)內(nèi)容是一樣的,,,打開后發(fā)現(xiàn)的確是一樣的
那么整體的結(jié)構(gòu)就清楚了,先把剛才的奸細(xì)鏈接打開看看是什么
密集恐懼癥都犯了,....仔細(xì)看了看,發(fā)現(xiàn)最開始都有`imageID`,那么思路就有了
通過訪問奸細(xì)的鏈接得到每一頁的`imageID`,在用 `https://stock.tuchong.com/free/image/?` + `imageID`就可以訪問到圖片了,好一氣呵成
代碼
總結(jié)
抓取所有的網(wǎng)頁都是類似的思路,首先先通過人的邏輯去找到數(shù)據(jù),在通過代碼去得到,不要一來就上手代碼,
細(xì)心的朋友肯定發(fā)現(xiàn)了,我們抓的是免費(fèi)圖庫里的圖片,是的,至于為什么不抓`優(yōu)選圖庫`,`高端圖庫`,1是我也是才發(fā)現(xiàn)他們不一樣,2是別人賺錢的生意我就這樣發(fā)出來了萬一被抓了怎么辦....
有能力的可以自己去琢磨一下,我上次看了一下`imageID`這次是保存在HTML里面的,有點(diǎn)類似今日頭條的
項(xiàng)目地址:?https://github.com/cexll/tuchong_Spider