我以我自己的想法來分析用Python爬網(wǎng)頁的步驟以及注意點~
首先我個人認(rèn)為一個小爬蟲的步驟很簡單奴迅,無非就是“找網(wǎng)站-分析網(wǎng)頁源碼-請求-分析-匹配-輸出”,就這樣,這是我個人理解
那么手機(jī)爬蟲也就是和PC端一毛一樣,除了工具以外
那么開始吧~
我這里推薦三個手機(jī)app:packet capture(抓包工具,網(wǎng)上有漢化版)节吮、termux(手機(jī)終端)、pydroid(網(wǎng)絡(luò)上比較少判耕,但是可以到Google play下載透绩,只支持Python2,我這里有自己漢化了的壁熄,有需求的可以找我)
這篇文章只用兩個軟件:termux和chrome瀏覽器即可
我們要爬取的網(wǎng)站是著名的老司機(jī)網(wǎng)站:i.jandan.net帚豪,我們只抓取100頁的圖片(60-160)
網(wǎng)址在這:http://i.jandan.net/ooxx/page-60,沒瞎的人都知道page-60是指的頁碼草丧。志鞍。。我沒鄙視那些沒看懂的人方仿;但是我們還不知道它網(wǎng)頁的構(gòu)造固棚,在瀏覽器的網(wǎng)址欄上加上“view-source”统翩,加在網(wǎng)址的最前面,也就成了這樣
OK此洲,現(xiàn)在該網(wǎng)頁的源碼已經(jīng)呈現(xiàn)在我們眼前了厂汗,可能看著有點費勁,但還好有高亮呜师,不算太坑爹
一般情況下:我們找到圖片的鏈接關(guān)鍵字娶桦,比如href、jpg汁汗、png之類的
但是這衷畦,我們只需要找“查看原圖”這四個字就可以了,找到之后知牌,我們可以看到它的一個圖片都是用一個div給包裹著祈争,每個都是
這個就好辦了,可以開始寫代碼來
那么開始把角寸,打開termux菩混,新建一個crawler.py文件,我這里是這個扁藕,你們隨意
然后導(dǎo)入我們那需要的包
import requests
import re
只需要這兩個包即可
然后分享一下我的代碼:
接下來沮峡,我們就只需要下載就可以完成了,看代碼吧:
下載過程:
完成:
簡單亿柑,代碼量很少邢疙,有用的代碼最多20行
感謝觀看,有錯的地方別噴望薄,指出來疟游,我學(xué)習(xí)。