老婆是影樓做后期的竖独,經(jīng)常要下載模板,看老婆點開86ps.com網(wǎng)站挤牛,一個一個點莹痢,然后找下載地址,這過程真是麻煩墓赴,既然咱是搞程序的竞膳,雖然前面學python都是跳過爬蟲這一塊,但看一下诫硕,在實踐一下坦辟,爬下網(wǎng)站的下載地址是沒問題的。
先看總結吧
主要用到的模塊和相關軟件
urllib章办,re锉走,scrapy,mysql藕届,raspberry挠日,multiprocessing,python3
第一階段為初步學習階段
先看一下最基礎的爬下一個頁面的原理
image
非常簡單翰舌,這幾句話就行了。就能看到整個網(wǎng)站的html結構
然后我們分析一下網(wǎng)站的html結構
image
然后在用正則匹配(我當時爬的時候他們是ThumbImg的class冬骚,后來換了)
image
這里我是匹配的下載的那個div椅贱,最開始是直接匹配下載地址,后來看到下載地址有很多一不樣只冻,就先匹配這個div庇麦,在匹配到這里面的地址
image
由于網(wǎng)站的多個地址都是一個下載地址,只返回一個就夠了喜德。
有人問我這里怎么不直接匹配下載地址山橄,看到有的頁面有時候不只有這個文件的下載,還有一些其它的東西舍悯,就先匹配到這個div航棱,在來找地址睡雇。
在看網(wǎng)站的頁數(shù),直接開始循環(huán)
image
下面開始循環(huán)工作饮醇,我這里從34開始是斷電了它抱,然后就停止了,就從34直接開始了朴艰,后面會講講一個系統(tǒng)怎么完善观蓄。
image
然后等他工作完成,完成后點開sz.txt看到所有下載地址全部爬完
image