前面的章節(jié)
python自我學(xué)習(xí) 一 python語法壳澳,及變量類型
python自我學(xué)習(xí) 二 爬一個圖片網(wǎng)站上
python學(xué)習(xí) 二 02 爬一個圖片網(wǎng)站,獲得主鏈接網(wǎng)址,并保存
本節(jié)思路
理一理邏輯猎醇,先不去考慮細節(jié)室奏,邏輯理清了,根據(jù)這個邏輯去實現(xiàn)細節(jié)就好了吵聪。我也是第一次使用python凌那,也沒有時間看文檔,因為想獲得圖片素材吟逝,直接就想爬一個網(wǎng)站帽蝶。
我們之前,已經(jīng)分析了首頁块攒,獲得了圖片類別對應(yīng)的鏈接励稳,并將這些鏈接保存在了本地文件中。
下面囱井,
第一步驹尼,我們會下載主鏈接網(wǎng)頁,保存在本地文件中庞呕。
第二步新翎,分析主鏈接,獲得相應(yīng)的所有分頁網(wǎng)址
第三步,將主鏈接及分頁鏈接料祠,統(tǒng)統(tǒng)下載下來
下載下來后骆捧,后續(xù)我們會解析網(wǎng)頁,獲得圖片地址髓绽,下載圖片敛苇,本節(jié)主要完成前三步即可。
下載主鏈接網(wǎng)頁顺呕,保存在本地
上文枫攀,我們將首頁中主鏈接保存了起來,
下面,為了免去每次下載網(wǎng)頁的麻煩株茶,我們一次性下載這些網(wǎng)頁来涨,并保存在本地中
主文件中,就一句話启盛,因為細節(jié)都封裝在另一個文件中了蹦掐,我們主要考慮邏輯,細節(jié)可以通過查資料去實現(xiàn)僵闯,去調(diào)試卧抗。
這是common.py中寫的下載函數(shù)
其中調(diào)用了單個網(wǎng)址下載函數(shù)downHtml
通過上述代碼,已經(jīng)將鏈接下載到了本地鳖粟。
獲得分頁鏈接
上文提到社裆,解析了首頁,將所有的主分類鏈接保存到了本地文件中向图。
我們再打開一個主鏈接看看
每個主鏈接泳秀,都有相應(yīng)的分頁鏈接
我們下面的目的,就是獲得主鏈接對應(yīng)的所有分頁鏈接
分析網(wǎng)頁源碼
分頁鏈接保存在class=link2的 div下
其中榄攀,獲得分頁鏈接的代碼如下:
將所有的鏈接對應(yīng)的網(wǎng)頁嗜傅,下載到本地
這是下載后的本地文件