Python 爬蟲(chóng)第三篇（循環(huán)爬取多個(gè)網(wǎng)頁(yè)）

本篇是 python 爬蟲(chóng)的第三篇该肴，在前面兩篇 Python 爬蟲(chóng)第一篇（urllib+regex）和 Python 爬蟲(chóng)第二篇（urllib+BeautifulSoup）中介紹了如何獲取給定網(wǎng)址的網(wǎng)頁(yè)信息，并解析其中的內(nèi)容藐不。本篇將更進(jìn)一步匀哄，根據(jù)給定網(wǎng)址獲取并解析給定網(wǎng)址及其相關(guān)聯(lián)網(wǎng)址中的內(nèi)容。要實(shí)現(xiàn)這些功能雏蛮，我們需要解決以下問(wèn)題：

如何持續(xù)不斷的獲取網(wǎng)址涎嚼，并讀取相關(guān)內(nèi)容。
如何判斷網(wǎng)址是否已經(jīng)讀取過(guò)挑秉。

文中用到的代碼均已上傳到 github铸抑，在這里就不再貼出完整的代碼了。

如何持續(xù)不斷的獲取網(wǎng)址衷模，并讀取相關(guān)內(nèi)容鹊汛？

要想讀取網(wǎng)頁(yè)內(nèi)容，首先要獲取網(wǎng)頁(yè)的 url阱冶，但是我們又不能將所有的 url 都輸入到程序中刁憋，此時(shí)就需要我們從已知的 url 中解析出其他的 url，從而不間斷的獲取新的 url讀取新的內(nèi)容木蹬，獲取新的 url 可以通過(guò)解析含有 href 屬性的 a 標(biāo)簽來(lái)實(shí)現(xiàn)至耻，具體代碼如下：

for link in html.find_all(name='a', href=re.compile(r'https?://list|item.szlcsc.+')):
    if len(self.__url_set) > self.__max_url_count:
        return
    url = link.get('href')

以上代碼解析出所有的 a 標(biāo)簽中的 href 屬性?xún)?nèi)容以 https://list.szlcsc 和 https://item.szlcsc 為開(kāi)頭的 url 連接。在這里還是設(shè)置了一個(gè)最大的 url 解析量「由于在測(cè)試中需要一個(gè)停止條件」镊叁，默認(rèn)值為1000尘颓。

從一個(gè) url 中獲取到更多的 url 后，我們?cè)撛趺慈プx然奁疤苹？以什么順序去讀取敛腌？不可能獲取一個(gè) url 就讀取一個(gè) url卧土，此時(shí)就需要一個(gè)保存 url 的地方「最好是可以順序保存順序取出的」，那么最好的方法就是使用隊(duì)列了像樊，以下是將 url 放入隊(duì)列的代碼：

for link in html.find_all(name='a', href=re.compile(r'https?://list|item.szlcsc.+')):
    if len(self.__url_set) > self.__max_url_count:
        return
    url = link.get('href')
    if url not in self.__url_set:
        self.__url_set.add(url)
        self.__url_queue.put(url)

以下是從隊(duì)列中取出 url 的代碼：

while not self.__url_queue.empty():
    count = count + 1
    url = self.__url_queue.get()
    result = self.get_html(url)

以上兩段代碼完成了一個(gè) url 從存入隊(duì)列到從隊(duì)列中出的全過(guò)程尤莺。

如何判斷網(wǎng)址是否已經(jīng)讀取過(guò)？

這個(gè)問(wèn)題實(shí)際上就是 url 去重的問(wèn)題生棍，常用的 url 去重的方法主要有以下幾種：

url保存在數(shù)據(jù)庫(kù)中（效率低）
將 url 保存到集合中颤霎，利用集合的無(wú)重復(fù)元素的特性來(lái)去重，缺點(diǎn)是占用空間大涂滴。
將 url 通過(guò) md5 等哈希算法后保存到集合中去重友酱，可以大幅度提高內(nèi)容利用率。
使用布隆過(guò)濾器「Bloom Filter」氢妈，在時(shí)間和空間方面有巨大的優(yōu)勢(shì)粹污，但是存在一定的誤算率，不適用于高準(zhǔn)確度的場(chǎng)合首量。

本篇我們使用集合來(lái)對(duì) url 進(jìn)行去重壮吩，其他方法大家可以自行搜索一下，網(wǎng)上有很多這方面的資料加缘。

集合中的元素?zé)o次序鸭叙，且不可重復(fù)。元素不可重復(fù)的特性用來(lái)對(duì) url 去重在合適不過(guò)了拣宏，通過(guò)判斷 url 是否已經(jīng)在集合中可以快速判斷該 url 是否已經(jīng)讀取過(guò)沈贝。具體看以下代碼：

if url not in self.__url_set:
    self.__url_set.add(url)
    self.__url_queue.put(url)

以上代碼首先判斷 url 是否存在于 __url_set 中，如果不存在則將該 url 添加到 __url_set 中勋乾，同時(shí)將次 url 放入讀取隊(duì)列中進(jìn)行讀取宋下。這樣既對(duì)得到的每個(gè) url 進(jìn)行讀取嗡善，又避免了多次讀取同一個(gè) url 造成資源的浪費(fèi)。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末学歧，一起剝皮案震驚了整個(gè)濱河市罩引，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌枝笨，老刑警劉巖袁铐，帶你破解...
沈念sama閱讀 216,919評(píng)論 6贊 502
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場(chǎng)離奇詭異横浑，居然都是意外死亡剔桨，警方通過(guò)查閱死者的電腦和手機(jī)，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 92,567評(píng)論 3贊 392
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門(mén)徙融，熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)洒缀，“玉大人，你說(shuō)我怎么就攤上這事张咳〉酆椋” “怎么了？”我有些...
開(kāi)封第一講書(shū)人閱讀 163,316評(píng)論 0贊 353
道士緝兇錄：失蹤的賣(mài)姜人
文/不壞的土叔我叫張陵脚猾，是天一觀的道長(zhǎng)葱峡。經(jīng)常有香客問(wèn)我，道長(zhǎng)龙助，這世上最難降的妖魔是什么砰奕？我笑而不...
開(kāi)封第一講書(shū)人閱讀 58,294評(píng)論 1贊 292
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮提鸟，結(jié)果婚禮上军援，老公的妹妹穿的比我還像新娘。我一直安慰自己称勋，他們只是感情好胸哥，可當(dāng)我...
茶點(diǎn)故事閱讀 67,318評(píng)論 6贊 390
惡毒庶女頂嫁案：這布局不是一般人想出來(lái)的
文/花漫我一把揭開(kāi)白布。她就那樣靜靜地躺著赡鲜，像睡著了一般空厌。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上银酬，一...
開(kāi)封第一講書(shū)人閱讀 51,245評(píng)論 1贊 299
城市分裂傳說(shuō)
那天嘲更，我揣著相機(jī)與錄音，去河邊找鬼揩瞪。笑死赋朦，一個(gè)胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播宠哄，決...
沈念sama閱讀 40,120評(píng)論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開(kāi)眼壹将，長(zhǎng)吁一口氣：“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼！你這毒婦竟也來(lái)了琳拨？” 一聲冷哼從身側(cè)響起瞭恰，我...
開(kāi)封第一講書(shū)人閱讀 38,964評(píng)論 0贊 275
萬(wàn)榮殺人案實(shí)錄
序言：老撾萬(wàn)榮一對(duì)情侶失蹤，失蹤者是張志新（化名）和其女友劉穎狱庇，沒(méi)想到半個(gè)月后，有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體恶耽，經(jīng)...
沈念sama閱讀 45,376評(píng)論 1贊 313
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡密任，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,592評(píng)論 2贊 333
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了偷俭。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片浪讳。...
茶點(diǎn)故事閱讀 39,764評(píng)論 1贊 348
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡，死狀恐怖涌萤，靈堂內(nèi)的尸體忽然破棺而出淹遵，到底是詐尸還是另有隱情，我是刑警寧澤负溪，帶...
沈念sama閱讀 35,460評(píng)論 5贊 344
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布透揣，位于F島的核電站，受9級(jí)特大地震影響川抡，放射性物質(zhì)發(fā)生泄漏辐真。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,070評(píng)論 3贊 327
男人毒藥：我在死后第九天來(lái)索命
文/蒙蒙一崖堤、第九天我趴在偏房一處隱蔽的房頂上張望侍咱。院中可真熱鬧，春花似錦密幔、人聲如沸楔脯。這莊子的主人今日做“春日...
開(kāi)封第一講書(shū)人閱讀 31,697評(píng)論 0贊 22
一樁弒父案胯甩，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)昧廷。三九已至，卻和暖如春蜡豹，著一層夾襖步出監(jiān)牢的瞬間麸粮，已是汗流浹背。一陣腳步聲響...
開(kāi)封第一講書(shū)人閱讀 32,846評(píng)論 1贊 269
情欲美人皮
我被黑心中介騙來(lái)泰國(guó)打工镜廉，沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留弄诲，地道東北人。一個(gè)月前我還...
沈念sama閱讀 47,819評(píng)論 2贊 370
代替公主和親
正文我出身青樓，卻偏偏與公主長(zhǎng)得像齐遵，于是被迫代替她去往敵國(guó)和親寂玲。傳聞我的和親對(duì)象是個(gè)殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 44,665評(píng)論 2贊 354

Python 爬蟲(chóng)第三篇（循環(huán)爬取多個(gè)網(wǎng)頁(yè)）

推薦閱讀更多精彩內(nèi)容