Python 爬蟲(chóng)第三篇(循環(huán)爬取多個(gè)網(wǎng)頁(yè))

本篇是 python 爬蟲(chóng)的第三篇该肴,在前面兩篇 Python 爬蟲(chóng)第一篇(urllib+regex)Python 爬蟲(chóng)第二篇(urllib+BeautifulSoup) 中介紹了如何獲取給定網(wǎng)址的網(wǎng)頁(yè)信息,并解析其中的內(nèi)容藐不。本篇將更進(jìn)一步匀哄,根據(jù)給定網(wǎng)址獲取并解析給定網(wǎng)址及其相關(guān)聯(lián)網(wǎng)址中的內(nèi)容。要實(shí)現(xiàn)這些功能雏蛮,我們需要解決以下問(wèn)題:

  1. 如何持續(xù)不斷的獲取網(wǎng)址涎嚼,并讀取相關(guān)內(nèi)容。
  2. 如何判斷網(wǎng)址是否已經(jīng)讀取過(guò)挑秉。

文中用到的代碼均已上傳到 github铸抑,在這里就不再貼出完整的代碼了。

如何持續(xù)不斷的獲取網(wǎng)址衷模,并讀取相關(guān)內(nèi)容鹊汛?

要想讀取網(wǎng)頁(yè)內(nèi)容,首先要獲取網(wǎng)頁(yè)的 url阱冶,但是我們又不能將所有的 url 都輸入到程序中刁憋,此時(shí)就需要我們從已知的 url 中解析出其他的 url,從而不間斷的獲取新的 url讀取新的內(nèi)容木蹬,獲取新的 url 可以通過(guò)解析含有 href 屬性的 a 標(biāo)簽來(lái)實(shí)現(xiàn)至耻,具體代碼如下:

for link in html.find_all(name='a', href=re.compile(r'https?://list|item.szlcsc.+')):
    if len(self.__url_set) > self.__max_url_count:
        return
    url = link.get('href')

以上代碼解析出所有的 a 標(biāo)簽中的 href 屬性?xún)?nèi)容以 https://list.szlcschttps://item.szlcsc 為開(kāi)頭的 url 連接。在這里還是設(shè)置了一個(gè)最大的 url 解析量「由于在測(cè)試中需要一個(gè)停止條件」镊叁,默認(rèn)值為1000尘颓。

從一個(gè) url 中獲取到更多的 url 后,我們?cè)撛趺慈プx然奁疤苹?以什么順序去讀取敛腌?不可能獲取一個(gè) url 就讀取一個(gè) url卧土,此時(shí)就需要一個(gè)保存 url 的地方「最好是可以順序保存順序取出的」,那么最好的方法就是使用隊(duì)列了像樊,以下是將 url 放入隊(duì)列的代碼:

for link in html.find_all(name='a', href=re.compile(r'https?://list|item.szlcsc.+')):
    if len(self.__url_set) > self.__max_url_count:
        return
    url = link.get('href')
    if url not in self.__url_set:
        self.__url_set.add(url)
        self.__url_queue.put(url)

以下是從隊(duì)列中取出 url 的代碼:

while not self.__url_queue.empty():
    count = count + 1
    url = self.__url_queue.get()
    result = self.get_html(url)

以上兩段代碼完成了一個(gè) url 從存入隊(duì)列到從隊(duì)列中出的全過(guò)程尤莺。

如何判斷網(wǎng)址是否已經(jīng)讀取過(guò)?

這個(gè)問(wèn)題實(shí)際上就是 url 去重的問(wèn)題生棍,常用的 url 去重的方法主要有以下幾種:

  1. url保存在數(shù)據(jù)庫(kù)中(效率低)
  2. 將 url 保存到集合中颤霎,利用集合的無(wú)重復(fù)元素的特性來(lái)去重,缺點(diǎn)是占用空間大涂滴。
  3. 將 url 通過(guò) md5 等哈希算法后保存到集合中去重友酱,可以大幅度提高內(nèi)容利用率。
  4. 使用布隆過(guò)濾器「Bloom Filter」氢妈,在時(shí)間和空間方面有巨大的優(yōu)勢(shì)粹污,但是存在一定的誤算率,不適用于高準(zhǔn)確度的場(chǎng)合首量。

本篇我們使用集合來(lái)對(duì) url 進(jìn)行去重壮吩,其他方法大家可以自行搜索一下,網(wǎng)上有很多這方面的資料加缘。

集合中的元素?zé)o次序鸭叙,且不可重復(fù)。元素不可重復(fù)的特性用來(lái)對(duì) url 去重在合適不過(guò)了拣宏,通過(guò)判斷 url 是否已經(jīng)在集合中可以快速判斷該 url 是否已經(jīng)讀取過(guò)沈贝。具體看以下代碼:

if url not in self.__url_set:
    self.__url_set.add(url)
    self.__url_queue.put(url)

以上代碼首先判斷 url 是否存在于 __url_set 中,如果不存在則將該 url 添加到 __url_set 中勋乾,同時(shí)將次 url 放入讀取隊(duì)列中進(jìn)行讀取宋下。這樣既對(duì)得到的每個(gè) url 進(jìn)行讀取嗡善,又避免了多次讀取同一個(gè) url 造成資源的浪費(fèi)。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末学歧,一起剝皮案震驚了整個(gè)濱河市罩引,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌枝笨,老刑警劉巖袁铐,帶你破解...
    沈念sama閱讀 216,919評(píng)論 6 502
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異横浑,居然都是意外死亡剔桨,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,567評(píng)論 3 392
  • 文/潘曉璐 我一進(jìn)店門(mén)徙融,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)洒缀,“玉大人,你說(shuō)我怎么就攤上這事张咳〉酆椋” “怎么了?”我有些...
    開(kāi)封第一講書(shū)人閱讀 163,316評(píng)論 0 353
  • 文/不壞的土叔 我叫張陵脚猾,是天一觀的道長(zhǎng)葱峡。 經(jīng)常有香客問(wèn)我,道長(zhǎng)龙助,這世上最難降的妖魔是什么砰奕? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 58,294評(píng)論 1 292
  • 正文 為了忘掉前任,我火速辦了婚禮提鸟,結(jié)果婚禮上军援,老公的妹妹穿的比我還像新娘。我一直安慰自己称勋,他們只是感情好胸哥,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,318評(píng)論 6 390
  • 文/花漫 我一把揭開(kāi)白布。 她就那樣靜靜地躺著赡鲜,像睡著了一般空厌。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上银酬,一...
    開(kāi)封第一講書(shū)人閱讀 51,245評(píng)論 1 299
  • 那天嘲更,我揣著相機(jī)與錄音,去河邊找鬼揩瞪。 笑死赋朦,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播宠哄,決...
    沈念sama閱讀 40,120評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼壹将,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了琳拨?” 一聲冷哼從身側(cè)響起瞭恰,我...
    開(kāi)封第一講書(shū)人閱讀 38,964評(píng)論 0 275
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎狱庇,沒(méi)想到半個(gè)月后,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體恶耽,經(jīng)...
    沈念sama閱讀 45,376評(píng)論 1 313
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡密任,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,592評(píng)論 2 333
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了偷俭。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片浪讳。...
    茶點(diǎn)故事閱讀 39,764評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖涌萤,靈堂內(nèi)的尸體忽然破棺而出淹遵,到底是詐尸還是另有隱情,我是刑警寧澤负溪,帶...
    沈念sama閱讀 35,460評(píng)論 5 344
  • 正文 年R本政府宣布透揣,位于F島的核電站,受9級(jí)特大地震影響川抡,放射性物質(zhì)發(fā)生泄漏辐真。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,070評(píng)論 3 327
  • 文/蒙蒙 一崖堤、第九天 我趴在偏房一處隱蔽的房頂上張望侍咱。 院中可真熱鬧,春花似錦密幔、人聲如沸楔脯。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 31,697評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)昧廷。三九已至,卻和暖如春蜡豹,著一層夾襖步出監(jiān)牢的瞬間麸粮,已是汗流浹背。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 32,846評(píng)論 1 269
  • 我被黑心中介騙來(lái)泰國(guó)打工镜廉, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留弄诲,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 47,819評(píng)論 2 370
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像齐遵,于是被迫代替她去往敵國(guó)和親寂玲。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,665評(píng)論 2 354

推薦閱讀更多精彩內(nèi)容

  • Swift1> Swift和OC的區(qū)別1.1> Swift沒(méi)有地址/指針的概念1.2> 泛型1.3> 類(lèi)型嚴(yán)謹(jǐn) 對(duì)...
    cosWriter閱讀 11,098評(píng)論 1 32
  • 發(fā)現(xiàn) 關(guān)注 消息 iOS 第三方庫(kù)梗摇、插件拓哟、知名博客總結(jié) 作者大灰狼的小綿羊哥哥關(guān)注 2017.06.26 09:4...
    肇東周閱讀 12,096評(píng)論 4 62
  • 《裕語(yǔ)言》速成開(kāi)發(fā)手冊(cè)3.0 官方用戶交流:iApp開(kāi)發(fā)交流(1) 239547050iApp開(kāi)發(fā)交流(2) 10...
    葉染柒丶閱讀 26,694評(píng)論 5 19
  • 《ilua》速成開(kāi)發(fā)手冊(cè)3.0 官方用戶交流:iApp開(kāi)發(fā)交流(1) 239547050iApp開(kāi)發(fā)交流(2) 1...
    葉染柒丶閱讀 10,717評(píng)論 0 11
  • 今天小區(qū)里端午節(jié)有活動(dòng),非常熱鬧伶授。為了能參與到小區(qū)活動(dòng)中断序,姐姐一個(gè)小時(shí)內(nèi)完成了布置的家庭作業(yè)∶优耄活動(dòng)現(xiàn)場(chǎng)违诗,姐姐見(jiàn)到了...
    空空如也17閱讀 164評(píng)論 0 2