Python爬蟲學(xué)習(xí)(3)爬取隨機外鏈

在前兩張前浅辙,我們所進行的行為是基于一個頁面的html結(jié)構(gòu)進行解析,但在實際的網(wǎng)絡(luò)爬蟲中阎姥,會順著一個鏈接跳轉(zhuǎn)到另一個鏈接记舆,構(gòu)建出一張"網(wǎng)絡(luò)地圖",所以我們本次將對外鏈進行爬取
示例:http://oreilly.com

測試一下是否能拿到外鏈

from urllib.parse import urlparse
import random
import datetime
import re
pages = set()
random.seed(datetime.datetime.now())

#獲取頁面內(nèi)部鏈接
def getInternalLinks(bsObj,includeUrl):
    includeUrl = urlparse(includeUrl).scheme+"://"+urlparse(includeUrl).netloc
    internalLinks = []
    for link in bsObj.findAll("a",href=re.compile("^(/|.*"+includeUrl+")")):
        if link.attrs['href'] is not None:
            if link.attrs['href'] not in internalLinks:
                if(link.href['href'].startswith("/")):
                    internalLinks.append(includeUrl+link.attrs['href'])
                else:
                    internalLinks.append(link.attrs['href'])
    return internalLinks

def followExtrenalOnly(startingPage):
    externalLink = "https://en.wikipedia.org/wiki/Intelligence_agency"
    print("Random extranal link is"+externalLink)
    followExtrenalOnly(externalLink)

# def main():
#     followExtrenalOnly("http://en.wikipedia.org")
#     print('End')
#     if __name__ == '__main__':
#         main()
followExtrenalOnly("http://en.wikipedia.org")

console output
遞歸迭代外鏈數(shù),一共56條


90890890.png

在網(wǎng)站首頁不保證一定能發(fā)現(xiàn)外鏈呼巴,根據(jù)第二章的console output實驗我們可以知道泽腮,html結(jié)構(gòu)不存在外鏈的情況
對比https://en.wikipedia.org/wiki/Main_Pagehttps://en.wikipedia.org/wiki/Auriscalpium_vulgare的html結(jié)構(gòu)如下

87878768.png
4545545.png

尋找該頁面外鏈的dfs邏輯如下:
當(dāng)獲取頁面上的所有外鏈時,我們按照遞歸的方式去找衣赶,當(dāng)遇到一個外鏈诊赊,視為達到一個葉子結(jié)點。若為遇到府瞄,修改此外鏈為內(nèi)鏈碧磅,結(jié)束本次遞歸,回溯從主頁面開始搜索

from urllib.request import urlopen
from urllib.parse import urlparse
from bs4 import BeautifulSoup
import random
import datetime
import re
pages = set()
random.seed(datetime.datetime.now())
#獲取頁面內(nèi)部鏈接
def getInternalLinks(bsObj,includeUrl):
    includeUrl = urlparse(includeUrl).scheme+"://"+urlparse(includeUrl).netloc
    internalLinks = []
    for link in bsObj.findAll("a",href=re.compile("^(/|.*"+includeUrl+")")):
        if link.attrs['href'] is not None:
            if link.attrs['href'] not in internalLinks:
                if(link.href['href'].startswith("/")):
                    internalLinks.append(includeUrl+link.attrs['href'])
                else:
                    internalLinks.append(link.attrs['href'])
    return internalLinks

def getExtrenalLinks(bsObj,excludeurl):
    extrenalLinks=[]
    #查找http開頭和www開頭的域名
    for link in bsObj.findAll("a",href =re.compile("^(http|www)((?!"+excludeurl+").)*$")):
        if link.attrs['href'] is not None:
            #如果內(nèi)連接包含跳轉(zhuǎn)到其他頁面的鏈接
            if link.attrs['href'] not in extrenalLinks:
                    extrenalLinks.append(link.attrs['href'])
    return extrenalLinks

def getRandomExtrnalLink(startingPage):
    html=urlopen(startingPage)
    bsObj= BeautifulSoup(html,"html.parser")
    extrenalLinks = getExtrenalLinks(bsObj,urlparse(startingPage).netloc)
    if len(extrenalLinks)==0:
        print("沒有找到外鏈")
        domain =urlparse(html).scheme+"://"+urlparse(startingPage).netloc
        internalLinks=getInternalLinks(bsObj,domain)
        return getRandomExtrnalLink(internalLinks[random.randint(0,len(internalLinks)-1)])
    else:
        return  extrenalLinks[random.randint(0,len(extrenalLinks)-1)]

def followExtrenalOnly(startingPage):
    externalLink =getRandomExtrnalLink(startingPage)
    #externalLink = "https://en.wikipedia.org/wiki/Intelligence_agency"
    print("Random extranal link is"+externalLink)
    followExtrenalOnly(externalLink)

# def main():
#     followExtrenalOnly("http://en.wikipedia.org")
#     print('End')
#     if __name__ == '__main__':
#         main()
followExtrenalOnly("https://en.wikipedia.org/wiki/Main_Page")

console output

9789789.png

Tips: 根據(jù)隨機外鏈摘能,各位朋友可以參考一下時下最為流行的區(qū)塊鏈:

簡單易懂的區(qū)塊鏈: http://python.jobbole.com/88248/
阮一峰老師的區(qū)塊鏈入門: http://www.ruanyifeng.com/blog/2017/12/blockchain-tutorial.html

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末续崖,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子团搞,更是在濱河造成了極大的恐慌严望,老刑警劉巖,帶你破解...
    沈念sama閱讀 222,627評論 6 517
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件逻恐,死亡現(xiàn)場離奇詭異像吻,居然都是意外死亡,警方通過查閱死者的電腦和手機复隆,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 95,180評論 3 399
  • 文/潘曉璐 我一進店門拨匆,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人挽拂,你說我怎么就攤上這事惭每。” “怎么了?”我有些...
    開封第一講書人閱讀 169,346評論 0 362
  • 文/不壞的土叔 我叫張陵台腥,是天一觀的道長宏赘。 經(jīng)常有香客問我,道長黎侈,這世上最難降的妖魔是什么察署? 我笑而不...
    開封第一講書人閱讀 60,097評論 1 300
  • 正文 為了忘掉前任,我火速辦了婚禮峻汉,結(jié)果婚禮上贴汪,老公的妹妹穿的比我還像新娘。我一直安慰自己休吠,他們只是感情好扳埂,可當(dāng)我...
    茶點故事閱讀 69,100評論 6 398
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著蛛碌,像睡著了一般聂喇。 火紅的嫁衣襯著肌膚如雪辖源。 梳的紋絲不亂的頭發(fā)上蔚携,一...
    開封第一講書人閱讀 52,696評論 1 312
  • 那天,我揣著相機與錄音克饶,去河邊找鬼酝蜒。 笑死,一個胖子當(dāng)著我的面吹牛矾湃,可吹牛的內(nèi)容都是我干的亡脑。 我是一名探鬼主播,決...
    沈念sama閱讀 41,165評論 3 422
  • 文/蒼蘭香墨 我猛地睜開眼邀跃,長吁一口氣:“原來是場噩夢啊……” “哼霉咨!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起拍屑,我...
    開封第一講書人閱讀 40,108評論 0 277
  • 序言:老撾萬榮一對情侶失蹤途戒,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后僵驰,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體喷斋,經(jīng)...
    沈念sama閱讀 46,646評論 1 319
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 38,709評論 3 342
  • 正文 我和宋清朗相戀三年蒜茴,在試婚紗的時候發(fā)現(xiàn)自己被綠了星爪。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 40,861評論 1 353
  • 序言:一個原本活蹦亂跳的男人離奇死亡粉私,死狀恐怖顽腾,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情诺核,我是刑警寧澤抄肖,帶...
    沈念sama閱讀 36,527評論 5 351
  • 正文 年R本政府宣布秒赤,位于F島的核電站,受9級特大地震影響憎瘸,放射性物質(zhì)發(fā)生泄漏入篮。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 42,196評論 3 336
  • 文/蒙蒙 一幌甘、第九天 我趴在偏房一處隱蔽的房頂上張望潮售。 院中可真熱鬧,春花似錦锅风、人聲如沸酥诽。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,698評論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽肮帐。三九已至,卻和暖如春边器,著一層夾襖步出監(jiān)牢的瞬間训枢,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,804評論 1 274
  • 我被黑心中介騙來泰國打工忘巧, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留恒界,地道東北人。 一個月前我還...
    沈念sama閱讀 49,287評論 3 379
  • 正文 我出身青樓砚嘴,卻偏偏與公主長得像十酣,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子际长,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 45,860評論 2 361

推薦閱讀更多精彩內(nèi)容