Python爬蟲學(xué)習(xí)(2)顯示wiki頁面數(shù)據(jù)

當(dāng)我們決定好構(gòu)建的url連接之后呼股，所需要的就是觀察網(wǎng)頁的html結(jié)構(gòu)
我們找到的wiki百科內(nèi)容為mw-cntent-text標(biāo)簽旱眯，由于我們只需要其中包含的p后的標(biāo)簽詞條鏈接晨川，構(gòu)建url結(jié)構(gòu) mw-content-text -> p[0]

56565656.png

我們發(fā)現(xiàn)編輯鏈接的結(jié)構(gòu)如下
所有詞條連接的a標(biāo)簽位于詞條連接的mp-tfa標(biāo)簽下
find層次結(jié)構(gòu)為 mp-tfa -> a -> a href

56876586575.png

采集數(shù)據(jù)

from urllib.request import urlopen
from bs4 import BeautifulSoup
import re
pages = set()
def getlinks(pageUrl):
    global pages
    html=urlopen("http://en.wikipedia.org"+pageUrl)
    bsObj=BeautifulSoup(html,'html.parser')
    try:
        print(bsObj.h1.get_text())
        print(bsObj.find(id="mw-content-text").findAll("p")[0])
        print(bsObj.find(id="mp-tfa").find("a").attrs['href'])
    except AttributeError:
        print("頁面缺少一些屬性")

    for link in bsObj.findAll("a" , href=re.compile("^(/wiki/)")):
        if 'href' in link.attrs:
            if link.attrs['href'] not in pages:
                newPage=link.attrs['href']
                print(newPage)
                pages.add(newPage)
                getlinks(newPage)
getlinks("")

console output

09809809.png

發(fā)現(xiàn)在找到a標(biāo)簽之后立即拋出異常
檢查編輯鏈接的層次順序，修改 mp-tfa -> p -> b -> a href

from urllib.request import urlopen
from bs4 import BeautifulSoup
import re
pages = set()
def getlinks(pageUrl):
    global pages
    html=urlopen("http://en.wikipedia.org"+pageUrl)
    bsObj=BeautifulSoup(html,'html.parser')
    try:
        print(bsObj.h1.get_text())
        print(bsObj.find(id="mw-content-text").findAll("p")[0])
        print(bsObj.find(id="mp-tfa",style="padding:2px 5px").find("p").find("b").find("a").attrs['href'])
    except AttributeError:
        print("頁面缺少一些屬性")

    for link in bsObj.findAll("a" , href=re.compile("^(/wiki/)")):
        if 'href' in link.attrs:
            if link.attrs['href'] not in pages:
                newPage=link.attrs['href']
                print("--------\n"+newPage)
                pages.add(newPage)
                getlinks(newPage)
getlinks("")

console output

7978979.png

原因在于之前分析的頁面僅在于Main_page頁面删豺，繼續(xù)對跳轉(zhuǎn)之后的頁面進(jìn)行解析共虑，發(fā)現(xiàn)并沒有mp-tfa標(biāo)簽

jhgjhgjh.png

修改url構(gòu)造 mw-content-test -> p ->a href

from urllib.request import urlopen
from bs4 import BeautifulSoup
import re
pages = set()
def getlinks(pageUrl):
    global pages
    html=urlopen("http://en.wikipedia.org"+pageUrl)
    bsObj=BeautifulSoup(html,'html.parser')
    try:
        print(bsObj.h1.get_text())
        print(bsObj.find(id="mw-content-text").findAll("p")[0])
        print(bsObj.find(id="mw-content-text").find("p").find("a").attrs['href'])
    except AttributeError:
        print("頁面缺少一些屬性")

    for link in bsObj.findAll("a" , href=re.compile("^(/wiki/)")):
        if 'href' in link.attrs:
            if link.attrs['href'] not in pages:
                newPage=link.attrs['href']
                print("--------\n"+newPage)
                pages.add(newPage)
                getlinks(newPage)
getlinks("")

console output
成功拿到詞條鏈接

867867867.png

最后編輯于：2017.12.08 04:39:51

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市吼鳞，隨后出現(xiàn)的幾起案子看蚜，更是在濱河造成了極大的恐慌，老刑警劉巖赔桌，帶你破解...
沈念sama閱讀 217,907評論 6贊 506
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件供炎，死亡現(xiàn)場離奇詭異渴逻，居然都是意外死亡，警方通過查閱死者的電腦和手機(jī)音诫，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 92,987評論 3贊 395
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門惨奕，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人竭钝，你說我怎么就攤上這事梨撞。” “怎么了香罐？”我有些...
開封第一講書人閱讀 164,298評論 0贊 354
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵卧波，是天一觀的道長。經(jīng)常有香客問我庇茫，道長港粱，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 58,586評論 1贊 293
?港島之戀（遺憾婚禮）
正文為了忘掉前任旦签，我火速辦了婚禮查坪，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘宁炫。我一直安慰自己偿曙，他們只是感情好，可當(dāng)我...
茶點故事閱讀 67,633評論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布羔巢。她就那樣靜靜地躺著望忆，像睡著了一般。火紅的嫁衣襯著肌膚如雪朵纷。梳的紋絲不亂的頭發(fā)上炭臭，一...
開封第一講書人閱讀 51,488評論 1贊 302
城市分裂傳說
那天，我揣著相機(jī)與錄音袍辞，去河邊找鬼鞋仍。笑死，一個胖子當(dāng)著我的面吹牛搅吁，可吹牛的內(nèi)容都是我干的威创。我是一名探鬼主播，決...
沈念sama閱讀 40,275評論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼谎懦，長吁一口氣：“原來是場噩夢啊……” “哼肚豺！你這毒婦竟也來了？” 一聲冷哼從身側(cè)響起界拦，我...
開封第一講書人閱讀 39,176評論 0贊 276
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤吸申，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體截碴，經(jīng)...
沈念sama閱讀 45,619評論 1贊 314
?護(hù)林員之死
正文獨居荒郊野嶺守林人離奇死亡梳侨，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 37,819評論 3贊 336
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時候發(fā)現(xiàn)自己被綠了日丹。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片走哺。...
茶點故事閱讀 39,932評論 1贊 348
活死人
序言：一個原本活蹦亂跳的男人離奇死亡，死狀恐怖哲虾，靈堂內(nèi)的尸體忽然破棺而出丙躏，到底是詐尸還是另有隱情，我是刑警寧澤束凑，帶...
沈念sama閱讀 35,655評論 5贊 346
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布晒旅，位于F島的核電站，受9級特大地震影響湘今，放射性物質(zhì)發(fā)生泄漏敢朱。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點故事閱讀 41,265評論 3贊 329
男人毒藥：我在死后第九天來索命
文/蒙蒙一摩瞎、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧孝常，春花似錦旗们、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,871評論 0贊 22
一樁弒父案上渴，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至喜颁，卻和暖如春稠氮，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背半开。一陣腳步聲響...
開封第一講書人閱讀 32,994評論 1贊 269
情欲美人皮
我被黑心中介騙來泰國打工隔披，沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留，地道東北人寂拆。一個月前我還...
沈念sama閱讀 48,095評論 3贊 370
代替公主和親
正文我出身青樓奢米，卻偏偏與公主長得像，于是被迫代替她去往敵國和親纠永。傳聞我的和親對象是個殘疾皇子鬓长，可洞房花燭夜當(dāng)晚...
茶點故事閱讀 44,884評論 2贊 354

Python爬蟲學(xué)習(xí)(2)顯示wiki頁面數(shù)據(jù)

推薦閱讀更多精彩內(nèi)容