Python爬蟲學(xué)習(xí)(2)顯示wiki頁面數(shù)據(jù)

當(dāng)我們決定好構(gòu)建的url連接之后呼股,所需要的就是觀察網(wǎng)頁的html結(jié)構(gòu)
我們找到的wiki百科內(nèi)容為mw-cntent-text標(biāo)簽旱眯,由于我們只需要其中包含的p后的標(biāo)簽詞條鏈接晨川,構(gòu)建url結(jié)構(gòu) mw-content-text -> p[0]


56565656.png

我們發(fā)現(xiàn)編輯鏈接的結(jié)構(gòu)如下
所有詞條連接的a標(biāo)簽位于詞條連接的mp-tfa標(biāo)簽下
find層次結(jié)構(gòu)為 mp-tfa -> a -> a href

56876586575.png

采集數(shù)據(jù)

from urllib.request import urlopen
from bs4 import BeautifulSoup
import re
pages = set()
def getlinks(pageUrl):
    global pages
    html=urlopen("http://en.wikipedia.org"+pageUrl)
    bsObj=BeautifulSoup(html,'html.parser')
    try:
        print(bsObj.h1.get_text())
        print(bsObj.find(id="mw-content-text").findAll("p")[0])
        print(bsObj.find(id="mp-tfa").find("a").attrs['href'])
    except AttributeError:
        print("頁面缺少一些屬性")

    for link in bsObj.findAll("a" , href=re.compile("^(/wiki/)")):
        if 'href' in link.attrs:
            if link.attrs['href'] not in pages:
                newPage=link.attrs['href']
                print(newPage)
                pages.add(newPage)
                getlinks(newPage)
getlinks("")

console output

09809809.png

發(fā)現(xiàn)在找到a標(biāo)簽之后立即拋出異常
檢查編輯鏈接的層次順序,修改 mp-tfa -> p -> b -> a href

from urllib.request import urlopen
from bs4 import BeautifulSoup
import re
pages = set()
def getlinks(pageUrl):
    global pages
    html=urlopen("http://en.wikipedia.org"+pageUrl)
    bsObj=BeautifulSoup(html,'html.parser')
    try:
        print(bsObj.h1.get_text())
        print(bsObj.find(id="mw-content-text").findAll("p")[0])
        print(bsObj.find(id="mp-tfa",style="padding:2px 5px").find("p").find("b").find("a").attrs['href'])
    except AttributeError:
        print("頁面缺少一些屬性")

    for link in bsObj.findAll("a" , href=re.compile("^(/wiki/)")):
        if 'href' in link.attrs:
            if link.attrs['href'] not in pages:
                newPage=link.attrs['href']
                print("--------\n"+newPage)
                pages.add(newPage)
                getlinks(newPage)
getlinks("")

console output

7978979.png

原因在于之前分析的頁面僅在于Main_page頁面删豺,繼續(xù)對跳轉(zhuǎn)之后的頁面進(jìn)行解析共虑,發(fā)現(xiàn)并沒有mp-tfa標(biāo)簽

jhgjhgjh.png

修改url構(gòu)造 mw-content-test -> p ->a href

from urllib.request import urlopen
from bs4 import BeautifulSoup
import re
pages = set()
def getlinks(pageUrl):
    global pages
    html=urlopen("http://en.wikipedia.org"+pageUrl)
    bsObj=BeautifulSoup(html,'html.parser')
    try:
        print(bsObj.h1.get_text())
        print(bsObj.find(id="mw-content-text").findAll("p")[0])
        print(bsObj.find(id="mw-content-text").find("p").find("a").attrs['href'])
    except AttributeError:
        print("頁面缺少一些屬性")

    for link in bsObj.findAll("a" , href=re.compile("^(/wiki/)")):
        if 'href' in link.attrs:
            if link.attrs['href'] not in pages:
                newPage=link.attrs['href']
                print("--------\n"+newPage)
                pages.add(newPage)
                getlinks(newPage)
getlinks("")

console output
成功拿到詞條鏈接

867867867.png
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市吼鳞,隨后出現(xiàn)的幾起案子看蚜,更是在濱河造成了極大的恐慌,老刑警劉巖赔桌,帶你破解...
    沈念sama閱讀 217,907評論 6 506
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件供炎,死亡現(xiàn)場離奇詭異渴逻,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)音诫,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,987評論 3 395
  • 文/潘曉璐 我一進(jìn)店門惨奕,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人竭钝,你說我怎么就攤上這事梨撞。” “怎么了香罐?”我有些...
    開封第一講書人閱讀 164,298評論 0 354
  • 文/不壞的土叔 我叫張陵卧波,是天一觀的道長。 經(jīng)常有香客問我庇茫,道長港粱,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,586評論 1 293
  • 正文 為了忘掉前任旦签,我火速辦了婚禮查坪,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘宁炫。我一直安慰自己偿曙,他們只是感情好,可當(dāng)我...
    茶點故事閱讀 67,633評論 6 392
  • 文/花漫 我一把揭開白布羔巢。 她就那樣靜靜地躺著望忆,像睡著了一般。 火紅的嫁衣襯著肌膚如雪朵纷。 梳的紋絲不亂的頭發(fā)上炭臭,一...
    開封第一講書人閱讀 51,488評論 1 302
  • 那天,我揣著相機(jī)與錄音袍辞,去河邊找鬼鞋仍。 笑死,一個胖子當(dāng)著我的面吹牛搅吁,可吹牛的內(nèi)容都是我干的威创。 我是一名探鬼主播,決...
    沈念sama閱讀 40,275評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼谎懦,長吁一口氣:“原來是場噩夢啊……” “哼肚豺!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起界拦,我...
    開封第一講書人閱讀 39,176評論 0 276
  • 序言:老撾萬榮一對情侶失蹤吸申,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體截碴,經(jīng)...
    沈念sama閱讀 45,619評論 1 314
  • 正文 獨居荒郊野嶺守林人離奇死亡梳侨,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,819評論 3 336
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了日丹。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片走哺。...
    茶點故事閱讀 39,932評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖哲虾,靈堂內(nèi)的尸體忽然破棺而出丙躏,到底是詐尸還是另有隱情,我是刑警寧澤束凑,帶...
    沈念sama閱讀 35,655評論 5 346
  • 正文 年R本政府宣布晒旅,位于F島的核電站,受9級特大地震影響湘今,放射性物質(zhì)發(fā)生泄漏敢朱。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 41,265評論 3 329
  • 文/蒙蒙 一摩瞎、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧孝常,春花似錦旗们、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,871評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至喜颁,卻和暖如春稠氮,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背半开。 一陣腳步聲響...
    開封第一講書人閱讀 32,994評論 1 269
  • 我被黑心中介騙來泰國打工隔披, 沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人寂拆。 一個月前我還...
    沈念sama閱讀 48,095評論 3 370
  • 正文 我出身青樓奢米,卻偏偏與公主長得像,于是被迫代替她去往敵國和親纠永。 傳聞我的和親對象是個殘疾皇子鬓长,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 44,884評論 2 354

推薦閱讀更多精彩內(nèi)容