Python爬蟲學(xué)習(xí)(1) 采集wiki百科鏈接

近期網(wǎng)上掀起爬蟲熱潮劫恒,題主配置的python包為3.6.1短荐,對深網(wǎng)網(wǎng)頁進行數(shù)據(jù)爬取混巧,從本書中學(xué)習(xí)經(jīng)歷記載在此.
Python網(wǎng)絡(luò)數(shù)據(jù)收集

深網(wǎng),為深層網(wǎng)絡(luò)(英語:Deep Web)的略稱裙品,又稱:不可見網(wǎng)、隱藏網(wǎng)俗或,是指互聯(lián)網(wǎng)上那些不能被標準搜索引擎索引的非表面網(wǎng)絡(luò)內(nèi)容

<h1><strong>深網(wǎng)資源</strong></h1>[編輯]
動態(tài)內(nèi)容
未被鏈接內(nèi)容
私有網(wǎng)站
Contextual Web
被限制訪問內(nèi)容
腳本化內(nèi)容
非HTML/文本內(nèi)容

深網(wǎng)爬取數(shù)據(jù)分為以下兩步
1.生成網(wǎng)站地圖
2.收集數(shù)據(jù)

生成網(wǎng)站地圖思路
為了避免一個頁面被采集兩次市怎,考慮鏈接去重,不限制爬蟲的采集范圍辛慰,只要遇到頁面就查找所有以/wiki/開頭的鏈接区匠,不考慮鏈接的開頭是否冒號

from urllib.request import urlopen
from bs4 import BeautifulSoup
import re
pages = set()
def getlinks(pageUrl):
    global pages
    html=urlopen("http://en.wikipedia.org"+pageUrl)
    bsObj=BeautifulSoup(html,'html.parser')
    for link in bsObj.findAll("a" , href=re.compile("^(/wiki/)")):
        if 'href' in link.attrs:
            if link.attrs['href'] not in pages:
                newPage=link.attrs['href']
                print(newPage)
                pages.add(newPage)
                getlinks(newPage)
getlinks("")

一開始,用getLinks處理一個空的url,是維基百科的主頁驰弄,然后遍歷首頁上的每個鏈接麻汰,并檢查是否已經(jīng)在全局變量集合pages里面了(已經(jīng)采集的所有集合)如果不在,就打印到屏幕上戚篙,并把鏈接加入pages集合五鲫,再用getLinks遞歸處理這個鏈接

爬取所有符合^/wiki/鏈接的正則表達式


Result.png
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市岔擂,隨后出現(xiàn)的幾起案子位喂,更是在濱河造成了極大的恐慌,老刑警劉巖乱灵,帶你破解...
    沈念sama閱讀 217,734評論 6 505
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件塑崖,死亡現(xiàn)場離奇詭異,居然都是意外死亡痛倚,警方通過查閱死者的電腦和手機规婆,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,931評論 3 394
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來蝉稳,“玉大人抒蚜,你說我怎么就攤上這事〉咔” “怎么了削锰?”我有些...
    開封第一講書人閱讀 164,133評論 0 354
  • 文/不壞的土叔 我叫張陵,是天一觀的道長毕莱。 經(jīng)常有香客問我器贩,道長,這世上最難降的妖魔是什么朋截? 我笑而不...
    開封第一講書人閱讀 58,532評論 1 293
  • 正文 為了忘掉前任蛹稍,我火速辦了婚禮,結(jié)果婚禮上部服,老公的妹妹穿的比我還像新娘唆姐。我一直安慰自己,他們只是感情好廓八,可當我...
    茶點故事閱讀 67,585評論 6 392
  • 文/花漫 我一把揭開白布奉芦。 她就那樣靜靜地躺著,像睡著了一般剧蹂。 火紅的嫁衣襯著肌膚如雪声功。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,462評論 1 302
  • 那天宠叼,我揣著相機與錄音先巴,去河邊找鬼。 笑死,一個胖子當著我的面吹牛伸蚯,可吹牛的內(nèi)容都是我干的摩渺。 我是一名探鬼主播,決...
    沈念sama閱讀 40,262評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼剂邮,長吁一口氣:“原來是場噩夢啊……” “哼摇幻!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起抗斤,我...
    開封第一講書人閱讀 39,153評論 0 276
  • 序言:老撾萬榮一對情侶失蹤囚企,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后瑞眼,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體龙宏,經(jīng)...
    沈念sama閱讀 45,587評論 1 314
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,792評論 3 336
  • 正文 我和宋清朗相戀三年伤疙,在試婚紗的時候發(fā)現(xiàn)自己被綠了银酗。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 39,919評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡徒像,死狀恐怖黍特,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情锯蛀,我是刑警寧澤灭衷,帶...
    沈念sama閱讀 35,635評論 5 345
  • 正文 年R本政府宣布,位于F島的核電站旁涤,受9級特大地震影響翔曲,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜劈愚,卻給世界環(huán)境...
    茶點故事閱讀 41,237評論 3 329
  • 文/蒙蒙 一瞳遍、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧菌羽,春花似錦掠械、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,855評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至是晨,卻和暖如春婚夫,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背署鸡。 一陣腳步聲響...
    開封第一講書人閱讀 32,983評論 1 269
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人靴庆。 一個月前我還...
    沈念sama閱讀 48,048評論 3 370
  • 正文 我出身青樓时捌,卻偏偏與公主長得像,于是被迫代替她去往敵國和親炉抒。 傳聞我的和親對象是個殘疾皇子奢讨,可洞房花燭夜當晚...
    茶點故事閱讀 44,864評論 2 354

推薦閱讀更多精彩內(nèi)容