Python爬蟲學(xué)習(xí)(1) 采集wiki百科鏈接

近期網(wǎng)上掀起爬蟲熱潮劫恒，題主配置的python包為3.6.1短荐，對深網(wǎng)網(wǎng)頁進行數(shù)據(jù)爬取混巧，從本書中學(xué)習(xí)經(jīng)歷記載在此.
Python網(wǎng)絡(luò)數(shù)據(jù)收集

深網(wǎng)，為深層網(wǎng)絡(luò)（英語：Deep Web）的略稱裙品，又稱：不可見網(wǎng)、隱藏網(wǎng)俗或，是指互聯(lián)網(wǎng)上那些不能被標準搜索引擎索引的非表面網(wǎng)絡(luò)內(nèi)容

<h1><strong>深網(wǎng)資源</strong></h1>[編輯]
動態(tài)內(nèi)容
未被鏈接內(nèi)容
私有網(wǎng)站
Contextual Web
被限制訪問內(nèi)容
腳本化內(nèi)容
非HTML/文本內(nèi)容

深網(wǎng)爬取數(shù)據(jù)分為以下兩步
1.生成網(wǎng)站地圖
2.收集數(shù)據(jù)

生成網(wǎng)站地圖思路
為了避免一個頁面被采集兩次市怎，考慮鏈接去重，不限制爬蟲的采集范圍辛慰，只要遇到頁面就查找所有以/wiki/開頭的鏈接区匠，不考慮鏈接的開頭是否冒號

from urllib.request import urlopen
from bs4 import BeautifulSoup
import re
pages = set()
def getlinks(pageUrl):
    global pages
    html=urlopen("http://en.wikipedia.org"+pageUrl)
    bsObj=BeautifulSoup(html,'html.parser')
    for link in bsObj.findAll("a" , href=re.compile("^(/wiki/)")):
        if 'href' in link.attrs:
            if link.attrs['href'] not in pages:
                newPage=link.attrs['href']
                print(newPage)
                pages.add(newPage)
                getlinks(newPage)
getlinks("")

一開始，用getLinks處理一個空的url，是維基百科的主頁驰弄，然后遍歷首頁上的每個鏈接麻汰，并檢查是否已經(jīng)在全局變量集合pages里面了(已經(jīng)采集的所有集合)如果不在，就打印到屏幕上戚篙，并把鏈接加入pages集合五鲫，再用getLinks遞歸處理這個鏈接

爬取所有符合^/wiki/鏈接的正則表達式

Result.png

最后編輯于：2017.12.08 02:34:44

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市岔擂，隨后出現(xiàn)的幾起案子位喂，更是在濱河造成了極大的恐慌，老刑警劉巖乱灵，帶你破解...
沈念sama閱讀 217,734評論 6贊 505
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件塑崖，死亡現(xiàn)場離奇詭異，居然都是意外死亡痛倚，警方通過查閱死者的電腦和手機规婆，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 92,931評論 3贊 394
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來蝉稳，“玉大人抒蚜，你說我怎么就攤上這事〉咔” “怎么了削锰？”我有些...
開封第一講書人閱讀 164,133評論 0贊 354
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長毕莱。經(jīng)常有香客問我器贩，道長，這世上最難降的妖魔是什么朋截？我笑而不...
開封第一講書人閱讀 58,532評論 1贊 293
?港島之戀（遺憾婚禮）
正文為了忘掉前任蛹稍，我火速辦了婚禮，結(jié)果婚禮上部服，老公的妹妹穿的比我還像新娘唆姐。我一直安慰自己，他們只是感情好廓八，可當我...
茶點故事閱讀 67,585評論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布奉芦。她就那樣靜靜地躺著，像睡著了一般剧蹂。火紅的嫁衣襯著肌膚如雪声功。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 51,462評論 1贊 302
城市分裂傳說
那天宠叼，我揣著相機與錄音先巴，去河邊找鬼。笑死，一個胖子當著我的面吹牛伸蚯，可吹牛的內(nèi)容都是我干的摩渺。我是一名探鬼主播，決...
沈念sama閱讀 40,262評論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼剂邮，長吁一口氣：“原來是場噩夢啊……” “哼摇幻！你這毒婦竟也來了？” 一聲冷哼從身側(cè)響起抗斤，我...
開封第一講書人閱讀 39,153評論 0贊 276
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤囚企，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后瑞眼，有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體龙宏，經(jīng)...
沈念sama閱讀 45,587評論 1贊 314
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 37,792評論 3贊 336
?白月光啟示錄
正文我和宋清朗相戀三年伤疙，在試婚紗的時候發(fā)現(xiàn)自己被綠了银酗。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點故事閱讀 39,919評論 1贊 348
活死人
序言：一個原本活蹦亂跳的男人離奇死亡徒像，死狀恐怖黍特，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情锯蛀，我是刑警寧澤灭衷，帶...
沈念sama閱讀 35,635評論 5贊 345
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站旁涤，受9級特大地震影響翔曲，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜劈愚，卻給世界環(huán)境...
茶點故事閱讀 41,237評論 3贊 329
男人毒藥：我在死后第九天來索命
文/蒙蒙一瞳遍、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧菌羽，春花似錦掠械、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,855評論 0贊 22
一樁弒父案猾蒂，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至是晨，卻和暖如春婚夫，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背署鸡。一陣腳步聲響...
開封第一講書人閱讀 32,983評論 1贊 269
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留，地道東北人靴庆。一個月前我還...
沈念sama閱讀 48,048評論 3贊 370
代替公主和親
正文我出身青樓时捌，卻偏偏與公主長得像，于是被迫代替她去往敵國和親炉抒。傳聞我的和親對象是個殘疾皇子奢讨，可洞房花燭夜當晚...
茶點故事閱讀 44,864評論 2贊 354

Python爬蟲學(xué)習(xí)(1) 采集wiki百科鏈接

推薦閱讀更多精彩內(nèi)容