Python簡單爬蟲

簡單爬蟲實現(xiàn)，主要用到BeautifulSoup,re,urlparse, urllib2庫

項目主要結(jié)構(gòu)如下：

crawler_main.py 項目啟動程序
url_manager.py url管理器
html_downloader.py html內(nèi)容下載器
html_parser.py html解析器
html_outputer.py html輸出器

crawler_main.py(爬蟲主程序)

import html_downloader＃html內(nèi)容下載器
import html_parser
import url_manager
import html_outputer

class SpiderMain(object):
    def __init__(self):
        self.urls = url_manager.UrlManager()
        self.downloader = html_downloader.HtmlDownloader()
        self.parser = html_parser.HtmlParser()
        self.outputer = html_outputer.HtmlOutputer()

    def craw(self, root_url):
        count = 1
        self.urls.add_new_url(root_url)＃將開始url添加到url管理中
        while self.urls.has_new_url():＃查詢url管理器中是否還存在新的url
            try:
                new_url = self.urls.get_new_url()#從url管理器中獲取新的url
                print 'craw %d : %s' %(count, new_url)
                html_content = self.downloader.download(new_url)#從下載器中獲取網(wǎng)頁內(nèi)容
                new_urls, new_data = self.parser.parser(new_url, html_content)＃將網(wǎng)頁內(nèi)容解析成我們想要獲取的數(shù)據(jù)，此處為新的new_urls(鏈接集合), new_data(字典數(shù)據(jù))
                self.urls.add_new_urls(new_urls)#將解析后的new_urls添加到url管理器中
                self.outputer.collect_data(new_data)#將解析后的內(nèi)容添加到輸出器

                if count == 100:
                    break
                count = count + 1
            except BaseException, e:
                print e.message
                print 'craw fail'

        self.outputer.output_html()#最后將內(nèi)容以網(wǎng)頁的內(nèi)容輸出

if __name__=="__main__":
    root_url = "http://baike.baidu.com/item/%E8%9C%98%E8%9B%9B/8135707"
    obj_crawler = SpiderMain()
    obj_crawler.craw(root_url)

url_manager.py(url管理器)

# coding=utf-8
class UrlManager(object):
    '''
    url管理器
    此處采取set(),set中不能添加相同的value
    new_urls 未爬取數(shù)據(jù)的url集合
    old_urls 已爬取數(shù)據(jù)的url集合
    '''
    def __init__(self):
        self.new_urls = set()
        self.old_urls = set()

    def add_new_url(self, root_url):
        if root_url is None:
            return
        #添加的url不存在new_urls中且不在old_urls中
        if root_url not in self.new_urls and root_url not in self.old_urls:
            self.new_urls.add(root_url)

    def has_new_url(self):
        return len(self.new_urls) > 0

    def get_new_url(self):
        new_url = self.new_urls.pop()＃從新集合中移除并獲取一條url
        self.old_urls.add(new_url)
        return new_url

    def add_new_urls(self, new_urls):
        if new_urls is None or len(new_urls) == 0:
            return
        for url in new_urls:
            self.add_new_url(url)

html_downloader.py(html下載管理器)

import urllib2

'''從指定的url中獲取網(wǎng)頁內(nèi)容'''
class HtmlDownloader(object):
    def download(self, new_url):
        if new_url is None:
            return None

        response = urllib2.urlopen(new_url)

        if response.getcode() != 200:
            return None

        return response.read()

html_parser.py (html解析器)

# coding=utf-8
import re
from bs4 import BeautifulSoup
import urlparse

class HtmlParser(object):
    def parser(self, new_url, html_content):
        if new_url is None or html_content is None:
            return

        soup = BeautifulSoup(html_content, 'html.parser', from_encoding='utf-8')#初始化網(wǎng)頁解析器
        new_urls = self._get_new_urls(new_url, soup)#從內(nèi)容中提取爬取鏈接
        new_data = self._get_new_data(new_url, soup)＃從內(nèi)容中提取想要的內(nèi)容

        return new_urls, new_data

    def _get_new_urls(self, new_url, soup):
        new_urls = set()
        links = soup.find_all('a', href=re.compile(r"/item/"))＃通過指定的正則表達式來提取符合條件的<a>標簽
        for link in links:
            url = link['href']#獲取href標簽內(nèi)容
            new_full_url = urlparse.urljoin(new_url, url)＃通過urlparse.urljoin來拼接完整路徑的url
            new_urls.add(new_full_url)

        return new_urls

    '''從網(wǎng)頁內(nèi)容中提取想要的內(nèi)容'''
    def _get_new_data(self, new_url, soup):
        res_data = {}

        res_data['url'] = new_url
        #< dd class ="lemmaWgt-lemmaTitle-title" > < h1 > 網(wǎng)絡(luò)爬蟲 < / h1 >
        title_node = soup.find('dd', class_="lemmaWgt-lemmaTitle-title").find("h1")#采用class_來過濾，class是關(guān)鍵詞
        res_data['title'] = title_node.get_text()＃獲取提取到標簽的內(nèi)容

        summary_node = soup.find('div', class_="lemma-summary")
        res_data['summary'] = summary_node.get_text()

        return res_data

html_outputer.py (html輸出器)

'''此處采用數(shù)組來存儲抓取到的數(shù)據(jù)'''
class HtmlOutputer(object):
    def __init__(self):
        self.datas = []

    def collect_data(self, new_data):
        if new_data is None:
            return
        self.datas.append(new_data)

    '''自定義生成網(wǎng)頁來展示抓取到的數(shù)據(jù)'''
    def output_html(self):
        fout = open('output.html', 'w')

        fout.write('<html>')
        fout.write('<head>')
        fout.write("<meta charset='utf-8'>")
        fout.write('</head>')
        fout.write('<body>')
        fout.write('<table border="1">')

        for data in self.datas:
            fout.write('<tr>')
            fout.write("<td width='200px'>%s</td>" % data['url'])
            fout.write("<td width='100px'>%s</td>" % data['title'].encode('utf-8'))#由于存在中文智厌，需要指定編碼格式
            fout.write("<td>%s</td>" % data['summary'].encode('utf-8'))
            fout.write('</tr>')

        fout.write('</table>')
        fout.write('</body>')
        fout.write('</html>')

        fout.close()

最后編輯于：2017.12.07 01:56:11

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末虚茶，一起剝皮案震驚了整個濱河市，隨后出現(xiàn)的幾起案子料按，更是在濱河造成了極大的恐慌庄蹋，老刑警劉巖瞬内，帶你破解...
沈念sama閱讀 206,723評論 6贊 481
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場離奇詭異限书，居然都是意外死亡虫蝶，警方通過查閱死者的電腦和手機，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 88,485評論 2贊 382
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門倦西，熙熙樓的掌柜王于貴愁眉苦臉地迎上來能真，“玉大人，你說我怎么就攤上這事扰柠》垲恚” “怎么了？”我有些...
開封第一講書人閱讀 152,998評論 0贊 344
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵卤档，是天一觀的道長蝙泼。經(jīng)常有香客問我，道長劝枣，這世上最難降的妖魔是什么汤踏？我笑而不...
開封第一講書人閱讀 55,323評論 1贊 279
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮舔腾，結(jié)果婚禮上溪胶，老公的妹妹穿的比我還像新娘。我一直安慰自己稳诚，他們只是感情好哗脖，可當我...
茶點故事閱讀 64,355評論 5贊 374
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著采桃，像睡著了一般懒熙。火紅的嫁衣襯著肌膚如雪丘损。梳的紋絲不亂的頭發(fā)上普办，一...
開封第一講書人閱讀 49,079評論 1贊 285
城市分裂傳說
那天，我揣著相機與錄音徘钥，去河邊找鬼衔蹲。笑死，一個胖子當著我的面吹牛，可吹牛的內(nèi)容都是我干的舆驶。我是一名探鬼主播橱健，決...
沈念sama閱讀 38,389評論 3贊 400
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼沙廉！你這毒婦竟也來了拘荡？” 一聲冷哼從身側(cè)響起，我...
開封第一講書人閱讀 37,019評論 0贊 259
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤撬陵，失蹤者是張志新（化名）和其女友劉穎珊皿，沒想到半個月后，有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體巨税，經(jīng)...
沈念sama閱讀 43,519評論 1贊 300
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡蟋定，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 35,971評論 2贊 325
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時候發(fā)現(xiàn)自己被綠了草添。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片驶兜。...
茶點故事閱讀 38,100評論 1贊 333
活死人
序言：一個原本活蹦亂跳的男人離奇死亡，死狀恐怖远寸，靈堂內(nèi)的尸體忽然破棺而出抄淑，到底是詐尸還是另有隱情，我是刑警寧澤驰后，帶...
沈念sama閱讀 33,738評論 4贊 324
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布蝇狼，位于F島的核電站，受9級特大地震影響倡怎，放射性物質(zhì)發(fā)生泄漏迅耘。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點故事閱讀 39,293評論 3贊 307
男人毒藥：我在死后第九天來索命
文/蒙蒙一监署、第九天我趴在偏房一處隱蔽的房頂上張望颤专。院中可真熱鬧，春花似錦钠乏、人聲如沸栖秕。這莊子的主人今日做“春日...
開封第一講書人閱讀 30,289評論 0贊 19
一樁弒父案晓避，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽簇捍。三九已至，卻和暖如春俏拱，著一層夾襖步出監(jiān)牢的瞬間暑塑，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 31,517評論 1贊 262
情欲美人皮
我被黑心中介騙來泰國打工锅必，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留事格，地道東北人。一個月前我還...
沈念sama閱讀 45,547評論 2贊 354
代替公主和親
正文我出身青樓，卻偏偏與公主長得像驹愚，于是被迫代替她去往敵國和親远搪。傳聞我的和親對象是個殘疾皇子，可洞房花燭夜當晚...
茶點故事閱讀 42,834評論 2贊 345

Python簡單爬蟲

簡單爬蟲實現(xiàn)，主要用到BeautifulSoup,re,urlparse, urllib2庫

項目主要結(jié)構(gòu)如下：

crawler_main.py(爬蟲主程序)

url_manager.py(url管理器)

html_downloader.py(html下載管理器)

html_parser.py (html解析器)

html_outputer.py (html輸出器)

推薦閱讀更多精彩內(nèi)容