Python簡單爬蟲

簡單爬蟲實現(xiàn),主要用到BeautifulSoup,re,urlparse, urllib2庫

項目主要結(jié)構(gòu)如下:
  • crawler_main.py 項目啟動程序
  • url_manager.py url管理器
  • html_downloader.py html內(nèi)容下載器
  • html_parser.py html解析器
  • html_outputer.py html輸出器

crawler_main.py(爬蟲主程序)

import html_downloader#html內(nèi)容下載器
import html_parser
import url_manager
import html_outputer

class SpiderMain(object):
    def __init__(self):
        self.urls = url_manager.UrlManager()
        self.downloader = html_downloader.HtmlDownloader()
        self.parser = html_parser.HtmlParser()
        self.outputer = html_outputer.HtmlOutputer()

    def craw(self, root_url):
        count = 1
        self.urls.add_new_url(root_url)#將開始url添加到url管理中
        while self.urls.has_new_url():#查詢url管理器中是否還存在新的url
            try:
                new_url = self.urls.get_new_url()#從url管理器中獲取新的url
                print 'craw %d : %s' %(count, new_url)
                html_content = self.downloader.download(new_url)#從下載器中獲取網(wǎng)頁內(nèi)容
                new_urls, new_data = self.parser.parser(new_url, html_content)#將網(wǎng)頁內(nèi)容解析成我們想要獲取的數(shù)據(jù),此處為新的new_urls(鏈接集合), new_data(字典數(shù)據(jù))
                self.urls.add_new_urls(new_urls)#將解析后的new_urls添加到url管理器中
                self.outputer.collect_data(new_data)#將解析后的內(nèi)容添加到輸出器

                if count == 100:
                    break
                count = count + 1
            except BaseException, e:
                print e.message
                print 'craw fail'

        self.outputer.output_html()#最后將內(nèi)容以網(wǎng)頁的內(nèi)容輸出

if __name__=="__main__":
    root_url = "http://baike.baidu.com/item/%E8%9C%98%E8%9B%9B/8135707"
    obj_crawler = SpiderMain()
    obj_crawler.craw(root_url)

url_manager.py(url管理器)

# coding=utf-8
class UrlManager(object):
    '''
    url管理器
    此處采取set(),set中不能添加相同的value
    new_urls 未爬取數(shù)據(jù)的url集合
    old_urls 已爬取數(shù)據(jù)的url集合
    '''
    def __init__(self):
        self.new_urls = set()
        self.old_urls = set()

    def add_new_url(self, root_url):
        if root_url is None:
            return
        #添加的url不存在new_urls中且不在old_urls中
        if root_url not in self.new_urls and root_url not in self.old_urls:
            self.new_urls.add(root_url)

    def has_new_url(self):
        return len(self.new_urls) > 0

    def get_new_url(self):
        new_url = self.new_urls.pop()#從新集合中移除并獲取一條url
        self.old_urls.add(new_url)
        return new_url

    def add_new_urls(self, new_urls):
        if new_urls is None or len(new_urls) == 0:
            return
        for url in new_urls:
            self.add_new_url(url)

html_downloader.py(html下載管理器)

import urllib2

'''從指定的url中獲取網(wǎng)頁內(nèi)容'''
class HtmlDownloader(object):
    def download(self, new_url):
        if new_url is None:
            return None

        response = urllib2.urlopen(new_url)

        if response.getcode() != 200:
            return None

        return response.read()

html_parser.py (html解析器)

# coding=utf-8
import re
from bs4 import BeautifulSoup
import urlparse

class HtmlParser(object):
    def parser(self, new_url, html_content):
        if new_url is None or html_content is None:
            return

        soup = BeautifulSoup(html_content, 'html.parser', from_encoding='utf-8')#初始化網(wǎng)頁解析器
        new_urls = self._get_new_urls(new_url, soup)#從內(nèi)容中提取爬取鏈接
        new_data = self._get_new_data(new_url, soup)#從內(nèi)容中提取想要的內(nèi)容

        return new_urls, new_data

    def _get_new_urls(self, new_url, soup):
        new_urls = set()
        links = soup.find_all('a', href=re.compile(r"/item/"))#通過指定的正則表達式來提取符合條件的<a>標簽
        for link in links:
            url = link['href']#獲取href標簽內(nèi)容
            new_full_url = urlparse.urljoin(new_url, url)#通過urlparse.urljoin來拼接完整路徑的url
            new_urls.add(new_full_url)

        return new_urls

    '''從網(wǎng)頁內(nèi)容中提取想要的內(nèi)容'''
    def _get_new_data(self, new_url, soup):
        res_data = {}

        res_data['url'] = new_url
        #< dd class ="lemmaWgt-lemmaTitle-title" > < h1 > 網(wǎng)絡(luò)爬蟲 < / h1 >
        title_node = soup.find('dd', class_="lemmaWgt-lemmaTitle-title").find("h1")#采用class_來過濾,class是關(guān)鍵詞
        res_data['title'] = title_node.get_text()#獲取提取到標簽的內(nèi)容

        summary_node = soup.find('div', class_="lemma-summary")
        res_data['summary'] = summary_node.get_text()

        return res_data

html_outputer.py (html輸出器)

'''此處采用數(shù)組來存儲抓取到的數(shù)據(jù)'''
class HtmlOutputer(object):
    def __init__(self):
        self.datas = []

    def collect_data(self, new_data):
        if new_data is None:
            return
        self.datas.append(new_data)

    '''自定義生成網(wǎng)頁來展示抓取到的數(shù)據(jù)'''
    def output_html(self):
        fout = open('output.html', 'w')

        fout.write('<html>')
        fout.write('<head>')
        fout.write("<meta charset='utf-8'>")
        fout.write('</head>')
        fout.write('<body>')
        fout.write('<table border="1">')

        for data in self.datas:
            fout.write('<tr>')
            fout.write("<td width='200px'>%s</td>" % data['url'])
            fout.write("<td width='100px'>%s</td>" % data['title'].encode('utf-8'))#由于存在中文智厌,需要指定編碼格式
            fout.write("<td>%s</td>" % data['summary'].encode('utf-8'))
            fout.write('</tr>')

        fout.write('</table>')
        fout.write('</body>')
        fout.write('</html>')

        fout.close()
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末虚茶,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子料按,更是在濱河造成了極大的恐慌庄蹋,老刑警劉巖瞬内,帶你破解...
    沈念sama閱讀 206,723評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異限书,居然都是意外死亡虫蝶,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,485評論 2 382
  • 文/潘曉璐 我一進店門倦西,熙熙樓的掌柜王于貴愁眉苦臉地迎上來能真,“玉大人,你說我怎么就攤上這事扰柠》垲恚” “怎么了?”我有些...
    開封第一講書人閱讀 152,998評論 0 344
  • 文/不壞的土叔 我叫張陵卤档,是天一觀的道長蝙泼。 經(jīng)常有香客問我,道長劝枣,這世上最難降的妖魔是什么汤踏? 我笑而不...
    開封第一講書人閱讀 55,323評論 1 279
  • 正文 為了忘掉前任,我火速辦了婚禮舔腾,結(jié)果婚禮上溪胶,老公的妹妹穿的比我還像新娘。我一直安慰自己稳诚,他們只是感情好哗脖,可當我...
    茶點故事閱讀 64,355評論 5 374
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著采桃,像睡著了一般懒熙。 火紅的嫁衣襯著肌膚如雪丘损。 梳的紋絲不亂的頭發(fā)上普办,一...
    開封第一講書人閱讀 49,079評論 1 285
  • 那天,我揣著相機與錄音徘钥,去河邊找鬼衔蹲。 笑死,一個胖子當著我的面吹牛,可吹牛的內(nèi)容都是我干的舆驶。 我是一名探鬼主播橱健,決...
    沈念sama閱讀 38,389評論 3 400
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼沙廉!你這毒婦竟也來了拘荡?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 37,019評論 0 259
  • 序言:老撾萬榮一對情侶失蹤撬陵,失蹤者是張志新(化名)和其女友劉穎珊皿,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體巨税,經(jīng)...
    沈念sama閱讀 43,519評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡蟋定,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 35,971評論 2 325
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了草添。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片驶兜。...
    茶點故事閱讀 38,100評論 1 333
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖远寸,靈堂內(nèi)的尸體忽然破棺而出抄淑,到底是詐尸還是另有隱情,我是刑警寧澤驰后,帶...
    沈念sama閱讀 33,738評論 4 324
  • 正文 年R本政府宣布蝇狼,位于F島的核電站,受9級特大地震影響倡怎,放射性物質(zhì)發(fā)生泄漏迅耘。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 39,293評論 3 307
  • 文/蒙蒙 一监署、第九天 我趴在偏房一處隱蔽的房頂上張望颤专。 院中可真熱鬧,春花似錦钠乏、人聲如沸栖秕。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,289評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽簇捍。三九已至,卻和暖如春俏拱,著一層夾襖步出監(jiān)牢的瞬間暑塑,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,517評論 1 262
  • 我被黑心中介騙來泰國打工锅必, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留事格,地道東北人。 一個月前我還...
    沈念sama閱讀 45,547評論 2 354
  • 正文 我出身青樓,卻偏偏與公主長得像驹愚,于是被迫代替她去往敵國和親远搪。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 42,834評論 2 345

推薦閱讀更多精彩內(nèi)容