python 網(wǎng)站鏈接的爬取

獲取

#!/usr/bin/env python
# -*- coding:utf-8 -*-

from gevent import monkey

monkey.patch_all()
import gevent
import Queue
import lxml.html
import hashlib
import requests
import logging
import traceback
import time
import re
import datetime

from libs.Conn_scan import Mongo


class spider_setting():
    def __init__(self, url, deep, thread_num=10, filter_str=None, filter_re=None,
                     log_name='log/spider_' + datetime.datetime.now().strftime("%Y%m%d%H%M%S") + '.log', referer=""):
        logging.basicConfig(format='%(levelname)s:(%(asctime)s) %(message)s', filename=log_name, level=logging.WARNING)
        self.logger = logging.getLogger(__name__)
        self.logger.warn("\n\n\n\n===========start===========")

        self.url = url
        self.target = url
        self.deep = deep
        self.filter_str = filter_str
        self.filter_re = filter_re
        self.thread_num = thread_num

        self.url_queue = Queue.Queue()
        self.url_queue.put((url, 1, referer))
        self.hash_set = set()
        self.hash_set.add(hashlib.md5(url).hexdigest())
        

referer_list = []
url_list = []
dict1 = {}
class spider():
    def __init__(self, spider_setting):
        
        self.url_queue = spider_setting.url_queue
        self.hash_set = spider_setting.hash_set
        self.logger = spider_setting.logger
        self.thread_num = spider_setting.thread_num

        self.deep = spider_setting.deep
        self.filter_str = spider_setting.filter_str
        self.filter_re = spider_setting.filter_re
        self.target_url = spider_setting.target

        self.gevent_list = []
 

    def run(self):
        while True:
            try:
                url_pair = self.url_queue.get(timeout=5)
                url = url_pair[0]
                cur_deep = url_pair[1]
                referer = url_pair[2]
                self.logger.warn("Get From Queue" + str(url_pair))
                

            except Queue.Empty:
                self.logger.warn("Queue_len:" + str(self.url_queue.qsize()) + "\tspider end!")
                break

            try:
                start_time = time.time()
                r = requests.get(url, headers=self.set_headers(referer=referer), timeout=5)
                end_time = time.time()
                self.logger.warn(
                                    "Queue_len:" + str(self.url_queue.qsize()) + "\t" + str(
                                            len(self.hash_set)) + "\t" + str(end_time - start_time) + "\t" + url + "\tReferer: " + referer)
                self.save_resource(url, r, cur_deep, referer)
                
                html = r.text

                urls = self.filter_links(self.parser_html(url, html))
                if cur_deep < self.deep:
                    for new_url in urls:
                        if not self.is_repeat(new_url):
                            self.url_queue.put((new_url, cur_deep + 1, url))
                            
            except:
                self.logger.error(traceback.format_exc())
            self.url_queue.task_done()

    def parser_html(self, url, html):
        doc = lxml.html.document_fromstring(html)
        doc.make_links_absolute(url)
        return [link[2] for link in doc.iterlinks()]

    def filter_links(self, links):
        # url_parser_re = r"^(\w*):\/\/(?:([^:]*)?(?::(.*))?@)?([0-9.\-A-Za-z]+)(?::(\d+))?(?:\/([^?#]*))?(?:\?([^#]*))?(?:#(.*))?$"
        # r = re.compile(url_parser_re)
        blacklist = ['mp4', 'JPG','jpg', 'jpeg', 'mp3', 'apk','flv','swf', 'gif', 'png', 'css','exe','js']
        results = []
        for link in links:
            if (link.split(".")[-1] not in blacklist):
                # url = re.match(r, link)
                results.append(link)
        return results

    def is_repeat(self, link):
        md5sum = hashlib.md5(link).hexdigest()
        if md5sum in self.hash_set:
            return True
        else:
            self.hash_set.add(md5sum)
            return False

    def save_resource(self, url, req, cur_deep, referer):
        if (self.filter_str is not None) and (self.filter_str not in url):
            return
        if (self.filter_re is not None) and (not re.search(self.filter_re, url)):
            return
        print url + '------URL'
        #url_list = url_list.append(url)
        #referer_list = referer_list.append(referer)
        
        print referer + '-------------referer'
        if len(referer) != 0:
            try:
                #referer_list = referer_list.append(referer)
                print referer 
                Mongo.coll['1'].update({"URL":self.target_url},
                                       {"$push": {'referer' : str(url) }},
                                       upsert = True)            
            except Exception,e:
                print str(e)
                pass
        
    def set_headers(self, referer=""):
        return {
                    "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10.11; rv:47.0) Gecko/20100101 Firefox/47.0",
                        "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8",
                        "Accept-Language": "zh-CN,zh;q=0.8,en-US;q=0.5,en;q=0.3",
                        "Connection": "keep-alive",
                        "Referer": referer
                }

    def start(self):
        for i in range(self.thread_num):
            self.gevent_list.append(gevent.spawn(self.run))

    def join(self):
        gevent.joinall(self.gevent_list)

        


#----------------------------------------------------------------------
def Start(url):
    """"""
    try:
        s = spider_setting(url, 3)
        a = spider(s)
        a.start()
        a.join() 
    except Exception,e:
        print str(e)
        pass
    
target_url = 'http://www.reibang.com/'
Start(target_url)

#Mongo.coll['path'].update({"URL":target_url},
                       #{referer_list: {str(num):i}},
                       #upsert = True) 


最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末呼奢,一起剝皮案震驚了整個(gè)濱河市劫拗,隨后出現(xiàn)的幾起案子篡悟,更是在濱河造成了極大的恐慌淘衙,老刑警劉巖啥容,帶你破解...
    沈念sama閱讀 212,454評(píng)論 6 493
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異沛婴,居然都是意外死亡悦污,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,553評(píng)論 3 385
  • 文/潘曉璐 我一進(jìn)店門退子,熙熙樓的掌柜王于貴愁眉苦臉地迎上來岖妄,“玉大人,你說我怎么就攤上這事寂祥〖雠埃” “怎么了?”我有些...
    開封第一講書人閱讀 157,921評(píng)論 0 348
  • 文/不壞的土叔 我叫張陵丸凭,是天一觀的道長福扬。 經(jīng)常有香客問我,道長惜犀,這世上最難降的妖魔是什么铛碑? 我笑而不...
    開封第一講書人閱讀 56,648評(píng)論 1 284
  • 正文 為了忘掉前任,我火速辦了婚禮虽界,結(jié)果婚禮上汽烦,老公的妹妹穿的比我還像新娘。我一直安慰自己莉御,他們只是感情好撇吞,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,770評(píng)論 6 386
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著礁叔,像睡著了一般牍颈。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上琅关,一...
    開封第一講書人閱讀 49,950評(píng)論 1 291
  • 那天煮岁,我揣著相機(jī)與錄音,去河邊找鬼。 笑死画机,一個(gè)胖子當(dāng)著我的面吹牛冶伞,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播色罚,決...
    沈念sama閱讀 39,090評(píng)論 3 410
  • 文/蒼蘭香墨 我猛地睜開眼碰缔,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了戳护?” 一聲冷哼從身側(cè)響起金抡,我...
    開封第一講書人閱讀 37,817評(píng)論 0 268
  • 序言:老撾萬榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎腌且,沒想到半個(gè)月后梗肝,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 44,275評(píng)論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡铺董,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,592評(píng)論 2 327
  • 正文 我和宋清朗相戀三年巫击,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片精续。...
    茶點(diǎn)故事閱讀 38,724評(píng)論 1 341
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡坝锰,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出重付,到底是詐尸還是另有隱情顷级,我是刑警寧澤,帶...
    沈念sama閱讀 34,409評(píng)論 4 333
  • 正文 年R本政府宣布确垫,位于F島的核電站弓颈,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏删掀。R本人自食惡果不足惜翔冀,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 40,052評(píng)論 3 316
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望披泪。 院中可真熱鬧纤子,春花似錦、人聲如沸付呕。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,815評(píng)論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽徽职。三九已至,卻和暖如春佩厚,著一層夾襖步出監(jiān)牢的瞬間姆钉,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 32,043評(píng)論 1 266
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留潮瓶,地道東北人陶冷。 一個(gè)月前我還...
    沈念sama閱讀 46,503評(píng)論 2 361
  • 正文 我出身青樓,卻偏偏與公主長得像毯辅,于是被迫代替她去往敵國和親埂伦。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,627評(píng)論 2 350

推薦閱讀更多精彩內(nèi)容