python 網(wǎng)站鏈接的爬取

獲取

#!/usr/bin/env python
# -*- coding:utf-8 -*-

from gevent import monkey

monkey.patch_all()
import gevent
import Queue
import lxml.html
import hashlib
import requests
import logging
import traceback
import time
import re
import datetime

from libs.Conn_scan import Mongo


class spider_setting():
    def __init__(self, url, deep, thread_num=10, filter_str=None, filter_re=None,
                     log_name='log/spider_' + datetime.datetime.now().strftime("%Y%m%d%H%M%S") + '.log', referer=""):
        logging.basicConfig(format='%(levelname)s:(%(asctime)s) %(message)s', filename=log_name, level=logging.WARNING)
        self.logger = logging.getLogger(__name__)
        self.logger.warn("\n\n\n\n===========start===========")

        self.url = url
        self.target = url
        self.deep = deep
        self.filter_str = filter_str
        self.filter_re = filter_re
        self.thread_num = thread_num

        self.url_queue = Queue.Queue()
        self.url_queue.put((url, 1, referer))
        self.hash_set = set()
        self.hash_set.add(hashlib.md5(url).hexdigest())
        

referer_list = []
url_list = []
dict1 = {}
class spider():
    def __init__(self, spider_setting):
        
        self.url_queue = spider_setting.url_queue
        self.hash_set = spider_setting.hash_set
        self.logger = spider_setting.logger
        self.thread_num = spider_setting.thread_num

        self.deep = spider_setting.deep
        self.filter_str = spider_setting.filter_str
        self.filter_re = spider_setting.filter_re
        self.target_url = spider_setting.target

        self.gevent_list = []
 

    def run(self):
        while True:
            try:
                url_pair = self.url_queue.get(timeout=5)
                url = url_pair[0]
                cur_deep = url_pair[1]
                referer = url_pair[2]
                self.logger.warn("Get From Queue" + str(url_pair))
                

            except Queue.Empty:
                self.logger.warn("Queue_len:" + str(self.url_queue.qsize()) + "\tspider end!")
                break

            try:
                start_time = time.time()
                r = requests.get(url, headers=self.set_headers(referer=referer), timeout=5)
                end_time = time.time()
                self.logger.warn(
                                    "Queue_len:" + str(self.url_queue.qsize()) + "\t" + str(
                                            len(self.hash_set)) + "\t" + str(end_time - start_time) + "\t" + url + "\tReferer: " + referer)
                self.save_resource(url, r, cur_deep, referer)
                
                html = r.text

                urls = self.filter_links(self.parser_html(url, html))
                if cur_deep < self.deep:
                    for new_url in urls:
                        if not self.is_repeat(new_url):
                            self.url_queue.put((new_url, cur_deep + 1, url))
                            
            except:
                self.logger.error(traceback.format_exc())
            self.url_queue.task_done()

    def parser_html(self, url, html):
        doc = lxml.html.document_fromstring(html)
        doc.make_links_absolute(url)
        return [link[2] for link in doc.iterlinks()]

    def filter_links(self, links):
        # url_parser_re = r"^(\w*):\/\/(?:([^:]*)?(?::(.*))?@)?([0-9.\-A-Za-z]+)(?::(\d+))?(?:\/([^?#]*))?(?:\?([^#]*))?(?:#(.*))?$"
        # r = re.compile(url_parser_re)
        blacklist = ['mp4', 'JPG','jpg', 'jpeg', 'mp3', 'apk','flv','swf', 'gif', 'png', 'css','exe','js']
        results = []
        for link in links:
            if (link.split(".")[-1] not in blacklist):
                # url = re.match(r, link)
                results.append(link)
        return results

    def is_repeat(self, link):
        md5sum = hashlib.md5(link).hexdigest()
        if md5sum in self.hash_set:
            return True
        else:
            self.hash_set.add(md5sum)
            return False

    def save_resource(self, url, req, cur_deep, referer):
        if (self.filter_str is not None) and (self.filter_str not in url):
            return
        if (self.filter_re is not None) and (not re.search(self.filter_re, url)):
            return
        print url + '------URL'
        #url_list = url_list.append(url)
        #referer_list = referer_list.append(referer)
        
        print referer + '-------------referer'
        if len(referer) != 0:
            try:
                #referer_list = referer_list.append(referer)
                print referer 
                Mongo.coll['1'].update({"URL":self.target_url},
                                       {"$push": {'referer' : str(url) }},
                                       upsert = True)            
            except Exception,e:
                print str(e)
                pass
        
    def set_headers(self, referer=""):
        return {
                    "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10.11; rv:47.0) Gecko/20100101 Firefox/47.0",
                        "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8",
                        "Accept-Language": "zh-CN,zh;q=0.8,en-US;q=0.5,en;q=0.3",
                        "Connection": "keep-alive",
                        "Referer": referer
                }

    def start(self):
        for i in range(self.thread_num):
            self.gevent_list.append(gevent.spawn(self.run))

    def join(self):
        gevent.joinall(self.gevent_list)

        


#----------------------------------------------------------------------
def Start(url):
    """"""
    try:
        s = spider_setting(url, 3)
        a = spider(s)
        a.start()
        a.join() 
    except Exception,e:
        print str(e)
        pass
    
target_url = 'http://www.reibang.com/'
Start(target_url)

#Mongo.coll['path'].update({"URL":target_url},
                       #{referer_list: {str(num):i}},
                       #upsert = True)

最后編輯于：2018.01.18 09:29:53

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末呼奢，一起剝皮案震驚了整個(gè)濱河市劫拗，隨后出現(xiàn)的幾起案子篡悟，更是在濱河造成了極大的恐慌淘衙，老刑警劉巖啥容，帶你破解...
沈念sama閱讀 212,454評(píng)論 6贊 493
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場離奇詭異沛婴，居然都是意外死亡悦污，警方通過查閱死者的電腦和手機(jī)，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 90,553評(píng)論 3贊 385
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門退子，熙熙樓的掌柜王于貴愁眉苦臉地迎上來岖妄，“玉大人，你說我怎么就攤上這事寂祥〖雠埃” “怎么了？”我有些...
開封第一講書人閱讀 157,921評(píng)論 0贊 348
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵丸凭，是天一觀的道長福扬。經(jīng)常有香客問我，道長惜犀，這世上最難降的妖魔是什么铛碑？我笑而不...
開封第一講書人閱讀 56,648評(píng)論 1贊 284
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮虽界，結(jié)果婚禮上汽烦，老公的妹妹穿的比我還像新娘。我一直安慰自己莉御，他們只是感情好撇吞，可當(dāng)我...
茶點(diǎn)故事閱讀 65,770評(píng)論 6贊 386
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著礁叔，像睡著了一般牍颈。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上琅关，一...
開封第一講書人閱讀 49,950評(píng)論 1贊 291
城市分裂傳說
那天煮岁，我揣著相機(jī)與錄音，去河邊找鬼。笑死画机，一個(gè)胖子當(dāng)著我的面吹牛冶伞，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播色罚，決...
沈念sama閱讀 39,090評(píng)論 3贊 410
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼碰缔，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了戳护？” 一聲冷哼從身側(cè)響起金抡，我...
開封第一講書人閱讀 37,817評(píng)論 0贊 268
萬榮殺人案實(shí)錄
序言：老撾萬榮一對(duì)情侶失蹤，失蹤者是張志新（化名）和其女友劉穎腌且，沒想到半個(gè)月后梗肝，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 44,275評(píng)論 1贊 303
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡铺董，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 36,592評(píng)論 2贊 327
?白月光啟示錄
正文我和宋清朗相戀三年巫击，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片精续。...
茶點(diǎn)故事閱讀 38,724評(píng)論 1贊 341
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡坝锰，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出重付，到底是詐尸還是另有隱情顷级，我是刑警寧澤，帶...
沈念sama閱讀 34,409評(píng)論 4贊 333
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布确垫，位于F島的核電站弓颈，受9級(jí)特大地震影響，放射性物質(zhì)發(fā)生泄漏删掀。R本人自食惡果不足惜翔冀，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 40,052評(píng)論 3贊 316
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望披泪。院中可真熱鬧纤子，春花似錦、人聲如沸付呕。這莊子的主人今日做“春日...
開封第一講書人閱讀 30,815評(píng)論 0贊 21
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽徽职。三九已至，卻和暖如春佩厚，著一層夾襖步出監(jiān)牢的瞬間姆钉，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 32,043評(píng)論 1贊 266
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留潮瓶，地道東北人陶冷。一個(gè)月前我還...
沈念sama閱讀 46,503評(píng)論 2贊 361
代替公主和親
正文我出身青樓，卻偏偏與公主長得像毯辅，于是被迫代替她去往敵國和親埂伦。傳聞我的和親對(duì)象是個(gè)殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 43,627評(píng)論 2贊 350

python 網(wǎng)站鏈接的爬取

獲取

推薦閱讀更多精彩內(nèi)容