Queue

實現(xiàn)了異步的生產(chǎn)者着绷、調(diào)用者模式蛔钙，和python中的threads的queue一樣。

Queue.get會直到隊列中有值才會返回荠医，如果隊列設置了最大值夸楣，那么如果隊列滿了，則Queue.put會阻塞直到有了空位。Queue中保存的是未完成的任務豫喧，初始值是0石洗，put增加，task_done減少紧显。

爬蟲例子：

起始讲衫，隊列中值有一個base url，worker獲取到一個頁面然后解析孵班，再放一個新的進來涉兽，在調(diào)用task_done來減少數(shù)量，最終所有的頁面都爬取完了篙程，隊列中數(shù)量為0枷畏，主循環(huán)中獲得通知。

# coding: utf-8
import time
from datetime import timedelta

try:
    from HTMLParser import HTMLParser
    from urlparse import urljoin, urldefrag
except ImportError:
    from html.parser import HTMLParser
    from urllib.parse import urljoin, urldefrag

from tornado import httpclient, gen, ioloop, queues

base_url = 'http://www.tornadoweb.org/en/stable/'
concurrency = 10


@gen.coroutine
def get_links_from_url(url):
    """
    從隊列中取出一個url 然后解析

    :param url:
    :return:
    """

    try:
        response = yield httpclient.AsyncHTTPClient().fetch(url)
        print('fetched %s' % url)

        html = response.body if isinstance(response.body, str) else response.body.decode()
        urls = [urljoin(url, remove_fragment(new_url))
                for new_url in get_links(html)]
    except Exception as e:
        print('Exception: %s %s' % (e, url))
        raise gen.Return([])

    raise gen.Return(urls)


def remove_fragment(url):
    """
    清除url中的#

    :param url:
    :return:
    """
    pure_url, frag = urldefrag(url)
    return pure_url


def get_links(html):
    """
    獲取html頁面中的鏈接

    :param html:
    :return:
    """
    class URLSeeker(HTMLParser):
        def __init__(self):
            HTMLParser.__init__(self)
            self.urls = []

        def handle_starttag(self, tag, attrs):
            href = dict(attrs).get('href')
            if href and tag == 'a':
                self.urls.append(href)

    url_seeker = URLSeeker()
    url_seeker.feed(html)
    return url_seeker.urls


@gen.coroutine
def main():

    q = queues.Queue()
    start = time.time()
    fetching, fetched = set(), set()

    @gen.coroutine
    def fetch_url():
        current_url = yield q.get()  # 隊列中取出一個url
        try:
            if current_url in fetching:
                return

            print('fetching %s' % current_url)
            fetching.add(current_url)  # 加入到正在爬取的集合中
            urls = yield get_links_from_url(current_url)  # 啟動
            fetched.add(current_url)  # 加入到已經(jīng)爬取完畢的集合中

            for new_url in urls:
                # 需要以base url開頭的 不然有外鏈就爬的沒完了
                if new_url.startswith(base_url):
                    yield q.put(new_url)  # 放入該url到隊列中

        finally:
            q.task_done()  # 刪除這個url

    @gen.coroutine
    def worker():
        while True:
            yield fetch_url()

    q.put(base_url)  # 放入base url

    for _ in range(concurrency):
        # 啟動從currency個數(shù)的worker
        worker()

    yield q.join(timeout=timedelta(seconds=300))  # 直到隊列空了才返回
    assert fetching == fetched
    print('Done in %d seconds, fetched %s URLs.' % (
        time.time() - start, len(fetched)))


if __name__ == '__main__':

    import logging
    logging.basicConfig()
    io_loop = ioloop.IOLoop.current()
    io_loop.run_sync(main)

最后編輯于：2017.12.06 04:45:44

?著作權歸作者所有,轉載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末虱饿，一起剝皮案震驚了整個濱河市拥诡，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌氮发，老刑警劉巖渴肉，帶你破解...
沈念sama閱讀 218,546評論 6贊 507
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場離奇詭異爽冕，居然都是意外死亡仇祭，警方通過查閱死者的電腦和手機，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 93,224評論 3贊 395
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門颈畸，熙熙樓的掌柜王于貴愁眉苦臉地迎上來乌奇，“玉大人，你說我怎么就攤上這事眯娱』” “怎么了？”我有些...
開封第一講書人閱讀 164,911評論 0贊 354
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵困乒，是天一觀的道長寂屏。經(jīng)常有香客問我，道長娜搂，這世上最難降的妖魔是什么迁霎？我笑而不...
開封第一講書人閱讀 58,737評論 1贊 294
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮百宇，結果婚禮上考廉，老公的妹妹穿的比我還像新娘。我一直安慰自己携御，他們只是感情好昌粤，可當我...
茶點故事閱讀 67,753評論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布既绕。她就那樣靜靜地躺著，像睡著了一般涮坐。火紅的嫁衣襯著肌膚如雪凄贩。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 51,598評論 1贊 305
城市分裂傳說
那天袱讹，我揣著相機與錄音疲扎，去河邊找鬼。笑死捷雕，一個胖子當著我的面吹牛椒丧，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播救巷，決...
沈念sama閱讀 40,338評論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼壶熏，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了浦译？” 一聲冷哼從身側響起棒假，我...
開封第一講書人閱讀 39,249評論 0贊 276
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎管怠，沒想到半個月后淆衷，有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體缸榄，經(jīng)...
沈念sama閱讀 45,696評論 1贊 314
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡渤弛，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 37,888評論 3贊 336
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時候發(fā)現(xiàn)自己被綠了甚带。大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片她肯。...
茶點故事閱讀 40,013評論 1贊 348
活死人
序言：一個原本活蹦亂跳的男人離奇死亡，死狀恐怖鹰贵，靈堂內(nèi)的尸體忽然破棺而出晴氨，到底是詐尸還是另有隱情，我是刑警寧澤碉输，帶...
沈念sama閱讀 35,731評論 5贊 346
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布籽前，位于F島的核電站，受9級特大地震影響敷钾，放射性物質(zhì)發(fā)生泄漏枝哄。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點故事閱讀 41,348評論 3贊 330
男人毒藥：我在死后第九天來索命
文/蒙蒙一阻荒、第九天我趴在偏房一處隱蔽的房頂上張望挠锥。院中可真熱鬧，春花似錦侨赡、人聲如沸蓖租。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,929評論 0贊 22
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽蓖宦。三九已至齐婴，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間球昨，已是汗流浹背尔店。一陣腳步聲響...
開封第一講書人閱讀 33,048評論 1贊 270
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留主慰，地道東北人嚣州。一個月前我還...
沈念sama閱讀 48,203評論 3贊 370
代替公主和親
正文我出身青樓，卻偏偏與公主長得像共螺，于是被迫代替她去往敵國和親该肴。傳聞我的和親對象是個殘疾皇子，可洞房花燭夜當晚...
茶點故事閱讀 44,960評論 2贊 355

Queue

爬蟲例子：

推薦閱讀更多精彩內(nèi)容