Queue

實現(xiàn)了異步的生產(chǎn)者着绷、調(diào)用者模式蛔钙,和python中的threads的queue一樣。

Queue.get會直到隊列中有值才會返回荠医,如果隊列設置了最大值夸楣,那么如果隊列滿了,則Queue.put會阻塞直到有了空位。Queue中保存的是未完成的任務豫喧,初始值是0石洗,put增加,task_done減少紧显。

爬蟲例子:

起始讲衫,隊列中值有一個base url,worker獲取到一個頁面然后解析孵班,再放一個新的進來涉兽,在調(diào)用task_done來減少數(shù)量,最終所有的頁面都爬取完了篙程,隊列中數(shù)量為0枷畏,主循環(huán)中獲得通知。

# coding: utf-8
import time
from datetime import timedelta

try:
    from HTMLParser import HTMLParser
    from urlparse import urljoin, urldefrag
except ImportError:
    from html.parser import HTMLParser
    from urllib.parse import urljoin, urldefrag

from tornado import httpclient, gen, ioloop, queues

base_url = 'http://www.tornadoweb.org/en/stable/'
concurrency = 10


@gen.coroutine
def get_links_from_url(url):
    """
    從隊列中取出一個url 然后解析

    :param url:
    :return:
    """

    try:
        response = yield httpclient.AsyncHTTPClient().fetch(url)
        print('fetched %s' % url)

        html = response.body if isinstance(response.body, str) else response.body.decode()
        urls = [urljoin(url, remove_fragment(new_url))
                for new_url in get_links(html)]
    except Exception as e:
        print('Exception: %s %s' % (e, url))
        raise gen.Return([])

    raise gen.Return(urls)


def remove_fragment(url):
    """
    清除url中的#

    :param url:
    :return:
    """
    pure_url, frag = urldefrag(url)
    return pure_url


def get_links(html):
    """
    獲取html頁面中的鏈接

    :param html:
    :return:
    """
    class URLSeeker(HTMLParser):
        def __init__(self):
            HTMLParser.__init__(self)
            self.urls = []

        def handle_starttag(self, tag, attrs):
            href = dict(attrs).get('href')
            if href and tag == 'a':
                self.urls.append(href)

    url_seeker = URLSeeker()
    url_seeker.feed(html)
    return url_seeker.urls


@gen.coroutine
def main():

    q = queues.Queue()
    start = time.time()
    fetching, fetched = set(), set()

    @gen.coroutine
    def fetch_url():
        current_url = yield q.get()  # 隊列中取出一個url
        try:
            if current_url in fetching:
                return

            print('fetching %s' % current_url)
            fetching.add(current_url)  # 加入到正在爬取的集合中
            urls = yield get_links_from_url(current_url)  # 啟動
            fetched.add(current_url)  # 加入到已經(jīng)爬取完畢的集合中

            for new_url in urls:
                # 需要以base url開頭的 不然有外鏈就爬的沒完了
                if new_url.startswith(base_url):
                    yield q.put(new_url)  # 放入該url到隊列中

        finally:
            q.task_done()  # 刪除這個url

    @gen.coroutine
    def worker():
        while True:
            yield fetch_url()

    q.put(base_url)  # 放入base url

    for _ in range(concurrency):
        # 啟動從currency個數(shù)的worker
        worker()

    yield q.join(timeout=timedelta(seconds=300))  # 直到隊列空了才返回
    assert fetching == fetched
    print('Done in %d seconds, fetched %s URLs.' % (
        time.time() - start, len(fetched)))


if __name__ == '__main__':

    import logging
    logging.basicConfig()
    io_loop = ioloop.IOLoop.current()
    io_loop.run_sync(main)
最后編輯于
?著作權歸作者所有,轉載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末虱饿,一起剝皮案震驚了整個濱河市拥诡,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌氮发,老刑警劉巖渴肉,帶你破解...
    沈念sama閱讀 218,546評論 6 507
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異爽冕,居然都是意外死亡仇祭,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,224評論 3 395
  • 文/潘曉璐 我一進店門颈畸,熙熙樓的掌柜王于貴愁眉苦臉地迎上來乌奇,“玉大人,你說我怎么就攤上這事眯娱』” “怎么了?”我有些...
    開封第一講書人閱讀 164,911評論 0 354
  • 文/不壞的土叔 我叫張陵困乒,是天一觀的道長寂屏。 經(jīng)常有香客問我,道長娜搂,這世上最難降的妖魔是什么迁霎? 我笑而不...
    開封第一講書人閱讀 58,737評論 1 294
  • 正文 為了忘掉前任,我火速辦了婚禮百宇,結果婚禮上考廉,老公的妹妹穿的比我還像新娘。我一直安慰自己携御,他們只是感情好昌粤,可當我...
    茶點故事閱讀 67,753評論 6 392
  • 文/花漫 我一把揭開白布既绕。 她就那樣靜靜地躺著,像睡著了一般涮坐。 火紅的嫁衣襯著肌膚如雪凄贩。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,598評論 1 305
  • 那天袱讹,我揣著相機與錄音疲扎,去河邊找鬼。 笑死捷雕,一個胖子當著我的面吹牛椒丧,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播救巷,決...
    沈念sama閱讀 40,338評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼壶熏,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了浦译?” 一聲冷哼從身側響起棒假,我...
    開封第一講書人閱讀 39,249評論 0 276
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎管怠,沒想到半個月后淆衷,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體缸榄,經(jīng)...
    沈念sama閱讀 45,696評論 1 314
  • 正文 獨居荒郊野嶺守林人離奇死亡渤弛,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,888評論 3 336
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了甚带。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片她肯。...
    茶點故事閱讀 40,013評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖鹰贵,靈堂內(nèi)的尸體忽然破棺而出晴氨,到底是詐尸還是另有隱情,我是刑警寧澤碉输,帶...
    沈念sama閱讀 35,731評論 5 346
  • 正文 年R本政府宣布籽前,位于F島的核電站,受9級特大地震影響敷钾,放射性物質(zhì)發(fā)生泄漏枝哄。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 41,348評論 3 330
  • 文/蒙蒙 一阻荒、第九天 我趴在偏房一處隱蔽的房頂上張望挠锥。 院中可真熱鬧,春花似錦侨赡、人聲如沸蓖租。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,929評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽蓖宦。三九已至齐婴,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間球昨,已是汗流浹背尔店。 一陣腳步聲響...
    開封第一講書人閱讀 33,048評論 1 270
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留主慰,地道東北人嚣州。 一個月前我還...
    沈念sama閱讀 48,203評論 3 370
  • 正文 我出身青樓,卻偏偏與公主長得像共螺,于是被迫代替她去往敵國和親该肴。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 44,960評論 2 355

推薦閱讀更多精彩內(nèi)容

  • 1 隊列簡介 The Queue module has been renamed to queue in Pyth...
    rebirth_2017閱讀 238評論 0 0
  • Spring Cloud為開發(fā)人員提供了快速構建分布式系統(tǒng)中一些常見模式的工具(例如配置管理藐不,服務發(fā)現(xiàn)匀哄,斷路器,智...
    卡卡羅2017閱讀 134,657評論 18 139
  • Queue接口與List雏蛮、Set同一級別涎嚼,都是繼承了Collection接口。LinkedList實現(xiàn)了Queue...
    天空下天的月亮閱讀 876評論 0 2
  • Queue類即是一個隊列的同步實現(xiàn)挑秉。 隊列長度可為無限或者有限法梯。可通過Queue的構造函數(shù)的可選參數(shù)maxsize...
    zksmile閱讀 513評論 0 0
  • 謫仙本自云漢來犀概,不逐波流不入俗立哑; 十年同城陌路人,三年同路相視熟姻灶; 相問一句煉字久铛绰,人海喧鬧難尋顧; 云開水破再難...
    謫仙之人閱讀 254評論 1 1