初步認(rèn)識(shí)信息隔離
信息隔離的意義何在
. 初步認(rèn)識(shí)信息隔離
什么是信息隔離匹中?
比如說夏漱,咱有兩個(gè)線程,線程A里的變量职员,和線程B里的變量值不能共享麻蹋。這就是信息隔離。
你可能要說焊切,那變量名取不一樣不就好啦扮授?
是的芳室,如果所有的線程都不是由一個(gè)class實(shí)例化出來的同一個(gè)對(duì)象,確實(shí)是可以刹勃。這個(gè)問題我們暫且掛著堪侯,后面我再說明。
那么荔仁,如何實(shí)現(xiàn)信息隔離呢伍宦?
在Python中,其提供了threading.local這個(gè)類乏梁,可以很方便的控制變量的隔離次洼,即使是同一個(gè)變量,在不同的線程中遇骑,其值也是不能共享的卖毁。
用代碼來看下
from threading import local, Thread, currentThread
# 定義一個(gè)local實(shí)例
local_data = local()
# 在主線中,存入name這個(gè)變量
local_data.name = 'local_data'
class MyThread(Thread):
? ? def run(self):
? ? ? ? print("賦值前-子線程:", currentThread(),local_data.__dict__)
? ? ? ? # 在子線程中存入name這個(gè)變量
? ? ? ? local_data.name = self.getName()
? ? ? ? print("賦值后-子線程:",currentThread(), local_data.__dict__)
if __name__ == '__main__':
? ? print("開始前-主線程:",local_data.__dict__)
? ? t1 = MyThread()
? ? t1.start()
? ? t1.join()
? ? t2 = MyThread()
? ? t2.start()
? ? t2.join()
? ? print("結(jié)束后-主線程:",local_data.__dict__)
來看看輸出結(jié)果
開始前-主線程: {'name': 'local_data'}
賦值前-子線程: <MyThread(Thread-1, started 4832)> {}
賦值后-子線程: <MyThread(Thread-1, started 4832)> {'name': 'Thread-1'}
賦值前-子線程: <MyThread(Thread-2, started 5616)> {}
賦值后-子線程: <MyThread(Thread-2, started 5616)> {'name': 'Thread-2'}
結(jié)束后-主線程: {'name': 'local_data'}
從輸出來看落萎,我們可以知道亥啦,local實(shí)際是一個(gè)字典型的對(duì)象,其內(nèi)部可以以key-value的形式存入你要做信息隔離的變量练链。local實(shí)例可以是全局唯一的翔脱,只有一個(gè)。因?yàn)槟阍诮olocal存入或訪問變量時(shí)媒鼓,它會(huì)根據(jù)當(dāng)前的線程的不同從不同的存儲(chǔ)空間存入或獲取届吁。
基于此,我們可以得出以下三點(diǎn)結(jié)論:
主線程中的變量隶糕,不會(huì)因?yàn)槠涫侨肿兞看刹蛔泳€程獲取到站玄;
主線程也不能獲取到子線程中的變量枚驻;
子線程與子線程之間的變量也不能互相訪問。
所以如果想在當(dāng)前線程保存一個(gè)全局值株旷,并且各自線程(包括主線程)互不干擾再登,使用local類吧。
. 信息隔離的意義何在
細(xì)心的你晾剖,一定已經(jīng)發(fā)現(xiàn)了锉矢,上面那個(gè)例子,即使我們不用threading.local來做信息隔離齿尽,兩個(gè)線程self.getName()本身就是隔離的沽损,沒有任何關(guān)系的。因?yàn)檫@兩個(gè)線程是由一個(gè)class實(shí)例出的兩個(gè)不同的實(shí)例對(duì)象循头。自然是可以不用做隔離绵估,因?yàn)槠浔旧砭褪歉綦x的炎疆。
但是,現(xiàn)實(shí)開發(fā)中国裳。不可排除有多個(gè)線程形入,是由一個(gè)class實(shí)例出的同一個(gè)實(shí)例對(duì)象而實(shí)現(xiàn)的。
譬如缝左,現(xiàn)在新手特別喜歡的爬蟲項(xiàng)目亿遂。通常都是先給爬蟲一個(gè)主頁,然后獲取主頁下的所有鏈接渺杉,對(duì)這個(gè)鏈接再進(jìn)行遍歷蛇数,一直往下,直到把所有的鏈接都爬完是越,獲取到我們所需的內(nèi)容苞慢。
由于單線程的爬取效率實(shí)在是太低了,我們考慮使用多線程來工作英妓。先使用socket和www.sina.con.cn建立一個(gè)TCP連接挽放。然后在這個(gè)連接的基礎(chǔ)上,對(duì)主頁上的每個(gè)鏈接(我們這里只舉news.sina.com.cn和blog.sina.com.cn這兩個(gè)子鏈接做例子)創(chuàng)建一個(gè)線程蔓纠,這樣效率就高多了辑畦。
友情提醒:
以下代碼,若要理解腿倚,可能需要你了解下socket的網(wǎng)絡(luò)編程相關(guān)內(nèi)容纯出。我在前幾天的文章中有發(fā)布一篇相關(guān)的文章,沒有基礎(chǔ)的同學(xué)可以先去看看那篇文章敷燎。
import threading
from functools import partial
from socket import socket, AF_INET, SOCK_STREAM
class LazyConnection:
? ? def __init__(self, address, family=AF_INET, type=SOCK_STREAM):
? ? ? ? self.address = address
? ? ? ? self.family = AF_INET
? ? ? ? self.type = SOCK_STREAM
? ? ? ? self.local = threading.local()
? ? def __enter__(self):
? ? ? ? if hasattr(self.local, 'sock'):
? ? ? ? ? ? raise RuntimeError('Already connected')
? ? ? ? # 把socket連接存入local中
? ? ? ? self.local.sock = socket(self.family, self.type)
? ? ? ? self.local.sock.connect(self.address)
? ? ? ? return self.local.sock
? ? def __exit__(self, exc_ty, exc_val, tb):
? ? ? ? self.local.sock.close()
? ? ? ? del self.local.sock
def spider(conn, website):
? ? with conn as s:
? ? ? ? header = 'GET / HTTP/1.1\r\nHost: {}\r\nConnection: close\r\n\r\n'.format(website)
? ? ? ? s.send(header.encode("utf-8"))
? ? ? ? resp = b''.join(iter(partial(s.recv, 100000), b''))
? ? print('Got {} bytes'.format(len(resp)))
if __name__ == '__main__':
? ? # 建立一個(gè)TCP連接
? ? conn = LazyConnection(('www.sina.com.cn', 80))
? ? # 爬取兩個(gè)頁面
? ? t1 = threading.Thread(target=spider, args=(conn,"news.sina.com.cn"))
? ? t2 = threading.Thread(target=spider, args=(conn,"blog.sina.com.cn"))
? ? t1.start()
? ? t2.start()
? ? t1.join()
? ? t2.join()
輸出結(jié)果
Got 765 bytes
Got 513469 bytes
如果是在這種場景下暂筝,要做到線程之間的狀態(tài)信息的隔離,就肯定要借助threading.local硬贯,所以threading.local的存在是有存在的意義的焕襟。其他還有很多場景是必須借助threading.local才能實(shí)現(xiàn)的,而這些就要靠你們?cè)谡嬲臉I(yè)務(wù)開發(fā)中去發(fā)現(xiàn)咯饭豹。