分布式緩存
CDN,反向代理緩存弥雹,主要解決靜態(tài)文件,或用戶請(qǐng)求資源的緩存延届,數(shù)據(jù)源一般為靜態(tài)文件或動(dòng)態(tài)生成的文件(有緩存頭標(biāo)識(shí))剪勿。
分布式緩存,主要指緩存用戶經(jīng)常訪問(wèn)數(shù)據(jù)的緩存方庭,數(shù)據(jù)源為數(shù)據(jù)庫(kù)厕吉。一般起到熱點(diǎn)數(shù)據(jù)訪問(wèn)和減輕數(shù)據(jù)庫(kù)壓力的作用。
目前分布式緩存設(shè)計(jì)械念,在大型網(wǎng)站架構(gòu)中是必備的架構(gòu)要素头朱。常用的中間件有Memcache,Redis龄减。
1.1Memcache
Memcache是一個(gè)高性能项钮,分布式內(nèi)存對(duì)象緩存系統(tǒng),通過(guò)在內(nèi)存里維護(hù)一個(gè)統(tǒng)一的巨大的hash表希停,它能夠用來(lái)存儲(chǔ)各種格式的數(shù)據(jù)烁巫,包括圖像、視頻宠能、文件以及數(shù)據(jù)庫(kù)檢索的結(jié)果等亚隙。簡(jiǎn)單的說(shuō)就是將數(shù)據(jù)調(diào)用到內(nèi)存中,然后從內(nèi)存中讀取违崇,從而大大提高讀取速度恃鞋。
Memcache特性:
使用物理內(nèi)存作為緩存區(qū),可獨(dú)立運(yùn)行在服務(wù)器上亦歉。每個(gè)進(jìn)程最大2G恤浪,如果想緩存更多的數(shù)據(jù),可以開(kāi)辟更多的memcache進(jìn)程(不同端口)或者使用分布式memcache進(jìn)行緩存肴楷,將數(shù)據(jù)緩存到不同的物理機(jī)或者虛擬機(jī)上水由。
使用key-value的方式來(lái)存儲(chǔ)數(shù)據(jù),這是一種單索引的結(jié)構(gòu)化數(shù)據(jù)組織形式赛蔫,可使數(shù)據(jù)項(xiàng)查詢時(shí)間復(fù)雜度為O(1)砂客。
協(xié)議簡(jiǎn)單:基于文本行的協(xié)議,直接通過(guò)telnet在memcached服務(wù)器上可進(jìn)行存取數(shù)據(jù)操作呵恢,簡(jiǎn)單鞠值,方便多種緩存參考此協(xié)議;
基于libevent高性能通信:Libevent是一套利用C開(kāi)發(fā)的程序庫(kù)渗钉,它將BSD系統(tǒng)的kqueue,Linux系統(tǒng)的epoll等事件處理功能封裝成一個(gè)接口彤恶,與傳統(tǒng)的select相比钞钙,提高了性能。
內(nèi)置的內(nèi)存管理方式:所有數(shù)據(jù)都保存在內(nèi)存中声离,存取數(shù)據(jù)比硬盤(pán)快芒炼,當(dāng)內(nèi)存滿后,通過(guò)LRU算法自動(dòng)刪除不使用的緩存术徊,但沒(méi)有考慮數(shù)據(jù)的容災(zāi)問(wèn)題本刽,重啟服務(wù),所有數(shù)據(jù)會(huì)丟失赠涮。
分布式:各個(gè)memcached服務(wù)器之間互不通信子寓,各自獨(dú)立存取數(shù)據(jù),不共享任何信息 下載地址笋除。服務(wù)器并不具有分布式功能斜友,分布式部署取決于memcache客戶端。
緩存策略:Memcached的緩存策略是LRU(最近最少使用)到期失效策略株憾。在memcached內(nèi)存儲(chǔ)數(shù)據(jù)項(xiàng)時(shí),可以指定它在緩存的失效時(shí)間晒衩,默認(rèn)為永久嗤瞎。當(dāng)memcached服務(wù)器用完分配的內(nèi)時(shí),失效的數(shù)據(jù)被首先替換听系,然后也是最近未使用的數(shù)據(jù)贝奇。在LRU中,memcached使用的是一種Lazy Expiration策略靠胜,自己不會(huì)監(jiān)控存入的key/vlue對(duì)是否過(guò)期掉瞳,而是在獲取key值時(shí)查看記錄的時(shí)間戳,檢查key/value對(duì)空間是否過(guò)期浪漠,這樣可減輕服務(wù)器的負(fù)載陕习。
1.1.1Memcache工作原理
MemCache的工作流程如下:
先檢查客戶端的請(qǐng)求數(shù)據(jù)是否在memcached中,如有址愿,直接把請(qǐng)求數(shù)據(jù)返回该镣,不再對(duì)數(shù)據(jù)庫(kù)進(jìn)行任何操作;
如果請(qǐng)求的數(shù)據(jù)不在memcached中响谓,就去查數(shù)據(jù)庫(kù)损合,把從數(shù)據(jù)庫(kù)中獲取的數(shù)據(jù)返回給客戶端,同時(shí)把數(shù)據(jù)緩存一份到memcached中(memcached客戶端不負(fù)責(zé)娘纷,需要程序?qū)崿F(xiàn))嫁审;
每次更新數(shù)據(jù)庫(kù)的同時(shí)更新memcached中的數(shù)據(jù),保證一致性赖晶;
當(dāng)分配給memcached內(nèi)存空間用完之后律适,會(huì)使用LRU(Least Recently Used,最近最少使用)策略加上到期失效策略,失效數(shù)據(jù)首先被替換擦耀,然后再替換掉最近未使用的數(shù)據(jù)棉圈。
1.1.2Memcache下載地址集群
memcached 雖然稱為 “ 分布式 ” 緩存服務(wù)器,但服務(wù)器端并沒(méi)有 “ 分布式 ” 功能眷蜓。每個(gè)服務(wù)器都是完全獨(dú)立和隔離的服務(wù)分瘾。 memcached 的分布式,是由客戶端程序?qū)崿F(xiàn)的吁系。
當(dāng)向memcached集群存入/取出key value時(shí)德召,memcached客戶端程序根據(jù)一定的算法計(jì)算存入哪臺(tái)服務(wù)器,然后再把key value值存到此服務(wù)器中汽纤。
存取數(shù)據(jù)分二步走上岗,第一步,選擇服務(wù)器蕴坪,第二步存取數(shù)據(jù)肴掷。
分布式算法(Consistent Hashing下載地址):
選擇服務(wù)器算法有兩種,一種是根據(jù)余數(shù)來(lái)計(jì)算分布背传,另一種是根據(jù)散列算法來(lái)計(jì)算分布呆瞻。
余數(shù)算法:
先求得鍵的整數(shù)散列值,再除以服務(wù)器臺(tái)數(shù)径玖,根據(jù)余數(shù)確定存取服務(wù)器痴脾。
優(yōu)點(diǎn):計(jì)算簡(jiǎn)單,高效梳星;
缺點(diǎn):在memcached服務(wù)器增加或減少時(shí)赞赖,幾乎所有的緩存都會(huì)失效。
散列算法:(一致性Hash)
先算出memcached服務(wù)器的散列值冤灾,并將其分布到0到2的32次方的圓上前域,然后用同樣的方法算出存儲(chǔ)數(shù)據(jù)的鍵的散列值并映射至圓上,最后從數(shù)據(jù)映射到的位置開(kāi)始順時(shí)針查找韵吨,將數(shù)據(jù)保存到查找到的第一個(gè)服務(wù)器上话侄,如果超過(guò)2的32次方,依然找不到服務(wù)器学赛,就將數(shù)據(jù)保存到第一臺(tái)memcached服務(wù)器上年堆。
如果添加了一臺(tái)memcached服務(wù)器,只在圓上增加服務(wù)器的逆時(shí)針?lè)较虻牡谝慌_(tái)服務(wù)器上的鍵會(huì)受到影響盏浇。
一致性Hash算法:解決了余數(shù)算法增加節(jié)點(diǎn)命中大幅額度降低的問(wèn)題变丧,理論上,插入一個(gè)實(shí)體節(jié)點(diǎn)绢掰,平均會(huì)影響到:虛擬節(jié)點(diǎn)數(shù) /2 的節(jié)點(diǎn)數(shù)據(jù)的命中痒蓬。
1.2Redis
Redis 是一個(gè)開(kāi)源(BSD許可)的童擎,基于內(nèi)存的,多數(shù)據(jù)結(jié)構(gòu)存儲(chǔ)系統(tǒng)攻晒」烁矗可以用作數(shù)據(jù)庫(kù)、緩存和消息中間件鲁捏。 支持多種類型的數(shù)據(jù)結(jié)構(gòu)芯砸,如 字符串(strings), 散列(hashes)给梅, 列表(lists)假丧, 集合(sets), 有序集合(sorted sets) 與范圍查詢动羽, bitmaps包帚, hyperloglogs 和 地理空間(geospatial) 索引半徑查詢。
內(nèi)置了 復(fù)制(replication)运吓,LUA腳本(Lua scripting)渴邦, LRU驅(qū)動(dòng)事件(LRU eviction),事務(wù)(transactions) 和不同級(jí)別的 磁盤(pán)持久化(persistence)拘哨, 并通過(guò) Redis哨兵(Sentinel)和自動(dòng)分區(qū)(Cluster)提供高可用性(high availability)谋梭。
1.2.1Redis常用數(shù)據(jù)類型
1、String
常用命令:set,get,decr,incr,mget 宅静。
應(yīng)用場(chǎng)景:String是最常用的一種數(shù)據(jù)類型糟描,與Memcache的key value存儲(chǔ)方式類似嗅辣。
實(shí)現(xiàn)方式:String在redis內(nèi)部存儲(chǔ)默認(rèn)就是一個(gè)字符串务傲,被redisObject所引用蜂挪,當(dāng)遇到incr,decr等操作時(shí)會(huì)轉(zhuǎn)成數(shù)值型進(jìn)行計(jì)算漆诽,此時(shí)redisObject的encoding字段為int稿黄。
2缝裁、Hash
常用命令:hget,hset,hgetall 蒸辆。
應(yīng)用場(chǎng)景:以存儲(chǔ)一個(gè)用戶信息對(duì)象數(shù)據(jù)贾虽,為例:
實(shí)現(xiàn)方式:
Redis Hash對(duì)應(yīng)的Value逃糟,內(nèi)部實(shí)際就是一個(gè)HashMap,實(shí)際這里會(huì)有2種不同實(shí)現(xiàn)蓬豁。
Hash的成員比較少時(shí)Redis為了節(jié)省內(nèi)存會(huì)采用類似一維數(shù) 組的方式來(lái)緊湊存儲(chǔ)绰咽,而不會(huì)采用真正的HashMap結(jié)構(gòu),對(duì)應(yīng)的value redisObject的encoding為zipmap地粪;
當(dāng)成員數(shù)量增大時(shí)會(huì)自動(dòng)轉(zhuǎn)成真正的HashMap,此時(shí)encoding為ht下載地址取募。
3、List
常用命令:lpush,rpush,lpop,rpop,lrange蟆技。
應(yīng)用場(chǎng)景:
Redis list的應(yīng)用場(chǎng)景非常多玩敏,也是Redis最重要的數(shù)據(jù)結(jié)構(gòu)之一斗忌,比如twitter的關(guān)注列表,粉絲列表等都可以用Redis的list結(jié)構(gòu)來(lái)實(shí)現(xiàn)旺聚。
實(shí)現(xiàn)方式:
Redis list的實(shí)現(xiàn)為一個(gè)雙向鏈表织阳,可以支持反向查找和遍歷,方便操作砰粹。不過(guò)帶來(lái)了部分額外的內(nèi)存開(kāi)銷唧躲,Redis內(nèi)部的很多實(shí)現(xiàn),包括發(fā)送緩沖隊(duì)列等也都是用的這個(gè)數(shù)據(jù)結(jié)構(gòu)伸眶。
4惊窖、Set
常用命令:sadd,spop,smembers,sunion。
應(yīng)用場(chǎng)景:
Redis set對(duì)外提供的功能與list類似是一個(gè)列表的功能厘贼,特殊之處在于set是可以自動(dòng)排重的界酒,當(dāng)你需要存儲(chǔ)一個(gè)列表數(shù)據(jù),又不希望出現(xiàn)重復(fù)數(shù)據(jù)時(shí)嘴秸,set 是一個(gè)很好的選擇毁欣,并且set提供了判斷某個(gè)成員是否在一個(gè)set集合內(nèi)的重要接口,這個(gè)也是list所不能提供的岳掐。
實(shí)現(xiàn)方式:
set 的內(nèi)部實(shí)現(xiàn)是一個(gè) value永遠(yuǎn)為null的HashMap凭疮,實(shí)際就是通過(guò)計(jì)算hash的方式來(lái)快速排重的,這也是set能提供判斷一個(gè)成員是否在集合內(nèi)的原因串述。
5执解、Sorted set
常用命令:zadd,zrange,zrem,zcard;
使用場(chǎng)景:
Redis sorted set的使用場(chǎng)景與set類似纲酗,區(qū)別是set不是自動(dòng)有序的衰腌,而sorted set可以通過(guò)用戶額外提供一個(gè)優(yōu)先級(jí)(score)的參數(shù)來(lái)為成員排序,并且是插入有序的觅赊,即自動(dòng)排序右蕊。當(dāng)你需要一個(gè)有序的并且不重復(fù)的集合列表,可以選擇sorted set數(shù)據(jù)結(jié)構(gòu)吮螺,比如twitter 的public timeline可以以發(fā)表時(shí)間作為score來(lái)存儲(chǔ)饶囚,這樣獲取時(shí)就是自動(dòng)按時(shí)間排好序的。
實(shí)現(xiàn)方式:
Redis sorted set的內(nèi)部使用HashMap和跳躍表(SkipList)來(lái)保證數(shù)據(jù)的存儲(chǔ)和有序鸠补,HashMap里放的是成員到score的映射萝风,而跳躍表里存放的 是所有的成員,排序依據(jù)是HashMap里存的score,使用跳躍表的結(jié)構(gòu)可以獲得比較高的查找效率紫岩,并且在實(shí)現(xiàn)上比較簡(jiǎn)單下載地址规惰。
1.2.2Redis集群
(1)通過(guò)keepalived實(shí)現(xiàn)的高可用方案
切換流程:
當(dāng)Master掛了后,VIP漂移到Slave被因;Slave 上keepalived 通知redis 執(zhí)行:slaveof no one ,開(kāi)始提供業(yè)務(wù)
當(dāng)Master起來(lái)后卿拴,VIP 地址不變衫仑,Master的keepalived 通知redis 執(zhí)行slaveof slave IP host ,開(kāi)始作為從同步數(shù)據(jù)
依次類推
針對(duì)上面的技術(shù)我特意整理了一下堕花,有很多技術(shù)不是靠幾句話能講清楚文狱,所以干脆找朋友錄制了一些視頻,很多問(wèn)題其實(shí)答案很簡(jiǎn)單缘挽,但是背后的思考和邏輯不簡(jiǎn)單瞄崇,要做到知其然還要知其所以然。如果想學(xué)習(xí)Java工程化壕曼、高性能及分布式苏研、深入淺出。微服務(wù)腮郊、Spring摹蘑,MyBatis,Netty源碼分析的朋友可以加我的Java進(jìn)階群:680130298轧飞,群里有阿里大牛直播講解技術(shù)衅鹿,以及Java大型互聯(lián)網(wǎng)技術(shù)的視頻免費(fèi)分享給大家。
主從同時(shí)Down機(jī)情況:
1.非計(jì)劃性过咬,不做考慮大渤,一般也不會(huì)存在這種問(wèn)題
2.計(jì)劃性重啟,重啟之前通過(guò)運(yùn)維手段SAVE DUMP 主庫(kù)數(shù)據(jù)掸绞;需要注意順序:
3.關(guān)閉其中一臺(tái)機(jī)器上所有redis泵三,是得master全部切到另外一臺(tái)機(jī)器(多實(shí)例部署,單機(jī)上既有主又有從的情況)衔掸;并關(guān)閉機(jī)器
4.依次dump主上redis服務(wù)
5.關(guān)閉主
6.啟動(dòng)主烫幕,并等待數(shù)據(jù)load完畢
7.啟動(dòng)從
8.刪除DUMP 文件(避免重啟加載慢)
(2)使用Twemproxy 實(shí)現(xiàn)集群方案
由twitter開(kāi)源的c版本proxy,同時(shí)支持memcached和redis具篇,目前最新版本為:0.2.4纬霞,持續(xù)開(kāi)發(fā)中;用它主要減少前端與緩存服務(wù)間網(wǎng)絡(luò)連接數(shù)凌埂。
特點(diǎn):快驱显、輕量級(jí)、減少后端Cache Server連接數(shù)瞳抓、易配置埃疫、支持ketama、modula孩哑、random栓霜、常用hash 分片算法。
這里使用keepalived實(shí)現(xiàn)高可用主備方案横蜒,解決proxy單點(diǎn)問(wèn)題胳蛮;
優(yōu)點(diǎn):
1. 對(duì)于客戶端而言销凑,redis集群是透明的,客戶端簡(jiǎn)單仅炊,遍于動(dòng)態(tài)擴(kuò)容
2. Proxy為單點(diǎn)斗幼、處理一致性hash時(shí),集群節(jié)點(diǎn)可用性檢測(cè)不存在腦裂問(wèn)題
3. 高性能抚垄,CPU密集型蜕窿,而redis節(jié)點(diǎn)集群多CPU資源冗余,可部署在redis節(jié)點(diǎn)集群上呆馁,不需要額外設(shè)備
1.3Memcache與Redis的比較
(1)數(shù)據(jù)結(jié)構(gòu):Memcache只支持key value存儲(chǔ)方式桐经,Redis支持更多的數(shù)據(jù)類型,比如Key value浙滤,hash阴挣,list,set纺腊,zset屯吊;
(2)多線程:Memcache支持多線程,redis支持單線程摹菠;CPU利用方面Memcache優(yōu)于redis盒卸;
(3)持久化:Memcache不支持持久化,Redis支持持久化次氨;
(4)內(nèi)存利用率:memcache高蔽介,redis低(采用壓縮的情況下比memcache高);
(5)過(guò)期策略:memcache過(guò)期后煮寡,不刪除緩存虹蓄,會(huì)導(dǎo)致下次取數(shù)據(jù)數(shù)據(jù)的問(wèn)題,Redis有專門(mén)線程幸撕,清除緩存數(shù)據(jù)薇组;
本地緩存
本地緩存是指應(yīng)用內(nèi)部的緩存,標(biāo)準(zhǔn)的分布式系統(tǒng)坐儿,一般有多級(jí)緩存構(gòu)成律胀。本地緩存是離應(yīng)用最近的緩存,一般可以將數(shù)據(jù)緩存到硬盤(pán)或內(nèi)存貌矿。
1.1硬盤(pán)緩存
將數(shù)據(jù)緩存到硬盤(pán)到炭菌,讀取時(shí)從硬盤(pán)讀取。原理是直接讀取本機(jī)文件逛漫,減少了網(wǎng)絡(luò)傳輸消耗黑低,比通過(guò)網(wǎng)絡(luò)讀取數(shù)據(jù)庫(kù)速度更快∽谜保可以應(yīng)用在對(duì)速度要求不是很高克握,但需要大量緩存存儲(chǔ)的場(chǎng)景蕾管。
1.2 內(nèi)存緩存
直接將數(shù)據(jù)存儲(chǔ)到本機(jī)內(nèi)存中,通過(guò)程序直接維護(hù)緩存對(duì)象菩暗,是訪問(wèn)速度最快的方式娇掏。
緩存架構(gòu)示例
職責(zé)劃分:
CDN:存放HTML,CSS,JS等靜態(tài)資源;
反向代理:動(dòng)靜分離勋眯,只緩存用戶請(qǐng)求的靜態(tài)資源婴梧;
分布式緩存:緩存數(shù)據(jù)庫(kù)中的熱點(diǎn)數(shù)據(jù);
本地緩存:緩存應(yīng)用字典等常用數(shù)據(jù)客蹋;
請(qǐng)求過(guò)程:
(1) 瀏覽器向客戶端發(fā)起請(qǐng)求塞蹭,如果CDN有緩存則直接返回;
(2) 如果CDN無(wú)緩存讶坯,則訪問(wèn)反向代理服務(wù)器番电;
(3) 如果反向代理服務(wù)器有緩存則直接返回;
(4) 如果反向代理服務(wù)器無(wú)緩存或動(dòng)態(tài)請(qǐng)求辆琅,則訪問(wèn)應(yīng)用服務(wù)器漱办;
(5) 應(yīng)用服務(wù)器訪問(wèn)本地緩存;如果有緩存婉烟,則返回代理服務(wù)器娩井,并緩存數(shù)據(jù);(動(dòng)態(tài)請(qǐng)求不緩存)
(6) 如果本地緩存無(wú)數(shù)據(jù)似袁,則讀取分布式緩存洞辣;并返回應(yīng)用服務(wù)器;應(yīng)用服務(wù)器將數(shù)據(jù)緩存到本地緩存(部分)昙衅;
(7) 如果分布式緩存無(wú)數(shù)據(jù)扬霜,則應(yīng)用程序讀取數(shù)據(jù)庫(kù)數(shù)據(jù),并放入分布式緩存