概述
本文是學(xué)習(xí)大型分布式網(wǎng)站架構(gòu)的技術(shù)總結(jié)糟描。對(duì)架構(gòu)一個(gè)高性能荡短、高可用嚷硫、可伸縮及可擴(kuò)展的分布式網(wǎng)站進(jìn)行了概要性描述类垫,并給出一個(gè)架構(gòu)參考培廓。文中一部分為讀書筆記汉柒,一部分是個(gè)人經(jīng)驗(yàn)總結(jié)误褪,對(duì)大型分布式網(wǎng)站架構(gòu)有較好的參考價(jià)值。
爛皮豬碾褂,十余年工作經(jīng)驗(yàn)兽间,曾在Google等外企工作過幾年,精通Java正塌、分布式架構(gòu)嘀略,微服務(wù)架構(gòu)以及數(shù)據(jù)庫(kù),最近正在研究大數(shù)據(jù)以及區(qū)塊鏈乓诽,希望能夠突破到更高的境界
一帜羊、大型分布式網(wǎng)站架構(gòu)技術(shù)
用戶多鸠天,分布廣泛
大流量讼育,高并發(fā)
海量數(shù)據(jù),服務(wù)高可用
安全環(huán)境惡劣稠集,易受網(wǎng)絡(luò)攻擊
功能多奶段,變更快,頻繁發(fā)布
從小到大剥纷,漸進(jìn)發(fā)展
以用戶為中心
免費(fèi)服務(wù)痹籍,付費(fèi)體驗(yàn)
高性能:提供快速的訪問體驗(yàn)筷畦。
高可用:網(wǎng)站服務(wù)一直可以正常訪問词裤。
可伸縮:通過硬件增加/減少刺洒,提高/降低處理能力鳖宾。
安全性:提供網(wǎng)站安全訪問和數(shù)據(jù)加密、安全存儲(chǔ)等策略逆航。
擴(kuò)展性:方便地通過新增/移除方式鼎文,增加/減少新的功能/模塊。
敏捷性:隨需應(yīng)變因俐,快速響應(yīng)拇惋;
分層:一般可分為應(yīng)用層、服務(wù)層撑帖、數(shù)據(jù)層蓉坎、管理層與分析層;
分割:一般按照業(yè)務(wù)/模塊/功能特點(diǎn)進(jìn)行劃分胡嘿,比如應(yīng)用層分為首頁(yè)蛉艾、用戶中心。
分布式:將應(yīng)用分開部署(比如多臺(tái)物理機(jī))衷敌,通過遠(yuǎn)程調(diào)用協(xié)同工作勿侯。
集群:一個(gè)應(yīng)用/模塊/功能部署多份(如:多臺(tái)物理機(jī)),通過負(fù)載均衡共同提供對(duì)外訪問缴罗。
緩存:將數(shù)據(jù)放在距離應(yīng)用或用戶最近的位置助琐,加快訪問速度。
異步:將同步的操作異步化面氓”ィ客戶端發(fā)出請(qǐng)求,不等待服務(wù)端響應(yīng)舌界,等服務(wù)端處理完畢后矢空,使用通知或輪詢的方式告知請(qǐng)求方。一般指:請(qǐng)求——響應(yīng)——通知模式禀横。
冗余:增加副本屁药,提高可用性、安全性與性能柏锄。
安全:對(duì)已知問題有有效的解決方案酿箭,對(duì)未知/潛在問題建立發(fā)現(xiàn)和防御機(jī)制。
自動(dòng)化:將重復(fù)的趾娃、不需要人工參與的事情缭嫡,通過工具的方式,使用機(jī)器完成抬闷。
敏捷性:積極接受需求變更妇蛀,快速響應(yīng)業(yè)務(wù)發(fā)展需求。
以用戶為中心评架,提供快速的網(wǎng)頁(yè)訪問體驗(yàn)。主要參數(shù)有較短的響應(yīng)時(shí)間炕泳、較大的并發(fā)處理能力纵诞、較高的吞吐量與穩(wěn)定的性能參數(shù)。
可分為前端優(yōu)化培遵、應(yīng)用層優(yōu)化浙芙、代碼層優(yōu)化與存儲(chǔ)層優(yōu)化登刺。
前端優(yōu)化:網(wǎng)站業(yè)務(wù)邏輯之前的部分;
瀏覽器優(yōu)化:減少HTTP請(qǐng)求數(shù)嗡呼,使用瀏覽器緩存纸俭,啟用壓縮,CSS?JS位置南窗,JS異步掉蔬,減少Cookie傳輸;CDN加速矾瘾,反向代理女轿;
應(yīng)用層優(yōu)化:處理網(wǎng)站業(yè)務(wù)的服務(wù)器。使用緩存壕翩,異步蛉迹,集群
代碼優(yōu)化:合理的架構(gòu),多線程放妈,資源復(fù)用(對(duì)象池北救,線程池等),良好的數(shù)據(jù)結(jié)構(gòu)芜抒,JVM調(diào)優(yōu)珍策,單例,Cache等宅倒;
存儲(chǔ)優(yōu)化:緩存攘宙、固態(tài)硬盤、光纖傳輸拐迁、優(yōu)化讀寫蹭劈、磁盤冗余、分布式存儲(chǔ)(HDFS)线召、NoSQL等铺韧。
大型網(wǎng)站應(yīng)該在任何時(shí)候都可以正常訪問缓淹,正常提供對(duì)外服務(wù)哈打。因?yàn)榇笮途W(wǎng)站的復(fù)雜性,分布式讯壶,廉價(jià)服務(wù)器料仗,開源數(shù)據(jù)庫(kù),操作系統(tǒng)等特點(diǎn)鹏溯,要保證高可用是很困難的罢维,也就是說網(wǎng)站的故障是不可避免的。
如何提高可用性丙挽,就是需要迫切解決的問題肺孵。首先,需要從架構(gòu)級(jí)別考慮颜阐,在規(guī)劃的時(shí)候平窘,就考慮可用性。行業(yè)內(nèi)一般用幾個(gè)9表示可用性指標(biāo)凳怨,比如四個(gè)9(99.99)瑰艘,一年內(nèi)允許的不可用時(shí)間是53分鐘。
不同層級(jí)使用的策略不同肤舞,一般采用冗余備份和失效轉(zhuǎn)移解決高可用問題紫新。
應(yīng)用層:一般設(shè)計(jì)為無(wú)狀態(tài)的,對(duì)于每次請(qǐng)求李剖,使用哪一臺(tái)服務(wù)器處理是沒有影響的芒率。一般使用負(fù)載均衡技術(shù)(需要解決Session同步問題)實(shí)現(xiàn)高可用。
服務(wù)層:負(fù)載均衡篙顺,分級(jí)管理偶芍,快速失敗(超時(shí)設(shè)置)德玫,異步調(diào)用匪蟀,服務(wù)降級(jí),冪等設(shè)計(jì)等宰僧。
數(shù)據(jù)層:冗余備份(冷材彪,熱備[同步,異步]琴儿,溫備)查刻,失效轉(zhuǎn)移(確認(rèn),轉(zhuǎn)移凤类,恢復(fù))穗泵。數(shù)據(jù)高可用方面著名的理論基礎(chǔ)是CAP理論(持久性,可用性谜疤,數(shù)據(jù)一致性[強(qiáng)一致佃延,用戶一致,最終一致])
伸縮性是指在不改變?cè)屑軜?gòu)設(shè)計(jì)的基礎(chǔ)上履肃,通過添加/減少硬件(服務(wù)器)的方式,提高/降低系統(tǒng)的處理能力坐桩。
應(yīng)用層:對(duì)應(yīng)用進(jìn)行垂直或水平切分尺棋。然后針對(duì)單一功能進(jìn)行負(fù)載均衡(DNS、HTTP[反向代理]绵跷、IP膘螟、鏈路層)成福。
服務(wù)層:與應(yīng)用層類似;
數(shù)據(jù)層:分庫(kù)荆残、分表奴艾、NoSQL等;常用算法Hash内斯,一致性Hash蕴潦。
可以方便地進(jìn)行功能模塊的新增/移除俘闯,提供代碼/模塊級(jí)別良好的可擴(kuò)展性潭苞。
模塊化,組件化:高內(nèi)聚真朗,低耦合此疹,提高復(fù)用性,擴(kuò)展性蜜猾。
穩(wěn)定接口:定義穩(wěn)定的接口秀菱,在接口不變的情況下,內(nèi)部結(jié)構(gòu)可以“隨意”變化蹭睡。
設(shè)計(jì)模式:應(yīng)用面向?qū)ο笏枷胙芰猓瓌t,使用設(shè)計(jì)模式肩豁,進(jìn)行代碼層面的設(shè)計(jì)脊串。
消息隊(duì)列:模塊化的系統(tǒng),通過消息隊(duì)列進(jìn)行交互清钥,使模塊之間的依賴解耦琼锋。
分布式服務(wù):公用模塊服務(wù)化,提供其他系統(tǒng)使用祟昭,提高可重用性缕坎,擴(kuò)展性。
對(duì)已知問題有有效的解決方案谜叹,對(duì)未知/潛在問題建立發(fā)現(xiàn)和防御機(jī)制。對(duì)于安全問題搬葬,首先要提高安全意識(shí)荷腊,建立一個(gè)安全的有效機(jī)制,從政策層面急凰,組織層面進(jìn)行保障女仰,比如服務(wù)器密碼不能泄露,密碼每月更新,并且三次內(nèi)不能重復(fù)疾忍;每周安全掃描等乔外。以制度化的方式,加強(qiáng)安全體系的建設(shè)锭碳。同時(shí)袁稽,需要注意與安全有關(guān)的各個(gè)環(huán)節(jié)勿璃。安全問題不容忽視擒抛,包括基礎(chǔ)設(shè)施安全,應(yīng)用系統(tǒng)安全补疑,數(shù)據(jù)保密安全等歧沪。
基礎(chǔ)設(shè)施安全:硬件采購(gòu),操作系統(tǒng)莲组,網(wǎng)絡(luò)環(huán)境方面的安全诊胞。一般采用正規(guī)渠道購(gòu)買高質(zhì)量的產(chǎn)品,選擇安全的操作系統(tǒng)锹杈,及時(shí)修補(bǔ)漏洞撵孤,安裝殺毒軟件防火墻。防范病毒竭望,后門邪码。設(shè)置防火墻策略,建立DDOS防御系統(tǒng)咬清,使用攻擊檢測(cè)系統(tǒng)闭专,進(jìn)行子網(wǎng)隔離等手段。
應(yīng)用系統(tǒng)安全:在程序開發(fā)時(shí)旧烧,對(duì)已知常用問題影钉,使用正確的方式,在代碼層面解決掉掘剪。防止跨站腳本攻擊(XSS)平委,注入攻擊,跨站請(qǐng)求偽造(CSRF)夺谁,錯(cuò)誤信息廉赔,HTML注釋,文件上傳予权,路徑遍歷等昂勉。還可以使用Web應(yīng)用防火墻(比如:ModSecurity),進(jìn)行安全漏洞掃描等措施扫腺,加強(qiáng)應(yīng)用級(jí)別的安全岗照。
數(shù)據(jù)保密安全:存儲(chǔ)安全(存儲(chǔ)在可靠的設(shè)備,實(shí)時(shí),定時(shí)備份)攒至,保存安全(重要的信息加密保存厚者,選擇合適的人員復(fù)雜保存和檢測(cè)等),傳輸安全(防止數(shù)據(jù)竊取和數(shù)據(jù)篡改)迫吐;
常用的加解密算法(單項(xiàng)散列加密[MD5库菲、SHA],對(duì)稱加密[DES志膀、3DES熙宇、RC]),非對(duì)稱加密[RSA]等溉浙。
網(wǎng)站的架構(gòu)設(shè)計(jì),運(yùn)維管理要適應(yīng)變化戳稽,提供高伸縮性馆蠕,高擴(kuò)展性。方便的應(yīng)對(duì)快速的業(yè)務(wù)發(fā)展惊奇,突增高流量訪問等要求互躬。
除上面介紹的架構(gòu)要素外,還需要引入敏捷管理颂郎,敏捷開發(fā)的思想吼渡。使業(yè)務(wù),產(chǎn)品祖秒,技術(shù)诞吱,運(yùn)維統(tǒng)一起來(lái),隨需應(yīng)變竭缝,快速響應(yīng)房维。
以上采用七層邏輯架構(gòu)抬纸,第一層客戶層咙俩,第二層前端優(yōu)化層,第三層應(yīng)用層湿故,第四層服務(wù)層阿趁,第五層數(shù)據(jù)存儲(chǔ)層,第六層大數(shù)據(jù)存儲(chǔ)層坛猪,第七層大數(shù)據(jù)處理層脖阵。
客戶層:支持PC瀏覽器和手機(jī)APP。差別是手機(jī)APP可以直接通過IP訪問墅茉,反向代理服務(wù)器命黔。
前端層:使用DNS負(fù)載均衡呜呐,CDN本地加速以及反向代理服務(wù);
應(yīng)用層:網(wǎng)站應(yīng)用集群悍募;按照業(yè)務(wù)進(jìn)行垂直拆分蘑辑,比如商品應(yīng)用,會(huì)員中心等坠宴;
服務(wù)層:提供公用服務(wù)洋魂,比如用戶服務(wù),訂單服務(wù)喜鼓,支付服務(wù)等副砍;
數(shù)據(jù)層:支持關(guān)系型數(shù)據(jù)庫(kù)集群(支持讀寫分離),NOSQL集群颠通,分布式文件系統(tǒng)集群址晕;以及分布式Cache膀懈;
大數(shù)據(jù)存儲(chǔ)層:支持應(yīng)用層和服務(wù)層的日志數(shù)據(jù)收集顿锰,關(guān)系數(shù)據(jù)庫(kù)和NOSQL數(shù)據(jù)庫(kù)的結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)收集;
大數(shù)據(jù)處理層:通過Mapreduce進(jìn)行離線數(shù)據(jù)分析或Storm實(shí)時(shí)數(shù)據(jù)分析启搂,并將處理后的數(shù)據(jù)存入關(guān)系型數(shù)據(jù)庫(kù)硼控。(實(shí)際使用中,離線數(shù)據(jù)和實(shí)時(shí)數(shù)據(jù)會(huì)按照業(yè)務(wù)要求進(jìn)行分類處理胳赌,并存入不同的數(shù)據(jù)庫(kù)中牢撼,供應(yīng)用層或服務(wù)層使用)。
二疑苫、大型電商網(wǎng)站系統(tǒng)架構(gòu)演變過程
一個(gè)成熟的大型網(wǎng)站(如淘寶熏版、天貓、騰訊等)的系統(tǒng)架構(gòu)并不是一開始設(shè)計(jì)時(shí)就具備完整的高性能捍掺、高可用撼短、高伸縮等特性的,它是隨著用戶量的增加挺勿,業(yè)務(wù)功能的擴(kuò)展逐漸演變完善的曲横,在這個(gè)過程中,開發(fā)模式不瓶、技術(shù)架構(gòu)禾嫉、設(shè)計(jì)思想也發(fā)生了很大的變化,就連技術(shù)人員也從幾個(gè)人發(fā)展到一個(gè)部門甚至一條產(chǎn)品線蚊丐。
所以成熟的系統(tǒng)架構(gòu)是隨著業(yè)務(wù)的擴(kuò)展而逐步完善的熙参,并不是一蹴而就;不同業(yè)務(wù)特征的系統(tǒng)麦备,會(huì)有各自的側(cè)重點(diǎn)孽椰,例如淘寶讲竿,要解決海量的商品信息的搜索、下單弄屡、支付题禀;例如騰訊,要解決數(shù)億用戶的實(shí)時(shí)消息傳輸膀捷;百度它要處理海量的搜索請(qǐng)求迈嘹。
他們都有各自的業(yè)務(wù)特性,系統(tǒng)架構(gòu)也有所不同全庸。盡管如此我們也可以從這些不同的網(wǎng)站背景中秀仲,找出其中共用的技術(shù),這些技術(shù)和手段廣泛運(yùn)用在大型網(wǎng)站系統(tǒng)的架構(gòu)中壶笼,下面就通過介紹大型網(wǎng)站系統(tǒng)的演化過程神僵,來(lái)認(rèn)識(shí)這些技術(shù)和手段。
架構(gòu)技術(shù)是程序員繞不開的話題覆劈,在這里順便給大家推薦一個(gè)架構(gòu)技術(shù)交流群:650385180保礼,里面會(huì)分享一些資深架構(gòu)師錄制的視頻錄像:有Spring,MyBatis责语,Netty源碼分析炮障,高并發(fā)、高性能坤候、分布式胁赢、微服務(wù)架構(gòu)的原理,JVM性能優(yōu)化這些成為架構(gòu)師必備的知識(shí)體系白筹。還能領(lǐng)取免費(fèi)的學(xué)習(xí)資源智末,相信對(duì)于已經(jīng)工作和遇到技術(shù)瓶頸的碼友,在這個(gè)群里會(huì)有你需要的內(nèi)容徒河。
最初的架構(gòu),應(yīng)用程序虚青、數(shù)據(jù)庫(kù)它呀、文件都部署在一臺(tái)服務(wù)器上,如圖:
2棒厘、應(yīng)用纵穿、數(shù)據(jù)、文件分離
隨著業(yè)務(wù)的擴(kuò)展奢人,一臺(tái)服務(wù)器已經(jīng)不能滿足性能需求谓媒,故將應(yīng)用程序、數(shù)據(jù)庫(kù)何乎、文件各自部署在獨(dú)立的服務(wù)器上句惯,并且根據(jù)服務(wù)器的用途配置不同的硬件土辩,達(dá)到最佳的性能效果。
在硬件優(yōu)化性能的同時(shí)拷淘,同時(shí)也通過軟件進(jìn)行性能優(yōu)化,在大部分的網(wǎng)站系統(tǒng)中指孤,都會(huì)利用緩存技術(shù)改善系統(tǒng)的性能启涯,使用緩存主要源于熱點(diǎn)數(shù)據(jù)的存在,大部分網(wǎng)站訪問都遵循28原則(即80%的訪問請(qǐng)求恃轩,最終落在20%的數(shù)據(jù)上)结洼,所以我們可以對(duì)熱點(diǎn)數(shù)據(jù)進(jìn)行緩存,減少這些數(shù)據(jù)的訪問路徑叉跛,提高用戶體驗(yàn)松忍。
緩存實(shí)現(xiàn)常見的方式是本地緩存、分布式緩存筷厘。當(dāng)然還有CDN鸣峭、反向代理等,這個(gè)后面再講敞掘。本地緩存叽掘,顧名思義是將數(shù)據(jù)緩存在應(yīng)用服務(wù)器本地,可以存在內(nèi)存中玖雁,也可以存在文件,OSCache就是常用的本地緩存組件盖腕。本地緩存的特點(diǎn)是速度快赫冬,但因?yàn)楸镜乜臻g有限所以緩存數(shù)據(jù)量也有限。分布式緩存的特點(diǎn)是溃列,可
以緩存海量的數(shù)據(jù)劲厌,并且擴(kuò)展非常容易,在門戶類網(wǎng)站中常常被使用听隐,速度按理沒有本地緩存快补鼻,常用的分布式緩存是Memcached、Redis雅任。
應(yīng)用服務(wù)器作為網(wǎng)站的入口,會(huì)承擔(dān)大量的請(qǐng)求沪么,我們往往通過應(yīng)用服務(wù)器集群來(lái)分擔(dān)請(qǐng)求數(shù)硼婿。應(yīng)用服務(wù)器前面部署負(fù)載均衡服務(wù)器調(diào)度用戶請(qǐng)求,根據(jù)分發(fā)策略將請(qǐng)求分發(fā)到多個(gè)應(yīng)用服務(wù)器節(jié)點(diǎn)禽车。
常用的負(fù)載均衡技術(shù)硬件的有F5寇漫,價(jià)格比較貴刊殉,軟件的有LVS、Nginx州胳、HAProxy记焊。LVS是四層負(fù)載均衡,根據(jù)目標(biāo)地址和端口選擇內(nèi)部服務(wù)器栓撞,Nginx和HAProxy是七層負(fù)載均衡亚亲,可以根據(jù)報(bào)文內(nèi)容選擇內(nèi)部服務(wù)器,因此LVS分發(fā)路徑優(yōu)于Nginx和HAProxy腐缤,性能要高些捌归,而Nginx和HAProxy則更具配置性,如可以用來(lái)做動(dòng)靜分離(根據(jù)請(qǐng)求報(bào)文特征岭粤,選擇靜態(tài)資源服務(wù)器還是應(yīng)用服務(wù)器)惜索。
5、數(shù)據(jù)庫(kù)讀寫分離和分庫(kù)分表
隨著用戶量的增加剃浇,數(shù)據(jù)庫(kù)成為最大的瓶頸巾兆,改善數(shù)據(jù)庫(kù)性能常用的手段是進(jìn)行讀寫分離以及分庫(kù)分表,讀寫分離顧名思義就是將數(shù)據(jù)庫(kù)分為讀庫(kù)和寫庫(kù)虎囚,通過主備功能實(shí)現(xiàn)數(shù)據(jù)同步角塑。分庫(kù)分表則分為水平切分和垂直切分,水平切分則是對(duì)一個(gè)數(shù)據(jù)庫(kù)特大的表進(jìn)行拆分淘讥,例如用戶表圃伶。垂直切分則是根據(jù)業(yè)務(wù)的不同來(lái)切分,如用戶業(yè)務(wù)蒲列、商品業(yè)務(wù)相關(guān)的表放在不同的數(shù)據(jù)庫(kù)中窒朋。
假如我們的服務(wù)器都部署在成都的機(jī)房蝗岖,對(duì)于四川的用戶來(lái)說訪問是較快的侥猩,而對(duì)于北京的用戶訪問是較慢的,這是由于四川和北京分別屬于電信和聯(lián)通的不同發(fā)達(dá)地區(qū)抵赢,北京用戶訪問需要通過互聯(lián)路由器經(jīng)過較長(zhǎng)的路徑才能訪問到成都的服務(wù)器欺劳,返回路徑也一樣,所以數(shù)據(jù)傳輸時(shí)間比較長(zhǎng)铅鲤。對(duì)于這種情況划提,常常使用CDN解決,CDN將數(shù)據(jù)內(nèi)容緩存到運(yùn)營(yíng)商的機(jī)房彩匕,用戶訪問時(shí)先從最近的運(yùn)營(yíng)商獲取數(shù)據(jù)腔剂,這樣大大減少了網(wǎng)絡(luò)訪問的路徑。比較專業(yè)的CDN運(yùn)營(yíng)商有藍(lán)汛驼仪、網(wǎng)宿掸犬。
而反向代理袜漩,則是部署在網(wǎng)站的機(jī)房,當(dāng)用戶請(qǐng)求達(dá)到時(shí)首先訪問反向代理服務(wù)器湾碎,反向代理服務(wù)器將緩存的數(shù)據(jù)返回給用戶宙攻,如果沒有緩存數(shù)據(jù)才會(huì)繼續(xù)訪問應(yīng)用服務(wù)器獲取,這樣做減少了獲取數(shù)據(jù)的成本介褥。反向代理有Squid座掘、Nginx。
用戶一天天增加溢陪,業(yè)務(wù)量越來(lái)越大,產(chǎn)生的文件越來(lái)越多睛廊,單臺(tái)的文件服務(wù)器已經(jīng)不能滿足需求功氨,這時(shí)就需要分布式文件系統(tǒng)的支撐浅乔。常用的分布式文件系統(tǒng)有GFS窒篱、HDFS穷绵、TFS。
對(duì)于海量數(shù)據(jù)的查詢和分析蛾坯,我們使用NoSQL數(shù)據(jù)庫(kù)加上搜索引擎可以達(dá)到更好的性能。并不是所有的數(shù)據(jù)都要放在關(guān)系型數(shù)據(jù)中。常用的NoSQL有MongoDB胆萧、HBase跌穗、Redis蚌吸,搜索引擎有Lucene娄昆、Solr扒俯、Elasticsearch。
9掌猛、將應(yīng)用服務(wù)器進(jìn)行業(yè)務(wù)拆分
隨著業(yè)務(wù)進(jìn)一步擴(kuò)展兔院,應(yīng)用程序變得非常臃腫许起,這時(shí)我們需要將應(yīng)用程序進(jìn)行業(yè)務(wù)拆分猛频,如百度分為新聞坦敌、網(wǎng)頁(yè)幻馁、圖片等業(yè)務(wù)洗鸵。每個(gè)業(yè)務(wù)應(yīng)用負(fù)責(zé)相對(duì)獨(dú)立的業(yè)務(wù)運(yùn)作。業(yè)務(wù)之間通過消息進(jìn)行通信或者共享數(shù)據(jù)庫(kù)來(lái)實(shí)現(xiàn)仗嗦。
這時(shí)我們發(fā)現(xiàn)各個(gè)業(yè)務(wù)應(yīng)用都會(huì)使用到一些基本的業(yè)務(wù)服務(wù),例如用戶服務(wù)稀拐、訂單服務(wù)火邓、支付服務(wù)、安全服務(wù)德撬,這些服務(wù)是支撐各業(yè)務(wù)應(yīng)用的基本要素铲咨。我們將這些服務(wù)抽取出來(lái)利用分部式服務(wù)框架搭建分布式服務(wù)。阿里的Dubbo是一個(gè)不錯(cuò)的選擇蜓洪。
1隆檀、電商案例的原因
分布式大型網(wǎng)站摇天,目前看主要有幾類:
大型門戶,比如網(wǎng)易恐仑,新浪等泉坐;
SNS網(wǎng)站,比如校內(nèi)裳仆,開心網(wǎng)等腕让;
電商網(wǎng)站,比如阿里巴巴歧斟,京東商城记某,國(guó)美在線,汽車之家等构捡。
大型門戶一般是新聞?lì)愋畔ⅲ梢允褂肅DN壳猜,靜態(tài)化等方式優(yōu)化勾徽,開心網(wǎng)等交互性比較多,可能會(huì)引入更多的NoSQL统扳,分布式緩存喘帚,使用高性能的通信框架等畅姊。電商網(wǎng)站具備以上兩類的特點(diǎn),比如產(chǎn)品詳情可以采用CDN吹由,靜態(tài)化若未,交互性高的需要采用NoSQL等技術(shù)。因此倾鲫,我們采用電商網(wǎng)站作為案例粗合,進(jìn)行分析。
2乌昔、電商網(wǎng)站需求
客戶需求:
建立一個(gè)全品類的電子商務(wù)網(wǎng)站(B2C)隙疚,用戶可以在線購(gòu)買商品,可以在線支付磕道,也可以貨到付款供屉;
用戶購(gòu)買時(shí)可以在線與客服溝通;
用戶收到商品后溺蕉,可以給商品打分伶丐,評(píng)價(jià);
目前有成熟的進(jìn)銷存系統(tǒng)疯特;需要與網(wǎng)站對(duì)接哗魂;
希望能夠支持3~5年,業(yè)務(wù)的發(fā)展辙芍;
預(yù)計(jì)3~5年用戶數(shù)達(dá)到1000萬(wàn)啡彬;
定期舉辦雙11、雙12故硅、三八男人節(jié)等活動(dòng)庶灿;
其他的功能參考京東或國(guó)美在線等網(wǎng)站。
客戶就是客戶吃衅,不會(huì)告訴你具體要什么往踢,只會(huì)告訴你他想要什么,我們很多時(shí)候要引導(dǎo)徘层,挖掘客戶的需求峻呕。好在提供了明確的參考網(wǎng)站。因此趣效,下一步要進(jìn)行大量的分析瘦癌,結(jié)合行業(yè),以及參考網(wǎng)站跷敬,給客戶提供方案讯私。
需求功能矩陣
需求管理傳統(tǒng)的做法,會(huì)使用用例圖或模塊圖(需求列表)進(jìn)行需求的描述。這樣做常常忽視掉一個(gè)很重要的需求(非功能需求)斤寇,因此推薦大家使用需求功能矩陣桶癣,進(jìn)行需求描述。
本電商網(wǎng)站的需求矩陣如下:
3娘锁、網(wǎng)站初級(jí)架構(gòu)
一般網(wǎng)站牙寞,剛開始的做法,是三臺(tái)服務(wù)器莫秆,一臺(tái)部署應(yīng)用间雀,一臺(tái)部署數(shù)據(jù)庫(kù),一臺(tái)部署NFS文件系統(tǒng)馏锡。
這是前幾年比較傳統(tǒng)的做法雷蹂,之前見到一個(gè)網(wǎng)站10萬(wàn)多會(huì)員,垂直服裝設(shè)計(jì)門戶杯道,N多圖片匪煌。使用了一臺(tái)服務(wù)器部署了應(yīng)用,數(shù)據(jù)庫(kù)以及圖片存儲(chǔ)党巾。出現(xiàn)了很多性能問題萎庭。
如下圖:
但是,目前主流的網(wǎng)站架構(gòu)已經(jīng)發(fā)生了翻天覆地的變化齿拂。一般都會(huì)采用集群的方式驳规,進(jìn)行高可用設(shè)計(jì)。至少是下面這個(gè)樣子:
使用集群對(duì)應(yīng)用服務(wù)器進(jìn)行冗余署海,實(shí)現(xiàn)高可用吗购;(負(fù)載均衡設(shè)備可與應(yīng)用一塊部署)
使用數(shù)據(jù)庫(kù)主備模式,實(shí)現(xiàn)數(shù)據(jù)備份和高可用砸狞;
4捻勉、系統(tǒng)容量預(yù)估
預(yù)估步驟:
注冊(cè)用戶數(shù)-日均UV量-每日的PV量-每天的并發(fā)量;
峰值預(yù)估:平常量的2~3倍刀森;
根據(jù)并發(fā)量(并發(fā)踱启,事務(wù)數(shù)),存儲(chǔ)容量計(jì)算系統(tǒng)容量研底。
根據(jù)客戶需求:3~5年用戶數(shù)達(dá)到1000萬(wàn)注冊(cè)用戶埠偿,可以做每秒并發(fā)數(shù)預(yù)估:
每天的UV為200萬(wàn)(二八原則);
每日每天點(diǎn)擊瀏覽30次榜晦;
PV量:200*30=6000萬(wàn)冠蒋;
集中訪問量:24*0.2=4.8小時(shí)會(huì)有6000萬(wàn)*0.8=4800萬(wàn)(二八原則);
每分并發(fā)量:4.8*60=288分鐘乾胶,每分鐘訪問4800/288=16.7萬(wàn)(約等于)浊服;
每秒并發(fā)量:16.7萬(wàn)/60=2780(約等于)统屈;
假設(shè):高峰期為平常值的三倍,則每秒的并發(fā)數(shù)可以達(dá)到8340次牙躺。
1毫秒=1.3次訪問;
沒好好學(xué)數(shù)學(xué)后悔了吧腕扶?D蹩健(不知道以上算是否有錯(cuò)誤,呵呵~~)
服務(wù)器預(yù)估:(以tomcat服務(wù)器舉例)
按一臺(tái)web服務(wù)器半抱,支持每秒300個(gè)并發(fā)計(jì)算脓恕。平常需要10臺(tái)服務(wù)器(約等于);[tomcat默認(rèn)配置是150]窿侈,高峰期需要30臺(tái)服務(wù)器炼幔;
容量預(yù)估:70/90原則
系統(tǒng)CPU一般維持在70%左右的水平,高峰期達(dá)到90%的水平史简,是不浪費(fèi)資源乃秀,并比較穩(wěn)定的。內(nèi)存圆兵,IO類似跺讯。
以上預(yù)估僅供參考,因?yàn)榉?wù)器配置殉农,業(yè)務(wù)邏輯復(fù)雜度等都有影響刀脏。在此CPU,硬盤超凳,網(wǎng)絡(luò)等不再進(jìn)行評(píng)估愈污。
5、網(wǎng)站架構(gòu)分析
根據(jù)以上預(yù)估轮傍,有幾個(gè)問題:
需要部署大量的服務(wù)器暂雹,高峰期計(jì)算,可能要部署30臺(tái)Web服務(wù)器金麸。并且這三十臺(tái)服務(wù)器擎析,只有秒殺,活動(dòng)時(shí)才會(huì)用到挥下,存在大量的浪費(fèi)揍魂。
所有的應(yīng)用部署在同一臺(tái)服務(wù)器,應(yīng)用之間耦合嚴(yán)重棚瘟。需要進(jìn)行垂直切分和水平切分现斋。
大量應(yīng)用存在冗余代碼
服務(wù)器Session同步耗費(fèi)大量?jī)?nèi)存和網(wǎng)絡(luò)帶寬
數(shù)據(jù)需要頻繁訪問數(shù)據(jù)庫(kù),數(shù)據(jù)庫(kù)訪問壓力巨大偎蘸。
架構(gòu)技術(shù)是程序員繞不開的話題庄蹋,在這里順便給大家推薦一個(gè)架構(gòu)技術(shù)交流群:650385180瞬内,里面會(huì)分享一些資深架構(gòu)師錄制的視頻錄像:有Spring,MyBatis限书,Netty源碼分析虫蝶,高并發(fā)、高性能倦西、分布式能真、微服務(wù)架構(gòu)的原理,JVM性能優(yōu)化這些成為架構(gòu)師必備的知識(shí)體系扰柠。還能領(lǐng)取免費(fèi)的學(xué)習(xí)資源粉铐,相信對(duì)于已經(jīng)工作和遇到技術(shù)瓶頸的碼友,在這個(gè)群里會(huì)有你需要的內(nèi)容卤档。
大型網(wǎng)站一般需要做以下架構(gòu)優(yōu)化(優(yōu)化是架構(gòu)設(shè)計(jì)時(shí)蝙泼,就要考慮的,一般從架構(gòu)/代碼級(jí)別解決劝枣,調(diào)優(yōu)主要是簡(jiǎn)單參數(shù)的調(diào)整汤踏,比如JVM調(diào)優(yōu);如果調(diào)優(yōu)涉及大量代碼改造哨免,就不是調(diào)優(yōu)了茎活,屬于重構(gòu)):
業(yè)務(wù)拆分
應(yīng)用集群部署(分布式部署,集群部署和負(fù)載均衡)
多級(jí)緩存
單點(diǎn)登錄(分布式Session)
數(shù)據(jù)庫(kù)集群(讀寫分離琢唾,分庫(kù)分表)
服務(wù)化
消息隊(duì)列
其他技術(shù)
6载荔、網(wǎng)站架構(gòu)優(yōu)化
6.1業(yè)務(wù)拆分
根據(jù)業(yè)務(wù)屬性進(jìn)行垂直切分,劃分為產(chǎn)品子系統(tǒng)采桃,購(gòu)物子系統(tǒng)懒熙,支付子系統(tǒng),評(píng)論子系統(tǒng)普办,客服子系統(tǒng)工扎,接口子系統(tǒng)(對(duì)接如進(jìn)銷存,短信等外部系統(tǒng))衔蹲。
根據(jù)業(yè)務(wù)子系統(tǒng)進(jìn)行等級(jí)定義肢娘,可分為核心系統(tǒng)和非核心系統(tǒng)。核心系統(tǒng):產(chǎn)品子系統(tǒng)舆驶,購(gòu)物子系統(tǒng)橱健,支付子系統(tǒng);非核心:評(píng)論子系統(tǒng)沙廉,客服子系統(tǒng)拘荡,接口子系統(tǒng)。
業(yè)務(wù)拆分作用:提升為子系統(tǒng)可由專門的團(tuán)隊(duì)和部門負(fù)責(zé)撬陵,專業(yè)的人做專業(yè)的事珊皿,解決模塊之間耦合以及擴(kuò)展性問題网缝;每個(gè)子系統(tǒng)單獨(dú)部署,避免集中部署導(dǎo)致一個(gè)應(yīng)用掛了蟋定,全部應(yīng)用不可用的問題粉臊。
等級(jí)定義作用:用于流量突發(fā)時(shí),對(duì)關(guān)鍵應(yīng)用進(jìn)行保護(hù)溢吻,實(shí)現(xiàn)優(yōu)雅降級(jí)维费;保護(hù)關(guān)鍵應(yīng)用不受到影響。
拆分后的架構(gòu)圖:
參考部署方案2
如上圖每個(gè)應(yīng)用單獨(dú)部署促王,核心系統(tǒng)和非核心系統(tǒng)組合部署
6.2應(yīng)用集群部署(分布式,集群而晒,負(fù)載均衡)
分布式部署:將業(yè)務(wù)拆分后的應(yīng)用單獨(dú)部署蝇狼,應(yīng)用直接通過RPC進(jìn)行遠(yuǎn)程通信;
集群部署:電商網(wǎng)站的高可用要求倡怎,每個(gè)應(yīng)用至少部署兩臺(tái)服務(wù)器進(jìn)行集群部署迅耘;
負(fù)載均衡:是高可用系統(tǒng)必須的,一般應(yīng)用通過負(fù)載均衡實(shí)現(xiàn)高可用监署,分布式服務(wù)通過內(nèi)置的負(fù)載均衡實(shí)現(xiàn)高可用颤专,關(guān)系型數(shù)據(jù)庫(kù)通過主備方式實(shí)現(xiàn)高可用。
集群部署后架構(gòu)圖:
6.3 多級(jí)緩存
緩存按照存放的位置一般可分為兩類本地緩存和分布式緩存栖秕。本案例采用二級(jí)緩存的方式晓避,進(jìn)行緩存的設(shè)計(jì)。一級(jí)緩存為本地緩存俏拱,二級(jí)緩存為分布式緩存暑塑。(還有頁(yè)面緩存事格,片段緩存等,那是更細(xì)粒度的劃分)
一級(jí)緩存搞隐,緩存數(shù)據(jù)字典驹愚,和常用熱點(diǎn)數(shù)據(jù)等基本不可變/有規(guī)則變化的信息么鹤,二級(jí)緩存緩存需要的所有緩存味廊。當(dāng)一級(jí)緩存過期或不可用時(shí),訪問二級(jí)緩存的數(shù)據(jù)柠新。如果二級(jí)緩存也沒有恨憎,則訪問數(shù)據(jù)庫(kù)憔恳。
緩存的比例,一般1:4输硝,即可考慮使用緩存点把。(理論上是1:2即可)郎逃。
根據(jù)業(yè)務(wù)特性可使用以下緩存過期策略:
緩存自動(dòng)過期褒翰;
緩存觸發(fā)過期影暴;
6.4單點(diǎn)登錄(分布式Session)
系統(tǒng)分割為多個(gè)子系統(tǒng)探赫,獨(dú)立部署后伦吠,不可避免的會(huì)遇到會(huì)話管理的問題毛仪。一般可采用Session同步,Cookies腺逛,分布式Session方式棍矛。電商網(wǎng)站一般采用分布式Session實(shí)現(xiàn)够委。
再進(jìn)一步可以根據(jù)分布式Session,建立完善的單點(diǎn)登錄或賬戶管理系統(tǒng)玉罐。
流程說明
用戶第一次登錄時(shí),將會(huì)話信息(用戶Id和用戶信息)铁追,比如以用戶Id為Key脂信,寫入分布式Session狰闪;
用戶再次登錄時(shí)埋泵,獲取分布式Session罪治,是否有會(huì)話信息觉义,如果沒有則調(diào)到登錄頁(yè)晒骇;
一般采用Cache中間件實(shí)現(xiàn)洪囤,建議使用Redis,因此它有持久化功能喇完,方便分布式Session宕機(jī)后锦溪,可以從持久化存儲(chǔ)中加載會(huì)話信息海洼;
存入會(huì)話時(shí)坏逢,可以設(shè)置會(huì)話保持的時(shí)間,比如15分鐘肖揣,超過后自動(dòng)超時(shí)龙优;
結(jié)合Cache中間件彤断,實(shí)現(xiàn)的分布式Session宰衙,可以很好的模擬Session會(huì)話供炼。
6.5數(shù)據(jù)庫(kù)集群(讀寫分離窘疮,分庫(kù)分表)
大型網(wǎng)站需要存儲(chǔ)海量的數(shù)據(jù)闸衫,為達(dá)到海量數(shù)據(jù)存儲(chǔ)楚堤,高可用身冬,高性能一般采用冗余的方式進(jìn)行系統(tǒng)設(shè)計(jì)酥筝。一般有兩種方式讀寫分離和分庫(kù)分表。
讀寫分離:一般解決讀比例遠(yuǎn)大于寫比例的場(chǎng)景掸掏,可采用一主一備丧凤,一主多備或多主多備方式愿待。
本案例在業(yè)務(wù)拆分的基礎(chǔ)上仍侥,結(jié)合分庫(kù)分表和讀寫分離农渊。如下圖:
業(yè)務(wù)拆分后:每個(gè)子系統(tǒng)需要單獨(dú)的庫(kù)砸紊;
如果單獨(dú)的庫(kù)太大醉顽,可以根據(jù)業(yè)務(wù)特性,進(jìn)行再次分庫(kù),比如商品分類庫(kù)否淤,產(chǎn)品庫(kù)石抡;
分庫(kù)后啰扛,如果表中有數(shù)據(jù)量很大的隐解,則進(jìn)行分表煞茫,一般可以按照Id续徽,時(shí)間等進(jìn)行分表;(高級(jí)的用法是一致性Hash)
在分庫(kù)纫版、分表的基礎(chǔ)上其弊,進(jìn)行讀寫分離瑞凑;
相關(guān)中間件可參考Cobar(阿里籽御,目前已不在維護(hù))技掏,TDDL(阿里)哑梳,Atlas(奇虎360)鸠真,MyCat吠卷。
分庫(kù)分表后序列的問題祭隔,JOIN路操,事務(wù)的問題屯仗,會(huì)在分庫(kù)分表主題分享中魁袜,介紹。
6.6服務(wù)化
將多個(gè)子系統(tǒng)公用的功能/模塊申尼,進(jìn)行抽取师幕,作為公用服務(wù)使用霹粥。比如本案例的會(huì)員子系統(tǒng)就可以抽取為公用的服務(wù)后控。
6.7消息隊(duì)列
消息隊(duì)列可以解決子系統(tǒng)/模塊之間的耦合,實(shí)現(xiàn)異步张抄,高可用洼怔,高性能的系統(tǒng)镣隶。是分布式系統(tǒng)的標(biāo)準(zhǔn)配置安岂。本案例中嗜闻,消息隊(duì)列主要應(yīng)用在購(gòu)物琉雳,配送環(huán)節(jié)翠肘。
用戶下單后束倍,寫入消息隊(duì)列绪妹,后直接返回客戶端邮旷;
庫(kù)存子系統(tǒng):讀取消息隊(duì)列信息婶肩,完成減庫(kù)存律歼;
配送子系統(tǒng):讀取消息隊(duì)列信息制圈,進(jìn)行配送离唐;
目前使用較多的MQ有Active MQ亥鬓、Rabbit MQ嵌戈、Zero MQ熟呛、MS MQ等庵朝,需要根據(jù)具體的業(yè)務(wù)場(chǎng)景進(jìn)行選擇九府。建議可以研究下Rabbit MQ侄旬。
6.8其他架構(gòu)(技術(shù))
除了以上介紹的業(yè)務(wù)拆分儡羔,應(yīng)用集群汰蜘,多級(jí)緩存鉴扫,單點(diǎn)登錄坪创,數(shù)據(jù)庫(kù)集群柠掂,服務(wù)化涯贞,消息隊(duì)列外宋渔。還有CDN皇拣,反向代理氧急,分布式文件系統(tǒng)吩坝,大數(shù)據(jù)處理等系統(tǒng)钉寝。
此處不詳細(xì)介紹嵌纲,大家可以問度娘/Google崩哩,有機(jī)會(huì)的話也可以分享給大家。
7险胰、架構(gòu)匯總
大型網(wǎng)站的架構(gòu)是根據(jù)業(yè)務(wù)需求不斷完善的起便,根據(jù)不同的業(yè)務(wù)特征會(huì)做特定的設(shè)計(jì)和考慮,本文只是講述一個(gè)常規(guī)大型網(wǎng)站會(huì)涉及的一些技術(shù)和手段鼻疮,希望能給大家?guī)?lái)啟發(fā)判沟。