LVS的三種工作模式:
- VS/NAT模式(Network address translation)
- VS/TUN模式(tunneling)
- DR模式(Direct routing)
參考文章:http://www.linuxvirtualserver.org/zh/lvs3.html
** NAT模式-網(wǎng)絡(luò)地址轉(zhuǎn)換 ** * Virtualserver via Network address translation(VS/NAT)*
這個是通過網(wǎng)絡(luò)地址轉(zhuǎn)換的方法來實現(xiàn)調(diào)度的漠嵌。首先調(diào)度器(LB)接收到客戶的請求數(shù)據(jù)包時(請求的目的IP為VIP)咐汞,根據(jù)調(diào)度算法決定將請求發(fā)送給哪個后端的真實服務(wù)器(RS)。然后調(diào)度就把客戶端發(fā)送的請求數(shù)據(jù)包的目標(biāo)IP地址及端口改成后端真實服務(wù)器的IP地址(RIP),這樣真實服務(wù)器(RS)就能夠接收到客戶的請求數(shù)據(jù)包了儒鹿。真實服務(wù)器響應(yīng)完請求后化撕,查看默認(rèn)路由(NAT模式下我們需要把RS的默認(rèn)路由設(shè)置為LB服務(wù)器。)把響應(yīng)后的數(shù)據(jù)包發(fā)送給LB,LB再接收到響應(yīng)包后约炎,把包的源地址改成虛擬地址(VIP)然后發(fā)送回給客戶端植阴。
原理簡述:
- 客戶端請求數(shù)據(jù),目標(biāo)IP為VIP
- 請求數(shù)據(jù)到達(dá)LB服務(wù)器圾浅,LB根據(jù)調(diào)度算法將目的地址修改為RIP地址及對應(yīng)端口(此RIP地址是根據(jù)調(diào)度算法得出的掠手。)并在連接HASH表中記錄下這個連接。
- 數(shù)據(jù)包從LB服務(wù)器到達(dá)RS服務(wù)器webserver狸捕,然后webserver進(jìn)行響應(yīng)喷鸽。Webserver的網(wǎng)關(guān)必須是LB,然后將數(shù)據(jù)返回給LB服務(wù)器灸拍。
- 收到RS的返回后的數(shù)據(jù)做祝,根據(jù)連接HASH表修改源地址VIP&目標(biāo)地址CIP砾省,及對應(yīng)端口80.然后數(shù)據(jù)就從LB出發(fā)到達(dá)客戶端。
- 客戶端收到的就只能看到VIP\DIP信息混槐。
NAT模式優(yōu)缺點:
- NAT技術(shù)將請求的報文和響應(yīng)的報文都需要通過LB進(jìn)行地址改寫编兄,因此網(wǎng)站訪問量比較大的時候LB負(fù)載均衡調(diào)度器有比較大的瓶頸,一般要求最多之能10-20臺節(jié)點
- 只需要在LB上配置一個公網(wǎng)IP地址就可以了声登。
- 每臺內(nèi)部的節(jié)點服務(wù)器的網(wǎng)關(guān)地址必須是調(diào)度器LB的內(nèi)網(wǎng)地址狠鸳。
- NAT模式支持對IP地址和端口進(jìn)行轉(zhuǎn)換。即用戶請求的端口和真實服務(wù)器的端口可以不一致捌刮。
TUN模式 virtual server via ip tunneling
采用NAT模式時碰煌,由于請求和響應(yīng)的報文必須通過調(diào)度器地址重寫,當(dāng)客戶請求越來越多時绅作,調(diào)度器處理能力將成為瓶頸芦圾。為了解決這個問題,調(diào)度器把請求的報文通過IP隧道轉(zhuǎn)發(fā)到真實的服務(wù)器俄认。真實的服務(wù)器將響應(yīng)處理后的數(shù)據(jù)直接返回給客戶端个少。這樣調(diào)度器就只處理請求入站報文,由于一般網(wǎng)絡(luò)服務(wù)應(yīng)答數(shù)據(jù)比請求報文大很多眯杏,采用VS/TUN模式后夜焦,集群系統(tǒng)的最大吞吐量可以提高10倍。
VS/TUN和NAT模式不同的是岂贩,它在LB和RS之間的傳輸不用改寫IP地址茫经。而是把客戶請求包封裝在一個IP tunnel里面,然后發(fā)送給RS節(jié)點服務(wù)器萎津,節(jié)點服務(wù)器接收到之后解開IP tunnel后卸伞,進(jìn)行響應(yīng)處理。并且直接把包通過自己的外網(wǎng)地址發(fā)送給客戶不用經(jīng)過LB服務(wù)器锉屈。
原理簡述:
- 客戶請求數(shù)據(jù)包荤傲,目標(biāo)地址VIP發(fā)送到LB上。
- LB接收到客戶請求包颈渊,進(jìn)行IP Tunnel封裝遂黍。即在原有的包頭加上IP Tunnel的包頭。然后發(fā)送出去俊嗽。
- RS節(jié)點服務(wù)器根據(jù)IP Tunnel包頭信息(此時就有一種邏輯上的隱形隧道雾家,只有LB和RS之間懂)收到請求包,然后解開IP Tunnel包頭信息绍豁,得到客戶的請求包并進(jìn)行響應(yīng)處理芯咧。
- 響應(yīng)處理完畢之后,RS服務(wù)器使用自己的出公網(wǎng)的線路,將這個響應(yīng)數(shù)據(jù)包發(fā)送給客戶端唬党。源IP地址還是VIP地址。(RS節(jié)點服務(wù)器需要在本地回環(huán)接口配置VIP)
DR模式(直接路由模式) Virtual server via direct routing (vs/dr)
DR模式是通過改寫請求報文的目標(biāo)MAC地址鬼佣,將請求發(fā)給真實服務(wù)器的驶拱,而真實服務(wù)器響應(yīng)后的處理結(jié)果直接返回給客戶端用戶。同TUN模式一樣晶衷,DR模式可以極大的提高集群系統(tǒng)的伸縮性蓝纲。而且DR模式?jīng)]有IP隧道的開銷,對集群中的真實服務(wù)器也沒有必要必須支持IP隧道協(xié)議的要求晌纫。但是要求調(diào)度器LB與真實服務(wù)器RS都有一塊網(wǎng)卡連接到同一物理網(wǎng)段上税迷,必須在同一個局域網(wǎng)環(huán)境。
DR模式是互聯(lián)網(wǎng)使用比較多的一種模式锹漱。
DR模式原理過程簡述:
VS/DR模式的連接調(diào)度和管理與NAT和TUN中的一樣箭养,它的報文轉(zhuǎn)發(fā)方法和前兩種不同。DR模式將報文直接路由給目標(biāo)真實服務(wù)器哥牍。在DR模式中毕泌,調(diào)度器根據(jù)各個真實服務(wù)器的負(fù)載情況,連接數(shù)多少等嗅辣,動態(tài)地選擇一臺服務(wù)器撼泛,不修改目標(biāo)IP地址和目標(biāo)端口,也不封裝IP報文澡谭,而是將請求報文的數(shù)據(jù)幀的目標(biāo)MAC地址改為真實服務(wù)器的MAC地址愿题。然后再將修改的數(shù)據(jù)幀在服務(wù)器組的局域網(wǎng)上發(fā)送。因為數(shù)據(jù)幀的MAC地址是真實服務(wù)器的MAC地址蛙奖,并且又在同一個局域網(wǎng)潘酗。那么根據(jù)局域網(wǎng)的通訊原理,真實服務(wù)器是一定能夠收到由LB發(fā)出的數(shù)據(jù)包外永。真實服務(wù)器接收到請求數(shù)據(jù)包的時候崎脉,解開IP包頭查看到的目標(biāo)IP是VIP。(此時只有自己的IP符合目標(biāo)IP才會接收進(jìn)來伯顶,所以我們需要在本地的回環(huán)接口上面配置VIP囚灼。另:由于網(wǎng)絡(luò)接口都會進(jìn)行ARP廣播響應(yīng),但集群的其他機器都有這個VIP的lo接口祭衩,都響應(yīng)就會沖突灶体。所以我們需要把真實服務(wù)器的lo接口的ARP響應(yīng)關(guān)閉掉。)然后真實服務(wù)器做成請求響應(yīng)掐暮,之后根據(jù)自己的路由信息將這個響應(yīng)數(shù)據(jù)包發(fā)送回給客戶蝎抽,并且源IP地址還是VIP。
DR模式小結(jié):
- 通過在調(diào)度器LB上修改數(shù)據(jù)包的目的MAC地址實現(xiàn)轉(zhuǎn)發(fā)。注意源地址仍然是CIP樟结,目的地址仍然是VIP地址养交。
- 請求的報文經(jīng)過調(diào)度器,而RS響應(yīng)處理后的報文無需經(jīng)過調(diào)度器LB瓢宦,因此并發(fā)訪問量大時使用效率很高(和NAT模式比)
- 因為DR模式是通過MAC地址改寫機制實現(xiàn)轉(zhuǎn)發(fā)碎连,因此所有RS節(jié)點和調(diào)度器LB只能在一個局域網(wǎng)里面
- RS主機需要綁定VIP地址在LO接口上,并且需要配置ARP抑制驮履。
- RS節(jié)點的默認(rèn)網(wǎng)關(guān)不需要配置成LB鱼辙,而是直接配置為上級路由的網(wǎng)關(guān),能讓RS直接出網(wǎng)就可以玫镐。
- 由于DR模式的調(diào)度器僅做MAC地址的改寫倒戏,所以調(diào)度器LB就不能改寫目標(biāo)端口,那么RS服務(wù)器就得使用和VIP相同的端口提供服務(wù)恐似。
LVS調(diào)度算法
參考文章:http://www.linuxvirtualserver.org/zh/lvs4.html
Lvs的調(diào)度算法決定了如何在集群節(jié)點之間分布工作負(fù)荷杜跷。當(dāng)director調(diào)度器收到來自客戶端訪問VIP的上的集群服務(wù)的入站請求時,director調(diào)度器必須決定哪個集群節(jié)點應(yīng)該處理請求蹂喻。Director調(diào)度器用的調(diào)度方法基本分為兩類:
固定調(diào)度算法:rr葱椭,wrr,dh口四,sh
動態(tài)調(diào)度算法:wlc孵运,lc,lblc蔓彩,lblcr
算法說明
RR(Round Robin Scheduling)
輪詢算法治笨,它將請求依次分配給不同的rs節(jié)點,也就是RS節(jié)點中均攤分配赤嚼。這種算法簡單旷赖,但只適合于RS節(jié)點處理性能差不多的情況
WRR(Weighted Round-Robin Scheduling)
加權(quán)輪詢調(diào)度喷众,它將依據(jù)不同RS的權(quán)值分配任務(wù)蝌衔。權(quán)值較高的RS將優(yōu)先獲得任務(wù)僚焦,并且分配到的連接數(shù)將比權(quán)值低的RS更多推捐。相同權(quán)值的RS得到相同數(shù)目的連接數(shù)。
WLC(Weighted Least-Connection Scheduling)
加權(quán)最小連接數(shù)調(diào)度膏燕,假設(shè)各臺RS的全職依次為Wi崇棠,當(dāng)前tcp連接數(shù)依次為Ti买优,依次去Ti/Wi為最小的RS作為下一個分配的RS
DH(Destination Hashing Scheduling)
目的地址哈希調(diào)度以目的地址為關(guān)鍵字查找一個靜態(tài)hash表來獲得需要的RS
SH(Source Hashing Scheduling)
源地址哈希調(diào)度以源地址為關(guān)鍵字查找一個靜態(tài)hash表來獲得需要的RS
LC(Least-Connection Scheduling)
最小連接數(shù)調(diào)度,IPVS表存儲了所有活動的連接上枕。LB會比較將連接請求發(fā)送到當(dāng)前連接最少的RS.
LBLC(Locality-Based Least Connections Scheduling)
基于地址的最小連接數(shù)調(diào)度:將來自同一個目的地址的請求分配給同一臺RS咐熙,此時這臺服務(wù)器是尚未滿負(fù)荷的。否則就將這個請求分配給連接數(shù)最小的RS辨萍,并以它作為下一次分配的首先考慮棋恼。
LBLCR(Locality-Based Least Connections with Replication Scheduling)
帶復(fù)制的基于局部性最少鏈接調(diào)度算法也是針對目標(biāo)IP地址的負(fù)載均衡。LBLCR算法先根據(jù)請求的目標(biāo)IP地址找出該目標(biāo)IP地址對應(yīng)的服務(wù)器組;按“最小連接”原則從該服務(wù)器組中選出一臺服務(wù)器爪飘,若服務(wù)器沒有超載义起, 將請求發(fā)送到該服務(wù)器;若服務(wù)器超載师崎;則按“最小連接”原則從整個集群中選出一臺服務(wù)器并扇,將該服務(wù)器加入到服務(wù)器組中,將請求發(fā)送到該服務(wù)器抡诞。同時,當(dāng)該 服務(wù)器組有一段時間沒有被修改土陪,將最忙的服務(wù)器從服務(wù)器組中刪除昼汗,以降低復(fù)制的程度。
LVS調(diào)度算法的生產(chǎn)環(huán)境選型:
- 一般的網(wǎng)絡(luò)服務(wù)鬼雀,如http顷窒,mail,mysql等常用的LVS調(diào)度算法為:
- 基本輪詢調(diào)度RR
- 加權(quán)最小連接調(diào)度WLC
- 加權(quán)輪詢調(diào)度WRR
- 基于局部性的最小連接LBLC和帶復(fù)制的給予局部性最小連接LBLCR主要適用于web cache和DB cache
- 源地址散列調(diào)度SH和目標(biāo)地址散列調(diào)度DH可以結(jié)合使用在防火墻集群中源哩,可以保證整個系統(tǒng)的出入口唯一鞋吉。
實際適用中這些算法的適用范圍很多,工作中最好參考內(nèi)核中的連接調(diào)度算法的實現(xiàn)原理励烦,然后根據(jù)具體的業(yè)務(wù)需求合理的選型谓着。
參考文章:http://atong.blog.51cto.com/2393905/1351362
LVS+keepalived實現(xiàn)負(fù)載均衡&高可用
部署成功后的另一些問題
- 當(dāng)我們的RS節(jié)點出現(xiàn)問題,LB如何知道坛掠。如果不知道是會把會話連接接續(xù)轉(zhuǎn)發(fā)到RS上面赊锚。
- 如果LB出現(xiàn)故障,那么整個網(wǎng)絡(luò)就出現(xiàn)故障屉栓。
針對上面的1問題舷蒲,我們就需要一種RS節(jié)點健康檢查機制。定時的去檢測RS是否正常友多,如果出現(xiàn)不正常那么就把這個RS從VIP服務(wù)里面刪除掉牲平。如果恢復(fù)正常了,就再把RS添加進(jìn)來域滥。針對2問題纵柿,我們可以另外再架設(shè)一臺LB服務(wù)器,作為備LB服務(wù)器骗绕。那么當(dāng)主LB出現(xiàn)故障藐窄,備LB服務(wù)器就會啟動接管主LB服務(wù)器的工作,接管它的資源(IP地址酬土,在網(wǎng)絡(luò)中的角色身份等)