分布式哈希表(DHT: Distributed Hash Table)
我們將散列表放在一個機(jī)器的內(nèi)存里闰蚕,當(dāng)散列表比較小時候品山,沒有問題趴拧,但如果這張散列表超過了一臺機(jī)器的內(nèi)存時候婆誓,或者當(dāng)存儲在一臺機(jī)器上時候吭露,這臺機(jī)器掛掉了捞蛋,那所有的數(shù)據(jù)都會消失……
那現(xiàn)在我們又該怎么做呢孝冒?
這便需要引入DHT來處理這種情況了,說白了就是將一張哈希表分割在不同的機(jī)器上拟杉。
首先庄涡,將上面所說的散列空間0,1...9想像成一個首尾相銜的環(huán),9之后又重新回到零,假設(shè)捣域,這就是十臺機(jī)器啼染。
這樣我們根據(jù)散列算法就可以將不同的學(xué)生映射到不同的機(jī)器上宴合,實(shí)現(xiàn)了數(shù)據(jù)的分布。
一致性哈希(consistent hashing)
好了迹鹅,上面我們使用DHT實(shí)現(xiàn)了數(shù)據(jù)的分布式存儲卦洽,但再考慮深一層,分布式架構(gòu)中斜棚,節(jié)點(diǎn)的故障是不可避免的阀蒂,當(dāng)添加和刪除某一節(jié)點(diǎn)了,會導(dǎo)致大量散列數(shù)據(jù)失效弟蚀,需要重新散列蚤霞。
影響非常大,那我們用什么哈希算法來實(shí)現(xiàn)DHT才能盡量的避免這種情況呢义钉,這便說到了一致性哈希昧绣。
consistent hashing 是一種 hash 算法,簡單的說捶闸,在移除 / 添加一個 cache 時夜畴,它能夠盡可能小的改變已存在 key 映射關(guān)系。
剛剛我們把學(xué)生散列到了hash數(shù)值空間里删壮,現(xiàn)在我們需要的是贪绘,同時將機(jī)器也散列在這個hash空間,讓學(xué)生和機(jī)器的散列值同處在一個數(shù)值空間央碟。
如上圖所示税灌,如果我們將學(xué)生和機(jī)器同時散列在一個環(huán)中,那么假設(shè)小張散列后的值為6亿虽,我們順時針尋找菱涤,尋找到的第一臺機(jī)器,則將小張放入其中经柴。
依次類推狸窘,則得到:
小王——>機(jī)器一
小明——>機(jī)器二
小紅——>機(jī)器三
小張——>機(jī)器四
假設(shè)我們機(jī)器三失效了,那這時候影響到的僅僅是小紅坯认,重新散列到機(jī)器四中翻擒。
而如果重新加入一臺新的機(jī)器,影響到的也僅僅是旁邊的一臺機(jī)器牛哺,這樣便解決了添加刪除機(jī)器時候的震蕩問題陋气,這便是一致性hash的大致思想。