深入理解一致性Hash和虛擬節(jié)點
當前位置:點晴教程→知識管理交流
→『 技術文檔交流 』
在分布式系統(tǒng)中架構中我們經(jīng)常提到一致性哈希算法,那么什么是一致性哈希算法,為什么需要一致性哈希算法呢? 1、為什么需要一致性哈希算法 假設現(xiàn)在有三臺緩存服務器(緩存服務器A、緩存服務器B、緩存服務器C),現(xiàn)在將數(shù)據(jù)預熱到這三臺服務器,我們可以使用負載均衡的方法將數(shù)據(jù)緩存到服務器上,如下圖所示: 通過負載均衡的方式可以把數(shù)據(jù)均勻的分發(fā)到三臺緩存服務器上,在讀取緩存的熱點數(shù)據(jù)就存在一定的困難(因為不清楚數(shù)據(jù)被緩存在那臺服務器上),讀取數(shù)據(jù)的過程如下所示: 通過輪詢緩存服務器的方式讀取緩存的熱點數(shù)據(jù),此時效率就非常的低了,接口的響應時間也會變長,從而導致用戶的體驗非常差。 負載均衡的方案致命的缺點是無法快速的定位數(shù)據(jù)在哪臺服務器上,導致需要輪詢服務器來獲取數(shù)據(jù),為了解決這個痛點便提出使用Hash算法。Hash算法的預熱數(shù)據(jù)的流程如下圖: 將數(shù)據(jù)的key計算一個hash值,然后將這個hash值和服務器的臺數(shù)取模,取模之后的結(jié)果就決定當前的數(shù)據(jù)存放在哪臺服務器上。獲取數(shù)據(jù)的流程如下: 讀取數(shù)據(jù)的時候,將數(shù)據(jù)key同樣方式獲取hash值,然后將hash值與服務器的臺數(shù)取模來定位數(shù)據(jù)在哪臺服務器上。但是hash法也存在一個嚴重的缺陷,假設現(xiàn)在增加/減少服務器數(shù)據(jù)量,如下圖所示: 我們繼續(xù)使用:hash(key)% 服務器數(shù)量,來定位數(shù)據(jù)在哪臺服務器就存在問題了,因為服務器數(shù)量變化導致原先數(shù)據(jù)定位不準,如下所示: 假設現(xiàn)在有大量的請求打進來,由于命中緩存服務上沒有數(shù)據(jù),請求都落到了資源服務器上,由于資源服務器瞬間壓力過大可能會導致服務崩潰。 hash隨著服務器的數(shù)量變化(增加或減少),定位服務上的緩存的數(shù)據(jù)位置也會變動,就會導致無法獲取數(shù)據(jù)的問題。為了解決這個問題便提出了一致性hash算法。 2、一致性hash和虛擬節(jié)點 一致性hash算法是對2^32方取模,從0-2^32方計數(shù)形成一個圓環(huán),我們稱這個圓環(huán)為hash環(huán)。 通過hash(服務器的ip) % 2^32 = X;通過這個X值可以定位服務器在圓環(huán)上的位置。 如何確定數(shù)據(jù)存放在哪個服務器上呢?如下圖所示: 如上的數(shù)據(jù)A,我們可以使用hash(數(shù)據(jù)A) % 2^32 = LA;通過LA可以定位數(shù)據(jù)A在圓環(huán)上的位置,然后順時針方便找距離數(shù)據(jù)A最近的服務器,發(fā)現(xiàn)是服務器A,那么我們將數(shù)據(jù)A存放到服務器A上。同理數(shù)據(jù)B也是存放在服務器上A上。 讀取數(shù)據(jù)也是同樣按照hash算法取模的方式來定位服務器,通過這樣的方式可以很快地定位數(shù)據(jù)在哪臺服務器上。如下所示: 假設現(xiàn)在服務器C下線了,如下所示: 此時數(shù)據(jù)A定位是沒有問題,數(shù)據(jù)C從原先的服務器C上定位到服務器A上,數(shù)據(jù)C是無法獲取到的。換句話講,雖然服務器C下線了,但是只是部分數(shù)據(jù)異常,不會使得整個服務集群數(shù)據(jù)錯亂,數(shù)據(jù)異常的部分如下所示: 假設現(xiàn)在增加了一臺機器D,那么也只會導致部分數(shù)據(jù)出現(xiàn)錯亂,如下圖所示: 此時我們只需要將錯亂的這一部分數(shù)據(jù)遷移到服務器D上可以實現(xiàn)數(shù)據(jù)的同步了。理想狀態(tài)下,一致性hash是很完美的,但是在極端的情況下由于離散型差的問題導致服務器都集中分布在一起,如下圖所示: 此時數(shù)據(jù)又剛好落在服務器C和服務器A之間的區(qū)域上,如下圖所示: 這樣就導致所有的數(shù)據(jù)壓力都到了服務器A上,服務器B和服務器C就是一個擺設了作用了。如果服務器A掛了,那么整個緩存就失效了,這個就是hash環(huán)的傾斜問題。為了解決hash環(huán)傾斜問題,于是便引入了虛擬節(jié)點,也就是把真實的服務器通過虛擬化的方式復制一些節(jié)點出來成為虛擬虛擬節(jié)點。如下圖所示: 通過虛擬節(jié)點的加入就不會導致所有的數(shù)據(jù)都到一臺機器中,同時虛擬節(jié)點越多,緩存數(shù)據(jù)越均勻。 總結(jié): (1)一致性hash常用于負載均衡、分布式緩存分區(qū)、數(shù)據(jù)庫分庫分表等場景。 (2)為防止服務器上的數(shù)據(jù)傾斜問題,通常增加虛擬節(jié)點的方式來讓數(shù)據(jù)更加均勻的分布在機器上。 該文章在 2024/7/22 9:30:22 編輯過 |
關鍵字查詢
相關文章
正在查詢... |