[點(diǎn)晴永久免費(fèi)OA]滴滴崩潰,損失幾個(gè)億的k8s 方案
起因從震驚吃瓜開(kāi)始從 2023 年 11 月 27 日晚上 10 點(diǎn)左右截止 2023 年 11 月 28 日中午 12 點(diǎn)期間,DD發(fā)生了長(zhǎng)達(dá)12小時(shí)的p0級(jí)bug,造成的影響大家通過(guò)各種平臺(tái)或者親身經(jīng)歷如何我就不多說(shuō)了,單說(shuō)對(duì)企業(yè)造成的損失超千萬(wàn)單和超4個(gè)億的交易額。我只想說(shuō)不愧是大企業(yè),這也太狠了 簡(jiǎn)單整理下崩潰原因DD自己在微博上說(shuō)的是底層系統(tǒng)軟件發(fā)生故障,身為底層開(kāi)發(fā)的我對(duì)此還是挺感興趣的,所以簡(jiǎn)單吃了下瓜,網(wǎng)傳是滴滴未正常升級(jí)k8s導(dǎo)致集群崩潰,且由于集群規(guī)模過(guò)大(相信這么大規(guī)模集群一定跑著相當(dāng)多的業(yè)務(wù))導(dǎo)致造成影響肯定很大 DD在微博的致歉中說(shuō)是底層系統(tǒng)軟件故障 網(wǎng)傳是因?yàn)樯?jí)導(dǎo)致的故障 恰巧DD技術(shù)在公眾號(hào)上曾經(jīng)發(fā)布過(guò)一篇# DD彈性云基于 K8S 的調(diào)度實(shí)踐文章,文章里介紹了他們選擇的升級(jí)方案,以及如此選擇升級(jí)方案的原因 DD的升級(jí)方案 dd 不愧是大廠,還有這么老版本的k8s集群,估計(jì)是很早就開(kāi)始引入k8s集群了。通用的解決方案首先兩種方案的對(duì)比,DD已經(jīng)在他們的技術(shù)文章中給明了優(yōu)缺點(diǎn),身為一個(gè)菜鳥(niǎo)我估計(jì)是不適合評(píng)論別人的方案,所以我只從我實(shí)際工作中遇到類似的問(wèn)題是如何解決的, 問(wèn)題一 集群規(guī)模過(guò)大 kubernetes 官方推薦了5000個(gè)node 上限,雖然并不代表超出上限一定會(huì)出問(wèn)題,但是此次事故明顯告訴我們超出上限的集群一旦發(fā)生事故有多可怕了 通用的方案 實(shí)際生產(chǎn)環(huán)境當(dāng)集群規(guī)模達(dá)到上限我們一般是怎么處理的呢,很簡(jiǎn)單——聯(lián)邦集群,讓多個(gè)集群打通成聯(lián)邦集群,網(wǎng)絡(luò)和k8s資源互通,提高了業(yè)務(wù)容納的上限,同時(shí)將風(fēng)險(xiǎn)分?jǐn)偨o多個(gè)集群。增加了些許運(yùn)維壓力,但是明顯要比瘋狂給單個(gè)集群加節(jié)點(diǎn)要安全多了 問(wèn)題二 如何選擇升級(jí)方案 目前我遇到的大規(guī)模集群,基本上都是像dd 這樣選擇晚上的窗口期升級(jí)的,這點(diǎn)倒是沒(méi)什么可說(shuō)的,但是很少有直接原地升級(jí)的,基本上都是有備份升級(jí)的,流量也不會(huì)直接全部涌入升級(jí)后的集群的,要經(jīng)過(guò)逐步驗(yàn)證才會(huì)切換到新集群的,原地升級(jí)我只能說(shuō)是藝高人膽大了。 通用的方案 從dd 的技術(shù)博文上能猜出來(lái),原地升級(jí)的方案肯定是經(jīng)過(guò)他們內(nèi)部驗(yàn)證了,最起碼短期內(nèi)是沒(méi)出問(wèn)題,才敢拿到生產(chǎn)集群上實(shí)踐,但是很抱歉生產(chǎn)集群的扛風(fēng)險(xiǎn)能力還是太小了,所以還是建議老老實(shí)實(shí)選擇替換升級(jí)的方案吧 問(wèn)題三多控制節(jié)點(diǎn) 最后一點(diǎn)就是網(wǎng)傳的控制節(jié)點(diǎn)崩潰的問(wèn)題,我覺(jué)得這太離譜了,這種大廠應(yīng)該知道多master 節(jié)點(diǎn),以及master 不在同一機(jī)房的問(wèn)題吧,不說(shuō)多數(shù)據(jù)中心方案,基本的災(zāi)備思想還是要有的吧 胡言亂語(yǔ)最近好像很多大廠的產(chǎn)品崩潰,先是阿里后是滴滴,加上最近的裁員潮,網(wǎng)上流出了很多笑話最知名的莫過(guò) 最后希望各位程序員技術(shù)越來(lái)越穩(wěn),默默奉獻(xiàn)的同時(shí)也能有自己的收獲 作者:萌萌醬 鏈接:https://juejin.cn/post/7306832876381437991 來(lái)源:稀土掘金 著作權(quán)歸作者所有。商業(yè)轉(zhuǎn)載請(qǐng)聯(lián)系作者獲得授權(quán),非商業(yè)轉(zhuǎn)載請(qǐng)注明出處。 該文章在 2023/12/2 10:21:55 編輯過(guò) |
關(guān)鍵字查詢
相關(guān)文章
正在查詢... |