多圖詳解:如何不停服分庫分表
當前位置:點晴教程→知識管理交流
→『 技術文檔交流 』
1 理論知識1.1 分庫分表是否必要分庫分表確實可以解決單表數據量大這個問題,但是并非首選。因為分庫分表至少引入了三個必須解決的突出問題。 第一是分庫分表方案本身具有的復雜性。第二是本地事務失效問題,原本在同一個數據庫中可以保證強一致性業務邏輯,分庫之后事務失效。第三是難以聚合查詢問題,因為分庫分表后查詢條件中必須帶有shardingKey,所以限制了很多查詢場景。 在之前文章《面試官問單表數據量大是否必須分庫分表》介紹過解決單表數據量過大問題,可以按照刪、換、分、拆、異、熱這六個字順序進行處理,而不是首選分庫分表。 刪是指刪除歷史數據并進行歸檔。換是指不要只使用數據庫資源,有些數據可以存儲至其它替代資源。分是指讀寫分離,增加多個讀實例應對讀多寫少的互聯網場景。拆是指分庫分表,將數據分散至不同的庫表中減輕壓力。異指數據異構,將一份數據根據不同業務需求保存多份。熱是指熱點數據,這是一個非常值得注意的問題。 1.2 分庫分表兩大維度假設有一個電商數據庫存放訂單、商品、支付三張業務表。隨著業務量越來越大,這三張業務數據表也越來越大,查詢性能顯著降低,數據拆分勢在必行,那么數據拆分可以從縱向和橫向兩個維度進行。 1.2.1 縱向拆分縱向拆分就是按照業務拆分,我們將電商數據庫拆分成三個庫,訂單庫、商品庫。支付庫,訂單表在訂單庫,商品表在商品庫,支付表在支付庫。這樣每個庫只需要存儲本業務數據,物理隔離不會互相影響。 1.2.2 橫向拆分按照縱向拆分方案,現在我們已經有三個庫了,平穩運行了一段時間。但是隨著業務增長,每個單庫單表的數據量也越來越大,逐漸到達瓶頸。 這時我們就要對數據表進行橫向拆分,所謂橫向拆分就是根據某種規則將單庫單表數據分散到多庫多表,從而減小單庫單表的壓力。 橫向拆分策略有很多方案,最重要的一點是選好ShardingKey,也就是按照哪一列進行拆分,怎么分取決于我們訪問數據的方式。 (1) 范圍分片如果選擇的ShardingKey是訂單創建時間,那么分片策略是拆分四個數據庫,分別存儲每季度數據,每個庫包含三張表,分別存儲每個月數據: 這個方案的優點是對范圍查詢比較友好,例如我們需要統計第一季度的相關數據,查詢條件直接輸入時間范圍即可。這個方案的問題是容易產生熱點數據。例如雙11當天下單量特別大,就會導致11月這張表數據量特別大從而造成訪問壓力。 (2) 查表分片查表法是根據一張路由表決定ShardingKey路由到哪一張表,每次路由時首先到路由表里查到分片信息,再到這個分片去取數據。我們分析一個查表法思想應用實際案例。 Redis官方在3.0版本之后提供了集群方案RedisCluster,其中引入了哈希槽(slot)這個概念。一個集群固定有16384個槽,在集群初始化時這些槽會平均分配到Redis集群節點上。每個key請求最終落到哪個槽計算公式是固定的:
一個key請求過來怎么知道去哪臺Redis節點獲取數據?這就要用到查表法思想:
查表法方案優點是可以靈活制定路由策略,如果我們發現有的分片已經成為熱點則修改路由策略。缺點是多一次查詢路由表操作增加耗時,而且路由表如果是單點也可能會有單點問題。 (3) 哈希分片相較于范圍分片,哈希分片可以較為均勻將數據分散在數據庫中。我們現在將訂單庫拆分為4個庫編號為[0,3],每個庫包含3張表編號為[0,2],如下圖如所示: 我們選擇使用orderId作為ShardingKey,那么orderId=100這個訂單會保存在哪張表?因為是分庫分表,第一步確定路由到哪一個庫,取模計算結果表示庫表序號:
第二步確定路由到哪一張表:
第三步數據路由到0號庫1號表: 在實際開發中路由邏輯并不需要我們手動實現,因為有許多開源框架通過配置就可以實現路由功能,例如ShardingSphere、TDDL框架等等。 2 分庫分表準備工作2.1 計算庫表數量分幾個庫和幾張表是在分庫分表工作開始前必須要回答的問題,我們首先看看阿里巴巴開發手冊的建議:單表行數超過500萬行或者單表容量超過2GB才推薦進行分庫分表,如果預計3年后數據量根本達不到這個級別,請不要在創建表時就分庫分表。我們提取出這個建議的兩個關鍵詞:500萬、3年,作為預估庫表數的基線。假設業務數據日增量60萬,那么應該如何預估需要分多少個庫和多少張表呢? 日增量60萬計算3年后數據總量:
隨著后續業務發展日增量會超過60萬,所以我們要對數據總量進行冗余,冗余指數是多少根據業務情況而定,本文按照3倍冗余:
單表500萬并向上取整至2的冪次計算表數量:
所有表放在一個庫并不合適,因為隨著數據量增大,訪問并發量也會呈正相關增大,一個數據庫實例是難以支撐的。本文按照一個數據庫實例包含32張表計算庫數量:
2.2 shardingKey確定shardingKey非常關鍵,因為作為分片指標,當數據拆分至多個庫表之后,代理層只能根據shardingKey進行表路由。 假設我們設置了userId作為shardingKey,那么后續DML操作都必須包含userId字段。但是現在有一種場景只有orderId作為查詢條件,那么我們應該如何處理這種場景呢? 第一種方案是設計orderId包含userId相關特征,這樣即使只有訂單號作為查詢條件,也可以截取userId特征進行分片:
第二種方案是數據異構,核心思想是以空間換時間,一份數據根據不同維度存儲到多個數據介質,數據異構一般分為如下類型。 數據異構至MySQL:我們可以選擇orderId作為shardingKey存儲至另一個數據庫實例,那么orderId就可以作為條件進行查詢。 數據異構至ES:如果每一個維度都新建一個數據庫實例也是不現實的,所以我們可以將數據同步至ES滿足多維度查詢需求。 數據異構至Hive:MySQL和ES可以滿足實時查詢需求,Hive可以滿足離線分析需求,數據分析工作無需通過主庫,而是可以通過Hive進行。 現在又引出一個新問題,業務不可能每次都將數據寫入多個數據源,這樣會帶來性能和數據一致性問題,所以需要一個管道進行各數據源之間同步,阿里開源canal組件可以解決這個問題。 3 分庫分表實例在完成準備工作之后,我們可以開始分庫分表工作了。分庫分表方法有很多種,但是說到底都是在處理兩類數據:存量和增量。存量表示舊數據庫已經存在的數據,增量表示不存在于舊數據庫待新增或者變更的數據。根據存量和增量這兩種類型,我們可以將分庫分表方法分為停服拆分和不停服拆分。 3.1 停服拆分停服是指停止服務,系統不再接收新業務數據,那么舊數據在分庫分表這個時間段內是靜止不變的,數據全部變為了存量數據。停服拆分一般分為三個階段。 第一階段首先編寫代理層和新DAO,代理層通過動態開關決定訪問舊表還是新表,此時流量還是全部訪問舊表: 第二階段停止服務,整個應用都沒有流量,舊表數據已經處于靜止狀態,通過腳本將存量數據分頁從舊表遷移至新表: 第三階段通過代理層訪問新表: 3.2 不停服拆分停服拆分方案比較簡單,但是在分表這段時間沒有業務流量,對業務是有損的,所以我們一般采用不停服拆分方案,一邊有流量訪問,一邊進行分庫分表,此時數據不僅有存量還有增量,相對而言會復雜一些。 第一階段首先編寫代理層和新DAO,代理層通過動態開關決定訪問舊表還是新表,此時流量還是全部訪問舊表: 第二階段開啟雙寫,增量數據不僅在舊表新增和修改,也在新表新增和修改,日志或者臨時表記錄寫入新表ID起始值,舊表中小于這個值的數據就是存量數據: 第三階段進行存量數據同步,通過腳本將存量數據分頁寫入新表: 第四階段停讀舊表改讀新表,此時新表已經承載了所有讀寫業務,但是不要立刻停寫舊表,需要保持雙寫一段時間。 不停寫舊表有兩個原因:第一是因為如果讀新表出現問題,還可以將讀流量切回舊表。第二是因為可以進行數據校對,例如新表和舊表數據都同步至Hive,選取幾天的數據進行校對,從而驗證數據同步準確性。 第五階段當讀寫新表一段時間之后,沒有發生業務問題則可以停寫舊表: 3.3 代理層實現代理層實現了新舊數據源切換,需要盡量減少業務層代碼的侵入性,而適配器模式可以有效減少對業務層的侵入性。我們首先看看舊數據訪問對象和業務服務:
引入新數據源訪問對象:
適配器模式減少業務代碼侵入性:
4 文章總結分庫分表具有三個必須面對的突出問題:方案本身復雜性、本地事務失效問題、難以聚合查詢問題,所以分庫分表方案并非解決海量數據問題的首選方案,這一點非常值得注意。 如果必須分庫分表,我們首先進行容量預估并選擇合適的shardingKey,其次根據實際業務選擇停服或者不停服方案,如果選擇不停服方案,注意保持新表和舊表雙寫一段時間,從而驗證數據準確性,希望本文對大家有所幫助。 該文章在 2023/5/19 11:41:24 編輯過 |
相關文章
正在查詢... |