亚洲精品中文免费|亚洲日韩中文字幕制服|久久精品亚洲免费|一本之道久久免费

<dl id="hur0q"><div id="hur0q"></div></dl>

<dl id="v02l7"><address id="v02l7"><legend id="v02l7"></legend></address></dl>

<ruby id="v02l7"><cite id="v02l7"></cite></ruby><delect id="v02l7"><blockquote id="v02l7"><th id="v02l7"></th></blockquote></delect>

百億數據分庫分表核心流程詳解

用戶投稿 ? 2022年6月18日 15:05 ? 社會

前言

俗話說：面試造火箭，入職擰螺絲。盡管99.99%的業(yè)務都不需要用到分庫分表，但是分庫分表還是頻繁出現在大廠的面試中。

分庫分表涉及到的內容非常多，有很多細節(jié)，如果在面試中被問到了，既是挑戰(zhàn)，也是機會，如果你能回答好的話，會給你的面試加很多分。

由于業(yè)務量的關系，絕大部分同學都很難有實際分庫分表的機會，因此很多同學在碰到這個問題時很容易懵逼。

因此今天跟大家分享一下分庫分表的相關知識，本文內容源于實際高并發(fā)+海量數據業(yè)務下的實戰(zhàn)和個人的思考總結。

什么是分庫分表

分表

分表指的是在數據庫數量不變的情況下，對數據庫里面的表進行拆分。

例如我們將SPU表從一張拆成四張。

分庫

分庫指的是在表數量不變的情況下對數據庫進行拆分。

例如我們本來有一個庫里面放了兩張表，一張是SPU表，一張是SKU表。我們將這兩張表拆到兩個不同的庫里面去。

分庫分表

也就是數據庫的數量，還有表的數量都發(fā)生變更。

例如我們有一個數據庫里面本來有一張SPU表。我們將這個SPU表拆成四張表，并且放在兩個數據庫里面。

拆分方式

當前主要的拆分方式有兩種：水平拆分和垂直拆分。

水平拆分就是從左往右橫著切，垂直拆分就是從上往下豎著切。當然具體切幾刀，這個要看具體的業(yè)務需求。

水平拆分

水平拆分指的是在整個表數據結構不發(fā)生變更的情況下，將一張表的數據拆分成多張表。因為當單張表的數據量越來越大時，這張表的查詢跟寫入性能也會相應的變得越來越慢。

因此這個時候我們可以將單張表拆分成多張表，從而讓每張表的數據量都變小，從而可以提供更好的讀寫性能。

垂直拆分

垂直拆分指的是將本來放在一張表的字段拆分到多張表中。

例如在這個例子中，我們將pic這個字段單獨拆分出來，然后剩下的三個字段還保留在原表里面。

這種場景主要是因為在業(yè)務的初期，為了業(yè)務的快速發(fā)展，我們將商品的所有字段都放在一張表里面。但是隨著后面的業(yè)務的發(fā)展，我們發(fā)現這個pic字段可能變得越來越大，從而影響到我們商品的基本信息的查詢性能。因此這個時候我們可以將這個pic字段單獨拆分出去。

當然這個pic字段拆分出去之后，它應該要存儲這個原來這個商品的這個id。

為什么需要分庫分表

因為單臺MySQL服務器的硬件資源是有限的，隨著業(yè)務的不斷發(fā)展，請求量和數據量會不斷增加，數據庫的壓力會越來越大，到了某一時刻，數據庫的讀寫性能可能會開始下降，這個時候數據庫就成為請求鏈路中的瓶頸。

此時可能就需要我們去對數據庫進行優(yōu)化，業(yè)務初期我們可能會使用增加索引、優(yōu)化索引、讀寫分離、增加從庫等手段來進行優(yōu)化，但是隨著數據量的不斷增大，這些優(yōu)化手段的效果會變得越來越小，此時可能就需要使用分庫分表來進行優(yōu)化，對數據進行切分，將單庫和單表的數據量控制在合理的范圍內，以保證數據庫可以提供高效的讀寫能力。

何時需要分庫分表

總體來說：當性能出現瓶頸，并且其他優(yōu)化手段無法很好的解決的時候。

我們這邊必須首先明確分庫分表一般是作為最終的解決手段，我們會優(yōu)先使用其他的方法來進行優(yōu)化。常見的優(yōu)化手段有增加索引、優(yōu)化索引、讀寫分離、增加數據庫的從庫等等。當我們使用這些手段都無法解決的時候，就需要來考慮分庫分表。

單表出現瓶頸：

單表數據量較大，導致讀寫性能較慢。

單庫出現瓶頸：

CPU壓力過大（busy、load過高），導致讀寫性能較慢。
內存不足（緩存池命中率較低、磁盤讀寫IOPS過高），導致讀寫性能較慢。
磁盤空間不足，導致無法正常寫入數據。
網絡帶寬不足，導致讀寫性能較慢。

單表超過千萬級，就需要進行分庫分表？

這種說法不完全準確。因為有的表它本身的結構比較簡單，字段也比較少。這種表可能即使數據量已經超過了億級，整體的讀寫性能也是比較高的。而有的表如果整體的結構比較復雜，字段本身也比較大，可能只是百萬級，整體的性能已經比較慢了。所以這個還是得結合自己的業(yè)務情況來進行分析。這個千萬級只能是作為一個參考。

如何選擇分庫分表

只分表：

單表數據量較大，單表讀寫性能出現瓶頸。
經過評估單庫的容量和性能可以支撐未來幾年的增長。

只分庫：

數據庫（讀）寫壓力較大，數據庫出現存儲性能瓶頸。

分庫分表：

單表數據量較大，單表讀寫性能出現瓶頸。
數據庫（讀）寫壓力較大，數據庫出現存儲性能瓶頸。

注意點：

我們在進行選擇的時候，必須以未來三到五年的業(yè)務發(fā)展情況去進行評估。不能只是以當前的數據量和業(yè)務量來進行評估。否則可能就會出現頻繁的進行分庫分表的情況。因為分庫分表整體的代價是比較大的。所以我們最好是進行充分的評估，保證最少可以支撐未來三到五年的業(yè)務增長。

小結

當數據庫出現了讀寫性能瓶頸的時候，我們優(yōu)先使用一些比較常規(guī)的優(yōu)化手段來進行解決。例如比較常見的有：增加索引、優(yōu)化索引、讀寫分離、增加從庫等方式。

如果使用這些常規(guī)的手段也無法解決的時候啊，我們才會去考慮用分庫分表來進行解決。

在使用分庫分表的時候，必須充分考慮業(yè)務未來的整體發(fā)展。至少做到這次分庫分表之后，未來的三到五年內不需要再進行分庫分表。

拆分完整流程概覽

1、評估是否需要拆分。主要就是評估是否有其他更輕量的優(yōu)化手段可以解決問題，從而可以避免進行分庫分表。

2、拆分詳細技術方案設計。最核心的內容是拆分SOP，也是我們今天后續(xù)要詳細講的內容。

3、技術方案評審優(yōu)化。分庫分表的整體改動比較大，需要讓大家一起評估下方案是否有問題，或者是否存在可以優(yōu)化的地方。

4、同步相關影響方。拆分可能需要一些下游配合改造，需要提前周知他們。

5、正式進入拆分。

接下來我們來看一下拆分的SOP。

拆分SOP（核心）

1、目標評估。

我們首先要評估本次拆分需要拆成幾個庫和幾個表，這個主要取決于我們的拆分目標，例如：讀寫能力要提升到現在的X倍、負載降低Y%、容量要支撐未來的Z年發(fā)展等等。

在大多數情況下，我們可以將單表的行數作為一個重要參考指標，例如將單表控制在千萬級以下。特殊情況下如果你要拆分的表單行數據很大，例如字段很多或者某字段很大，這種情況你需要結合實際的性能表現去評估一個合理的值。

一個例子：當前數據20億，5年后評估為100億。分幾個表？分幾個庫？

解答：一個合理的答案，1024個表，16個庫。按1024個表算，拆分完單表200萬，5年后為1000萬。

2、切分策略

當前主流的方案有3種：范圍切分、中間表映射、hash切分。

范圍切分

范圍切分是指按某個字段的區(qū)間來進行切分。例如每個表放1000萬數據，id從0~1000萬的放在第一個表，1000萬~2000萬放在第2個表，依次類推。

優(yōu)點：后續(xù)擴容很方便，無需進行遷移數據，甚至可以將后續(xù)的表擴容、數據庫擴庫全部做到自動化。

缺點：存在明顯的寫偏移，寫流量其實是全部集中在最新的表上。因此范圍切分并沒有起到將寫流量均勻分攤到各個庫各個表的效果，同時讀流量可能也會存在偏移，因為一般來說，最近增加的數據被查詢的概率通常會更大一點。

中間表映射

中間表映射是將分表鍵和數據庫的映射關系記錄在一個單獨的表中，每次路由前先查詢該表，得到具體路由的數據庫，然后進行操作。

優(yōu)點：很靈活，可以隨意設置路由規(guī)則。

缺點：引入了額外的單點，增加了復雜度，這個映射表可能也會很大，并且其查詢QPS會非常高，怎么保障高性能和高可用會是一個新的問題。

Hash切分

通過對分表鍵進行一定的運算（通常是取模），從而決定路由到哪個庫哪個表。

優(yōu)點：數據分片比較均勻，讀寫也會比較均勻的分攤到各個庫和各個表。

缺點：可能存在跨節(jié)點查詢和分頁等問題。

小結

目前大多數互聯(lián)網服務主要使用的是hash切分。

范圍切分存在寫流量集中在單表的問題，這個會有嚴重的寫性能問題，特別是隨著業(yè)務的發(fā)展，寫流量的QPS會越來越高，這個會成為一個嚴重的瓶頸，目前看這個方案可能更適合一些歸檔類的功能。

中間表映射的方案則是太復雜了，如果你的映射數據太多的話，甚至有可能這個映射表也需要進行分庫分表，那就進入惡性循環(huán)了。

不過，雖然中間表映射雖然有一些問題，但是我覺得可能在一些特殊的場景下可以使用，例如大商家問題。如果有少量商家的數據量特別大，導致出現偏移，一種思路是將這些商家的數據使用單獨的表存放，這部分大商家通過中間表映射路由，其他的商家還是走hash路由。當然，這只是一個簡單的思考，沒有經過嚴格的驗證。

3、選擇分表字段

在單庫單表的時候，全部數據都放在一張表中，因此我們可以隨意的進行 join 操作和分頁操作，但是如果進行了分庫分表，數據會分到不同的數據庫和數據表上，可能導致原本進行分頁的數據分到了不同的數據庫中，從而導致跨庫查詢等問題。而分表字段就是決定數據如何劃分的關鍵因素，通過合理的選擇分表字段，我們可以將原本需要進行分頁的數據劃分到同一張表上，從而避免跨庫查詢的問題。

例子：以美團外賣的商品數據為例，我們可以思考下主要有哪些查詢商品的場景。

第一個是用戶視角，我們在點外賣時需要查詢商品，但是我們在點外賣時會首先進入到商家頁面，所以這個地方有商家id字段。

第二個是商家視角，商家在后臺管理自己的商品，這個地方也有商家id字段。

因此在美團外賣商品數據的這個例子中，商家id字段作為分表鍵就是一個比較合理的選擇，因為他覆蓋了最高頻的幾個使用場景。

一個例子：10個庫，1000張表：0~99、100~199、200~299、…

分表字段：shopId，值為1234

數據表編號：shopId % 1000 = 1234 % 1000 = 234

數據庫編號：shopId % 1000 / 10 = 1234 % 1000 / 10 = 2

4、資源準備和代碼改造

新集群的所需數據庫資源可以盡早跟DBA申請，特別是拆分集群比較多的情況，一方面是因為DBA搭建新集群需要花一定的時間，另一方面是避免出現資源不足導致延期的情況。

至于代碼的改造，主要會涉及到幾個部分：

將新集群的數據源引入到我們的服務中
支持靈活的灰度讀寫操作
第三是數據全量遷移、一致性校驗等任務

因為整個分庫分表過程是不停機，并且無損的拆分，因此拆分過程中新老數據源會同時存在一段時間，在這段灰度期間，我們會通過配置中心和相關規(guī)則去靈活的控制究竟是寫新庫、寫老庫，還是雙寫，讀操作也類似。

5、增量數據同步（雙寫）

雙寫是為了保證增量數據在新庫和老庫都存在。

寫新庫是因為我們后續(xù)準備切換到新庫，因此新庫必須要有全部的數據。

寫老庫是因為我們不確定拆分過程中是否存在問題，通過寫老保證了老庫有全部的數據，這樣萬一新流程有問題的時候，我們可以即使切回老庫的流程。從而保障了服務的可用性和穩(wěn)定性。

常見方案：

同步雙寫，在所有寫數據庫的地方進行修改，修改成寫兩份數據。當然，這個地方一般不會去修改全部的寫邏輯，而是在底層使用AOP來實現。
異步雙寫：寫老庫，監(jiān)聽binlog異步同步到新庫
中間件同步工具：通過一定的規(guī)則將數據同步到目標庫表

異步雙寫和中間件工具同步兩者本質上類似，都是通過binlog的方式將數據寫入到新庫。只不過一個是你自己做，一個是中間件團隊幫你做。

這幾種方式一般來說不會差別太大，同步雙寫的寫入延遲可能會稍微小一點。

6、全量數據遷移

光有增量數據同步還沒法保證新庫有全部的數據，我們還需要將以前的老數據全部遷移到新庫中。通過增量同步+全量遷移，我們才能保證新庫有完整的數據。

常見方案：

自己開發(fā)一個任務將老庫數據遷移到新庫。
使用中間件同步工具，將老庫數據同步到新庫。如果中間件有現成工具支持的話，一般建議好接使用現成的工具，這樣自己就不用再花時間去額外開發(fā)了。

注意點：

控制好同步速率
增量同步和全量遷移會同時進行，因此可能會存在并發(fā)寫同一條數據，從而可能導致一些數據不一致的問題。

7、數據校驗、優(yōu)化和補償

在全量數據遷移完畢，增量同步也正常運行后，并不能直接將流量切到新庫。因為可能存在很多情況，導致新庫和老庫的數據可能沒法完全一致。

例如：我們的改造存在遺漏的地方，或者說并發(fā)修改導致數據問題，等等。因此，我們需要進行新老庫的數據校驗和補償，直到新老庫的數據一致了，才能進行流量切換。

方案：

增量數據校驗
全量數據校驗
人工抽檢

核心流程：

讀取老庫數據
讀取新庫數據
比較新老庫數據，一致則繼續(xù)比較下一條數據
不一致則進行補償：

新庫存在，老庫不存在：新庫刪除數據
新庫不存在，老庫存在：新庫插入數據
新庫存在、老庫存在：比較所有字段，不一致則將新庫更新為老庫數據

注意點：

數據校驗是整個流程中最重要，通常也是花時間最多的一步。一方面是在并發(fā)下會出現很多種不一致的場景，另外是因為這一步是切讀之前的最后一個保障，因此我們必須再三確認數據是正確的。否則，切讀后可能就會導致一些線上問題。

8、灰度切讀

在數據一致性校驗通過后，我們開始將部分讀流量切換到新數據庫。

這一步必須遵循以下幾個原則：

必須支持靈活的切換，有問題可以及時切回老庫。
支持靈活的灰度規(guī)則，灰度早期我們會先拿少量門店進行灰度，觀察一段時間，如果沒問題再繼續(xù)增加灰度門店。依此類推，然后到后面開始逐步使用比例來進行灰度，直到最終我們將全部流量都切到新的數據庫上。
灰度放量先慢后快，每次放量觀察一段時間

9、binlog 切新庫

在讀流量全部切換到新庫后，此時新流程已經驗證通過，我們開始為停寫老庫做準備，首先就是將監(jiān)聽的 binlog 從老庫切換到新庫。

核心流程：

啟動新庫的 binlog，此時下游會同時收到新老庫的 binlog
觀察一段時間是否正常
如果不正在，則將新庫的 binlog 關閉，排查修復問題
如果一切正常，則將老庫的 binlog 關閉，此時監(jiān)聽的 binlog 切換到新庫

注意點：

監(jiān)聽 binlog 的流程我們一般會收斂在團隊內部，如果外部團隊想監(jiān)聽 binlog，一般會使用我們封裝過的消息，這樣在改造時，對外部團隊就基本沒有影響，我們改造起來也比較方便。

10、下游切換數據源

目前來看，除了 binlog 之外，主要的下游是數倉。數倉會將商品數據定期同步到 hive 上，用于進行數據的相關工作，因此需要讓數倉同學將數據源切換到新數據源。

數倉一般是定期同步數據，例如一天同步一次全量數據，對實時性要求不高，因此只需在指定時間內切換即可。

11、停寫老庫

在我們確認老庫數據源的所有依賴都切換和下線后，停寫老庫，此時讀寫流程全部切換到新數據源。至此，整個拆分流程基本結束。

完整SOP

最后我們通過一張流程圖來回顧下整個拆分流程，整個流程主要包含5個階段。

第一階段：拆分前的相關準備，包含了拆分的目標評估、切分策略和分表字段的選擇，還有數據庫相關資源的準備。

第二階段：代碼改造，主要是將新數據源引入到服務中，同時支持靈活的灰度讀寫。

第三階段：數據遷移，包含了全量和增量數據遷移，還有數據一致性的校驗和修復。

第四階段：流量遷移，主要是將數據庫的讀寫流量按灰度規(guī)則逐步切換到新庫。

第五階段：停寫老庫，當讀寫流量全部遷移到新庫，老庫的相關依賴都全部下線后，停寫老庫并釋放相關資源。

相關工具

1、binlog監(jiān)聽工具

Databus
Canal

關于binlog

binlog是一個二進制文件，用于記錄數據庫表結構和表記錄的變更。簡單點說，就是通過 binlog 文件你可以知道數據庫中究竟哪些數據發(fā)生了變更，從什么變成了什么。

而binlog監(jiān)聽工具主要就是用于監(jiān)聽MySQL產生的binlog，然后進行解析，解析成我們比較容易懂的格式，最后通過一定的手段發(fā)送到下游，例如比較常見的方式是消息隊列。

在分庫分表中就可以通過binlog監(jiān)聽工具來將老庫的數據變更實時同步到新庫中，以保證新老庫的數據一致。

2、分庫分表工具

目前主要有兩種，一種是增強版JDBC驅動，另一種是數據庫代理。

1）增強版JDBC驅動

以客戶端 jar 包形式提供了對 JDBC 的封裝，客戶端直連數據庫

開源：Sharding-JDBC、TDDL、Zebra

2）數據庫代理

需要單獨部署，客戶端連接代理服務，代理服務負責跟數據庫打交道。

開源：Sharding-Proxy、MyCat

兩種方案的核心思想都是類似的，就是他們負責將分庫分表的邏輯進行抽象封裝，做到讓分庫分表對使用方無感知，使用方只需按照制定的規(guī)則進行簡單的配置和開發(fā)，就可以像沒有分庫分表一樣正常的使用分庫分表規(guī)則了。

兩者的主要區(qū)別在于使用增強版JDBC驅動只需要依賴一個jar包，此時應用服務還是直連數據庫的。

而數據庫代理則需要額外部署一個單獨的代理服務，應用服務從之前的直連數據庫，變成調用代理服務，由代理服務來負責跟數據庫打交道。

目前使用的比較廣泛的是增強版JDBC驅動，一方面是增強版JDBC驅動比較輕量，另外是性能也會比較好。

分庫分表問題

在我們使用分庫分表之后，系統(tǒng)的性能和容量都會有很大的提升，但是也會隨之帶來一些問題。我們一起來看一下有哪些問題，當前的主流方案是如何解決的。

1、分布式唯一ID

在單庫單表情況下，我們使用表的自增ID就可以保證ID的唯一性，但是分庫分表后，一張表被拆成了多張表，此時自增ID就沒辦法保證唯一性了。因此，需要引入一種方案來保證ID的唯一性。

目前主流的方案有3種：UUID、雪花算法、號段模式。

UUID

UUID相信大家都不陌生，UUID是JDK中自帶的一個工具類。什么都不需要引入就可以直接使用了，同時因為是本地生成的，性能也非常好。

但是UUID并不適合拿來做MySQl數據庫的主鍵，MySQL的主鍵一般推薦使用單調遞增的數字，這個因為MySQL主鍵使用的是聚簇索引，會把相鄰主鍵的數據放在相鄰的物理存儲位置上。

當MySQL的主鍵是單調遞增時，每次只需要簡單的將數據追加到索引的最后面即可，類似于順序寫磁盤。而如果MySQL的主鍵是無序的，則可能需要將數據插入到之前已有的數據中間。如果這個插入位置所在的數據頁不在內存中，則需要先從磁盤讀取到內存中，這會導致產生磁盤的隨機IO。同時，如果該數據頁的空間不足，則可能會產生頁分裂，導致需要移動大量數據。

最后就是，MySQL的普通索引需要存儲主鍵索引值，如果主鍵值更占用空間了，會導致普通索引的B+樹層高變高，磁盤IO次數變多，最終導致性能變慢。

雪花算法

雪花算法的核心思想是通過一定的規(guī)則生成一個64位的long類型數字。除了最高位的1位不用之外，其他63位由三部分組成。分別是41位用于存儲時間戳，10位用于存儲機器ID，12位用于存儲序列號。

簡單來說就是支持部署1024臺服務器，同時每臺服務器1毫秒最多可以生成4096個ID，也就是每秒可以生成四百零九萬個，并且可以使用69年。

這個量級應該基本可以滿足任何業(yè)務了，當然在實際使用過程中，這三部分的位數可以結合自己的場景去進行修改。

號段模式

在講號段模式之前，我們先介紹下數據庫生成的方式。

數據庫生成指的是使用一個額外表的自增ID來作為分布式ID，因為ID都是由同一張表自增生成，所以可以保證全局唯一性。但是這種方案有個嚴重的問題，每次使用分布式唯一ID都需要來讀寫這張表。一旦并發(fā)量比較大，數據庫會有嚴重的性能問題。

號段模式就是在此基礎上進行了優(yōu)化，之前是每次獲取分布式ID都需要讀寫數據庫，號段模式優(yōu)化成批量的方式，每次讀寫數據庫時獲取一批ID，例如每次獲取1000個，將這1000個ID放在本地緩存中，1000個用完之后再來申請下一批，從而大大降低數據庫的讀寫壓力。

小結

這三種方案中，目前應用的比較廣泛的是雪花算法和號段模式，美團開源的分布式ID生成組件 Leaf 就是提供了這兩種方案，如果大家對底層細節(jié)感興趣的話，可以去自己下載源碼來看。

最后需要說一下的是，對于訂單ID這種比較特殊的字段來說，一般可能不會直接使用上述的方案，而是會按照一定的規(guī)則去生成。同時可能會攜帶一些業(yè)務字段，例如用戶ID和商家ID。

2、分布式事務

在分庫分表之前，全部的表都在同一個庫里，我們可以使用本地事務來保障數據的正確性。引入了分庫分表之后，數據庫表被分到不同的數據庫中，此時就沒辦法使用本地事務了，因此就需要引入分布式事務來保障數據的正確性，我們來看一下當前有哪些常見的分布式事務。

2PC

兩階段提交，核心思想是將事務操作分為兩個階段。

第一階段：協(xié)調者首先詢問所有的事務參與者是否可以執(zhí)行事務提交操作。

第二階段：協(xié)調者根據所有參與者的返回結果決定是否提交事務，如果全部的參與者都返回成功，則協(xié)調者向所有參與者發(fā)送事務提交請求。否則，協(xié)調者向所有參與者發(fā)送事務中斷回滾請求。

兩階段提交是目前比較出名也是用的相對比較多的分布式事務，優(yōu)點是整體流程比較簡單，缺點是存在同步阻塞、協(xié)調者單點等問題。

TCC

核心思想是針對每個操作都有一個對應的確認和取消操作。

TCC中有主服務和從服務兩個角色，例如在下單的流程中，首先會走到交易服務，然后交易服務分別請求定訂單服務和庫存服務進行訂單創(chuàng)建和庫存扣減，此時交易服務就是主服務，而訂單服務和庫存服務為從服務。

TCC的核心流程如下：

首先，主服務調用所有從服務的try接口，進行業(yè)務檢查和資源預留。

接著，主服務根據所有從服務的返回結果決定是否提交事務，如果所有從服務都返回成功，則調用所有從服務的confirm接口執(zhí)行事務確認提交操作。否則，調用所有從服務的cancel接口執(zhí)行事務取消，并釋放預留資源。

估計大家應該發(fā)現了，TCC其實跟兩階段提交非常像。其實很多分布式事務的思想都是很類似的，核心都是先詢問，然后提交。這兩者的主要區(qū)別在于TCC是應用層的處理，而兩階段提交是數據庫層面的處理。

這兩種分布式事務應該是目前分布式事務中比較出名的了，其他的分布式事務還有三階段提交、本地消息表、事務消息等等，這邊不做過多的介紹，有興趣的可以自己查閱資料。

高并發(fā)業(yè)務實際使用

首先說一下結論：在實際的高并發(fā)業(yè)務中一般都不會使用強一致性的分布式事務，金融場景是個特例，因為涉及到太多錢了，所以可能會用強一致性的分布式事務。

更多的是通過各種各樣的手段來保證最終的一致性，常見的手段有：回滾、重試、監(jiān)控、告警、冪等、對賬等等，終極手段就是人工補償。

我之前在某篇文章中說過：每個看著光鮮亮麗的系統(tǒng)背后可能都有一堆苦逼的程序員在默默的修數據，這個不是開玩笑的。

例子：

以外賣下單為例，整個用戶下單流程會涉及到很多步驟，最核心的包括：創(chuàng)建訂單、扣減商品庫存、核銷優(yōu)惠券、核銷會員紅包等等，如果其中有一步失敗，則會導致整個下單流程失敗，需要將其他的流程都進行回滾，以保證不會產生資損，否則有可能出現用戶下單失敗，但是會員紅包卻被扣掉等情況。

為了避免網絡抖動等情況導致回滾失敗，一般都會有回滾重試流程，但是重試一般會有次數上限，因為如果重試多次還是失敗，則可能是其他問題，例如代碼BUG，這種情況再怎么重試也沒用。因此在重試達到上限后，如果還是回滾失敗，則需要發(fā)送告警，人為介入排查，然后人工修復這些數據。

而對于這些訂單的下游服務來說，例如庫存、優(yōu)惠券等等，就需要做好接口的冪等，如果沒做好冪等，可能會導致數據出現重復回滾，造成數據錯誤和資損。

當然，從廣義上來說，保證最終一致性，也是屬于分布式事務的一種。

為什么不直接使用強一致性事務？

個人覺得主要有以下幾個原因：

會帶來嚴重的性能損耗，導致下單流程的耗時增加，最終導致服務吞吐量下降、用戶下單體驗變差。
會引入額外的復雜度，開發(fā)和維護成本較高。
實際業(yè)務中，由于部分成功導致數據不一致的場景，發(fā)生的概率比較低。

總結來說就是一個取舍的問題，目前大部分業(yè)務場景，使用強一致性分布式事務的ROI不夠高，因此一般不會選擇強一致性事務，而是選擇柔性事務，保障事務的最終一致性。

3、跨庫JOIN/分頁查詢問題

在單庫單表的時候，全部數據都放在一張表中，因此我們可以隨意的進行 join 和分頁操作，但是如果進行了分庫分表，數據會分到不同的數據庫和數據表上，可能導致原本進行分頁的數據分到了不同的數據庫中，從而導致跨庫查詢問題。

目前業(yè)界主流解決方案有以下幾種。

1）選擇合適的分表字段

這個在上文已經詳細解釋過了?？偨Y來說就是，分表字段的選擇，要能保證絕大部分高頻查詢場景，不會出現跨庫的問題。在實際業(yè)務中，分表字段選擇合理的話，基本可以避免95%，甚至99%以上的跨庫查詢問題，從而將問題的難度大大降低了。

2）使用搜索引擎支持，例如ES

我們可以將全量數據冗余一份到ES中，當出現分表字段支持不了的跨庫查詢時，可以使用ES來支持。除此之外，ES也會用于支持一些復雜搜索查詢請求。

使用ES需要注意的是：

ES只存儲需要進行搜索的字段，查詢完ES后再根據關鍵字段去數據庫查詢完整的數據，這樣是為了控制ES的大小，否則ES會容易過大，導致性能和存儲問題。
ES只用于支持數據庫難以支持的查詢，就如上面說的跨庫查詢、復雜搜索查詢，這種復雜的查詢一般不會太多，因此可以保障ES的整體壓力不會太大。

3）分開查詢，內存中聚合

這個方案跟使用join其實大同小異。區(qū)別在于，join是數據庫來做這個聚合操作，分開查詢是應用層面來做聚合操作。

即使不分庫分表，當表的數據量比較大時，通常也是建議不要在數據庫中使用join操作，而是分開查詢，然后在應用層內存中聚合。

這是因為數據庫資源相對應用服務器來說會更寶貴，通常也更容易成為鏈路中的瓶頸，因此盡量不要讓其做復雜的查詢，避免占用過多的數據庫資源。

注意點：

查詢出來的數據量
占用內存情況

4）冗余字段

如果每次join操作只是為了獲取少量的字段，那么可以考慮直接將這些字段冗余到表上。

小結

這幾種方案在實際工作中都挺常使用的，一般看具體的業(yè)務場景選擇合適的方案即可。

原文出自公眾號：程序員囧輝

原文鏈接：https://mp.weixin.qq.com/s/X7ciEPZWLzgg_fnsCsr6wg

鄭重聲明：本文內容及圖片均整理自互聯(lián)網，不代表本站立場，版權歸原作者所有，如有侵權請聯(lián)系管理員(admin#wlmqw.com)刪除。

業(yè)務事務分布式切分字段性能數據數據庫核心流程表字詳解

自研5G麒麟芯片華為鴻蒙3.0現貨手機盤點

上一篇 2022年6月18日 15:04

苦等三年，第四大通信運營商來了！網友：5G資費會降嗎？

下一篇 2022年6月18日 15:05

客服的崗位職責怎么寫(客服工作內容及職責)
各位小伙伴們大家周一好，又到了每周一給大家分享干貨內容的時候啦~ 本期來跟大家分享一下客服工作管理流程以及客服崗位里面的每項職能崗位的核心細則，也是干貨滿滿推薦收藏~ 一.補償流程…
2022年11月25日
0
什么是推廣cpa一篇文章帶你看懂CPA推廣渠道
CPA渠道 CPA指的是按照指定的行為結算，可以是搜索，可以是注冊，可以是激活，可以是搜索下載激活，可以是綁卡，實名認證，可以是付費，可以是瀏覽等等。甲乙雙方可以根據自己的情況來定…
2022年11月25日
0
抖音直播帶貨有哪些方法技巧(抖音直播帶貨有哪些痛點)
如今抖音這個短視頻的變現能力越來越突顯了，尤其是在平臺上開通直播，更具有超強的帶貨屬性，已經有越來越多的普通人加入到其中了。不過直播帶貨雖然很火，但是也不是每個人都能做好的，那么在…
2022年11月24日
0
OPPO Reno9 Pro+硬件規(guī)格強搭載驍龍8+旗艦處理器
OPPO Reno9系列正式發(fā)布，Reno9 Pro+作為三款新機中定位最高的超大杯機型，整體配置較上一代有著大幅度的升級，如果單看硬件配置的話，Reno9 Pro+甚至是目前OP…
2022年11月24日
0
《原神》3.2無相交響詩第一天無相之冰怎么打？無相交響詩攻略
原神3.2無相交響詩第一天無相之冰怎么打？最近新版本3.2版本的無相交響詩活動又開啟了，不少玩家還不清楚具體的玩法，下面一起來看一下原神被隱去的原神3.2無相交響詩第一天無相之冰打…
2022年11月24日
0
英皇文化產業(yè)：結束全部7間英皇UA電影城經營
11月21日，英皇文化產業(yè)發(fā)布公告，英皇娛藝影院（廣東）有限公司（“中國附屬公司”）為英皇UA的全資附屬營運公司。董事會謹此知會公司股東，于2022年11月21日，英皇UA（作為…
2022年11月24日
0
重大突破！水電機組核心控制系統(tǒng)首次實現全國產化
今天（24日），由我國企業(yè)自主研發(fā)的新一代繼電保護系統(tǒng)在瀾滄江中下游的小灣水電站正式投運。這意味著被稱為水電站“大腦”的核心控制系統(tǒng)全面實現國產化，這也是我國水電控制系統(tǒng)一項重大技…
2022年11月24日
0
明查｜美國新冠后遺癥患者中有16%癥狀嚴重以致無法工作？
點擊進入澎湃新聞全球事實核查平臺速覽 – 網傳數據比例無權威信源佐證，該比例有可能是結合了美國疾病防控中心和布魯金斯學會的數據得出，但這兩個機構的調研目的和樣本都不同…
2022年11月24日
0
oppopad2022和matepad11哪個好區(qū)別不同點對比
一些想買平板的小伙伴們把目光投向了oppopad2022和matepad11，oppopad2022和matepad11這兩個平板哪個好呢，oppopad2022的處理器性能更好一…
2022年11月22日
0
七彩虹RTX 3070 Ti顯卡上新換GA102核心功耗飛漲
老黃清庫存新舉措又來了，七彩虹上新了4款全新的RTX 3070 Ti顯卡，換用了RTX 3080同款的GA102核心，產品序列與之前相同，但產品名后面加上了“V2”，顯然是用來與此…
2022年11月22日
0

聯(lián)系我們

聯(lián)系郵箱：admin#wlmqw.com
工作時間：周一至周五，10:30-18:30，節(jié)假日休息

<style id="vf2x5"><blockquote id="vf2x5"></blockquote></style>