設(shè)計 | ClickHouse 分布式表實現(xiàn)數(shù)據(jù)同步

作者：吳帆青云數(shù)據(jù)庫團(tuán)隊成員

主要負(fù)責(zé)維護(hù) MySQL 及 ClickHouse 產(chǎn)品開發(fā)哎垦，擅長故障分析囱嫩，性能優(yōu)化。

在多副本分布式 ClickHouse 集群中漏设，通常需要使用 Distributed 表寫入或讀取數(shù)據(jù)墨闲，Distributed 表引擎自身不存儲任何數(shù)據(jù)，它能夠作為分布式表的一層透明代理愿题，在集群內(nèi)部自動開展數(shù)據(jù)的寫入损俭、分發(fā)、查詢潘酗、路由等工作。

Distributed 表實現(xiàn)副本數(shù)據(jù)同步有兩種方案：

Distributed + MergeTree
Distributed + ReplicateMergeTree

| Distributed + MergeTree

在使用這種方案時 internal_replication 需要設(shè)為 false雁仲，向 Distributed 表寫入數(shù)據(jù)仔夺，Distributed 表會將數(shù)據(jù)寫入集群內(nèi)的每個副本。Distributed 節(jié)點需要負(fù)責(zé)所有分片和副本的數(shù)據(jù)寫入工作攒砖。

1. 集群配置

<logical_consistency_cluster>
    <shard>
        <internal_replication>false</internal_replication>
        <replica>
            <host>shard1-repl1</host>
            <port>9000</port>
        </replica>
        <replica>
            <host>shard1-repl2</host>
            <port>9000</port>
        </replica>
    </shard>
</logical_consistency_cluster>

2. 數(shù)據(jù)寫入

CREATE TABLE test.t_local  on cluster logical_consistency_cluster
(
    EventDate DateTime,
    CounterID UInt32,
    UserID UInt32
) ENGINE MergeTree() PARTITION BY toYYYYMM(EventDate) ORDER BY (CounterID, EventDate) ;

CREATE TABLE test.t_logical_Distributed on cluster logical_consistency_cluster
(
    EventDate DateTime,
    CounterID UInt32,
    UserID UInt32
)
ENGINE = Distributed(logical_consistency_cluster, test, t_local, CounterID) ;

INSERT INTO test.t_logical_Distributed VALUES ('2019-01-16 00:00:00', 1, 1),('2019-02-10 00:00:00',2, 2),('2019-03-10 00:00:00',3, 3)

3. 數(shù)據(jù)查詢

# shard1-repl1

SELECT *
FROM test.t_local

Query id: bd031554-b1e0-4fda-9ff8-1145ffae5b02

┌───────────EventDate──┬─CounterID─┬─UserID─┐
│ 2019-03-10 00:00:00 │         3 │      3 │
└─────────────────────┴───────────┴────────┘
┌───────────EventDate─┬─CounterID─┬─UserID─┐
│ 2019-02-10 00:00:00 │         2 │      2 │
└─────────────────────┴───────────┴────────┘
┌───────────EventDate─┬─CounterID─┬─UserID─┐
│ 2019-01-16 00:00:00 │         1 │      1 │
└─────────────────────┴───────────┴────────┘

3 rows in set. Elapsed: 0.004 sec. 

------------------------------------------

# shard1-repl2

SELECT *
FROM test.t_local

Query id: 636f7580-02e0-4279-bc9b-1f153c0473dc

┌───────────EventDate─┬─CounterID─┬─UserID─┐
│ 2019-01-16 00:00:00 │         1 │      1 │
└─────────────────────┴───────────┴────────┘
┌───────────EventDate─┬─CounterID─┬─UserID─┐
│ 2019-03-10 00:00:00 │         3 │      3 │
└─────────────────────┴───────────┴────────┘
┌───────────EventDate─┬─CounterID─┬─UserID─┐
│ 2019-02-10 00:00:00 │         2 │      2 │
└─────────────────────┴───────────┴────────┘

3 rows in set. Elapsed: 0.005 sec.

通過寫入測試我們可以看到每個副本數(shù)據(jù)是一致的缸兔。

即使本地表不使用 ReplicatedMergeTree 表引擎，也能實現(xiàn)數(shù)據(jù)副本的功能吹艇。但每個副本的數(shù)據(jù)是通過 Distributed 表獨立寫入惰蜜，文件存儲格式不會完全一致，可以理解這種方式為邏輯一致性受神。

Distributed 需要同時負(fù)責(zé)分片和副本的數(shù)據(jù)寫入工作抛猖，單點寫入很有可能會成為系統(tǒng)性能的瓶頸，所有有接下來的第二種方案鼻听。

| Distributed + ReplicateMergeTree

在使用這種方案時 internal_replication 需要設(shè)為 true财著，向 Distributed 表寫入數(shù)據(jù)。Distributed 表在每個分片中選擇一個合適的副本并對其寫入數(shù)據(jù)撑碴。

分片內(nèi)多個副本之間的數(shù)據(jù)復(fù)制會由 ReplicatedMergeTree 自己處理撑教，不再由 Distributed 負(fù)責(zé)。

1. 配置文件

<physical_consistency_cluster>
    <shard>
        <internal_replication>true</internal_replication>
        <replica>
            <host>shard1-repl1</host>
            <port>9000</port>
        </replica>
        <replica>
            <host>shard1-repl2</host>
            <port>9000</port>
        </replica>
    </shard>
</physical_consistency_cluster>

2. 數(shù)據(jù)寫入

CREATE TABLE test.t_local on cluster  physical_consistency_cluster 
(
    EventDate DateTime,
    CounterID UInt32,
    UserID UInt32
)
ENGINE = ReplicatedMergeTree('{namespace}/test/t_local', '{replica}')
PARTITION BY toYYYYMM(EventDate)
ORDER BY (CounterID, EventDate, intHash32(UserID))
SAMPLE BY intHash32(UserID);



CREATE TABLE test.t_physical_Distributed on cluster physical_consistency_cluster
(
    EventDate DateTime,
    CounterID UInt32,
    UserID UInt32
)
ENGINE = Distributed(physical_consistency_cluster, test, t_local, CounterID);

INSERT INTO test.t_physical_Distributed VALUES ('2019-01-16 00:00:00', 1, 1),('2019-02-10 00:00:00',2, 2),('2019-03-10 00:00:00',3, 3)

3. 數(shù)據(jù)查詢

# shard1-repl1

SELECT *
FROM test.t_local

Query id: d2bafd2d-d0a8-41b4-8d79-ece37e8159e5

┌───────────EventDate──┬─CounterID─┬─UserID─┐
│ 2019-03-10 00:00:00 │         3 │      3 │
└─────────────────────┴───────────┴────────┘
┌───────────EventDate─┬─CounterID─┬─UserID─┐
│ 2019-02-10 00:00:00 │         2 │      2 │
└─────────────────────┴───────────┴────────┘
┌───────────EventDate─┬─CounterID─┬─UserID─┐
│ 2019-01-16 00:00:00 │         1 │      1 │
└─────────────────────┴───────────┴────────┘

3 rows in set. Elapsed: 0.004 sec. 

------------------------------------------

# shard1-repl2

SELECT *
FROM test.t_local

Query id: b5f0dc80-f73f-427e-b04e-e5b787876462

┌───────────EventDate─┬─CounterID─┬─UserID─┐
│ 2019-01-16 00:00:00 │         1 │      1 │
└─────────────────────┴───────────┴────────┘
┌───────────EventDate─┬─CounterID─┬─UserID─┐
│ 2019-03-10 00:00:00 │         3 │      3 │
└─────────────────────┴───────────┴────────┘
┌───────────EventDate─┬─CounterID─┬─UserID─┐
│ 2019-02-10 00:00:00 │         2 │      2 │
└─────────────────────┴───────────┴────────┘

3 rows in set. Elapsed: 0.005 sec.

ReplicatedMergeTree 需要依靠 ZooKeeper 的事件監(jiān)聽機(jī)制以實現(xiàn)各個副本之間的協(xié)同醉拓，副本協(xié)同的核心流程主要有：INSERT伟姐、MERGE收苏、MUTATION 和 ALTER 四種。

通過寫入測試我們可以看到每個副本數(shù)據(jù)也是一致的愤兵，副本之間依靠 ZooKeeper 同步元數(shù)據(jù)鹿霸，保證文件存儲格式完全一致，可以理解這種方式是物理一致恐似。

ReplicatedMergeTree 也是在分布式集群中最常用的一種方案杜跷，但數(shù)據(jù)同步需要依賴 ZooKeeper，在一些 DDL 比較頻繁的業(yè)務(wù)中 Zookeeper 往往會成為系統(tǒng)性能的瓶頸矫夷，甚至?xí)?dǎo)致服務(wù)不可用葛闷。

我們需要考慮為 ZooKeeper 減負(fù)，使用第一種方案 + 負(fù)載均衡輪詢的方式可以降低單節(jié)點寫入的壓力双藕。

總結(jié)

internal_replication = false

使用 Distributed + MergeTree 可實現(xiàn)邏輯一致分布式淑趾。

數(shù)據(jù)內(nèi)容完全一致，數(shù)據(jù)存儲格式不完全一致忧陪，數(shù)據(jù)同步不依賴 ZooKeeper扣泊，副本的數(shù)據(jù)可能會不一致，單點寫入壓力較大嘶摊。

internal_replication = true

使用 Distributed + ReplicateMergeTree 可實現(xiàn)物理一致分布式延蟹。

數(shù)據(jù)內(nèi)容完全一致，數(shù)據(jù)存儲格式完全一致叶堆。數(shù)據(jù)同步需要依賴 ZooKeeper阱飘，ZooKeeper 會成為系統(tǒng)瓶頸。

最后編輯于：2021.09.23 16:46:12

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末虱颗，一起剝皮案震驚了整個濱河市沥匈，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌忘渔，老刑警劉巖高帖，帶你破解...
沈念sama閱讀 212,718評論 6贊 492
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場離奇詭異畦粮，居然都是意外死亡散址，警方通過查閱死者的電腦和手機(jī)，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 90,683評論 3贊 385
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門锈玉，熙熙樓的掌柜王于貴愁眉苦臉地迎上來爪飘，“玉大人，你說我怎么就攤上這事拉背∈ζ椋” “怎么了？”我有些...
開封第一講書人閱讀 158,207評論 0贊 348
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵椅棺，是天一觀的道長犁罩。經(jīng)常有香客問我齐蔽，道長，這世上最難降的妖魔是什么床估？我笑而不...
開封第一講書人閱讀 56,755評論 1贊 284
?港島之戀（遺憾婚禮）
正文為了忘掉前任含滴，我火速辦了婚禮，結(jié)果婚禮上丐巫，老公的妹妹穿的比我還像新娘谈况。我一直安慰自己，他們只是感情好递胧，可當(dāng)我...
茶點故事閱讀 65,862評論 6贊 386
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布碑韵。她就那樣靜靜地躺著，像睡著了一般缎脾。火紅的嫁衣襯著肌膚如雪祝闻。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 50,050評論 1贊 291
城市分裂傳說
那天遗菠，我揣著相機(jī)與錄音联喘，去河邊找鬼。笑死辙纬，一個胖子當(dāng)著我的面吹牛豁遭，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播贺拣，決...
沈念sama閱讀 39,136評論 3贊 410
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼堤框，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了纵柿？” 一聲冷哼從身側(cè)響起，我...
開封第一講書人閱讀 37,882評論 0贊 268
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤启绰，失蹤者是張志新（化名）和其女友劉穎昂儒，沒想到半個月后，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體委可，經(jīng)...
沈念sama閱讀 44,330評論 1贊 303
?護(hù)林員之死
正文獨居荒郊野嶺守林人離奇死亡渊跋，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 36,651評論 2贊 327
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時候發(fā)現(xiàn)自己被綠了着倾。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片拾酝。...
茶點故事閱讀 38,789評論 1贊 341
活死人
序言：一個原本活蹦亂跳的男人離奇死亡，死狀恐怖卡者，靈堂內(nèi)的尸體忽然破棺而出蒿囤，到底是詐尸還是另有隱情，我是刑警寧澤崇决，帶...
沈念sama閱讀 34,477評論 4贊 333
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布材诽，位于F島的核電站底挫，受9級特大地震影響，放射性物質(zhì)發(fā)生泄漏脸侥。R本人自食惡果不足惜建邓，卻給世界環(huán)境...
茶點故事閱讀 40,135評論 3贊 317
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望睁枕。院中可真熱鬧官边，春花似錦、人聲如沸外遇。這莊子的主人今日做“春日...
開封第一講書人閱讀 30,864評論 0贊 21
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽臀规。三九已至滩援，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間塔嬉，已是汗流浹背玩徊。一陣腳步聲響...
開封第一講書人閱讀 32,099評論 1贊 267
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留谨究，地道東北人恩袱。一個月前我還...
沈念sama閱讀 46,598評論 2贊 362
代替公主和親
正文我出身青樓，卻偏偏與公主長得像胶哲，于是被迫代替她去往敵國和親畔塔。傳聞我的和親對象是個殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點故事閱讀 43,697評論 2贊 351

設(shè)計 | ClickHouse 分布式表實現(xiàn)數(shù)據(jù)同步

| Distributed + MergeTree

1. 集群配置

2. 數(shù)據(jù)寫入

3. 數(shù)據(jù)查詢

| Distributed + ReplicateMergeTree

1. 配置文件

2. 數(shù)據(jù)寫入

3. 數(shù)據(jù)查詢

總結(jié)

推薦閱讀更多精彩內(nèi)容