設(shè)計 | ClickHouse 分布式表實現(xiàn)數(shù)據(jù)同步

作者:吳帆 青云數(shù)據(jù)庫團(tuán)隊成員

主要負(fù)責(zé)維護(hù) MySQL 及 ClickHouse 產(chǎn)品開發(fā)哎垦,擅長故障分析囱嫩,性能優(yōu)化。

在多副本分布式 ClickHouse 集群中漏设,通常需要使用 Distributed 表寫入或讀取數(shù)據(jù)墨闲,Distributed 表引擎自身不存儲任何數(shù)據(jù),它能夠作為分布式表的一層透明代理愿题,在集群內(nèi)部自動開展數(shù)據(jù)的寫入损俭、分發(fā)、查詢潘酗、路由等工作。

Distributed 表實現(xiàn)副本數(shù)據(jù)同步有兩種方案:

  1. Distributed + MergeTree
  2. Distributed + ReplicateMergeTree

| Distributed + MergeTree

在使用這種方案時 internal_replication 需要設(shè)為 false雁仲,向 Distributed 表寫入數(shù)據(jù)仔夺,Distributed 表會將數(shù)據(jù)寫入集群內(nèi)的每個副本。Distributed 節(jié)點需要負(fù)責(zé)所有分片和副本的數(shù)據(jù)寫入工作攒砖。

1. 集群配置

<logical_consistency_cluster>
    <shard>
        <internal_replication>false</internal_replication>
        <replica>
            <host>shard1-repl1</host>
            <port>9000</port>
        </replica>
        <replica>
            <host>shard1-repl2</host>
            <port>9000</port>
        </replica>
    </shard>
</logical_consistency_cluster>

2. 數(shù)據(jù)寫入

CREATE TABLE test.t_local  on cluster logical_consistency_cluster
(
    EventDate DateTime,
    CounterID UInt32,
    UserID UInt32
) ENGINE MergeTree() PARTITION BY toYYYYMM(EventDate) ORDER BY (CounterID, EventDate) ;

CREATE TABLE test.t_logical_Distributed on cluster logical_consistency_cluster
(
    EventDate DateTime,
    CounterID UInt32,
    UserID UInt32
)
ENGINE = Distributed(logical_consistency_cluster, test, t_local, CounterID) ;

INSERT INTO test.t_logical_Distributed VALUES ('2019-01-16 00:00:00', 1, 1),('2019-02-10 00:00:00',2, 2),('2019-03-10 00:00:00',3, 3)

3. 數(shù)據(jù)查詢

# shard1-repl1

SELECT *
FROM test.t_local

Query id: bd031554-b1e0-4fda-9ff8-1145ffae5b02

┌───────────EventDate──┬─CounterID─┬─UserID─┐
│ 2019-03-10 00:00:00 │         3 │      3 │
└─────────────────────┴───────────┴────────┘
┌───────────EventDate─┬─CounterID─┬─UserID─┐
│ 2019-02-10 00:00:00 │         2 │      2 │
└─────────────────────┴───────────┴────────┘
┌───────────EventDate─┬─CounterID─┬─UserID─┐
│ 2019-01-16 00:00:00 │         1 │      1 │
└─────────────────────┴───────────┴────────┘

3 rows in set. Elapsed: 0.004 sec. 

------------------------------------------

# shard1-repl2

SELECT *
FROM test.t_local

Query id: 636f7580-02e0-4279-bc9b-1f153c0473dc

┌───────────EventDate─┬─CounterID─┬─UserID─┐
│ 2019-01-16 00:00:00 │         1 │      1 │
└─────────────────────┴───────────┴────────┘
┌───────────EventDate─┬─CounterID─┬─UserID─┐
│ 2019-03-10 00:00:00 │         3 │      3 │
└─────────────────────┴───────────┴────────┘
┌───────────EventDate─┬─CounterID─┬─UserID─┐
│ 2019-02-10 00:00:00 │         2 │      2 │
└─────────────────────┴───────────┴────────┘

3 rows in set. Elapsed: 0.005 sec. 

通過寫入測試我們可以看到每個副本數(shù)據(jù)是一致的缸兔。

即使本地表不使用 ReplicatedMergeTree 表引擎,也能實現(xiàn)數(shù)據(jù)副本的功能吹艇。但每個副本的數(shù)據(jù)是通過 Distributed 表獨立寫入惰蜜,文件存儲格式不會完全一致,可以理解這種方式為邏輯一致性受神。

Distributed 需要同時負(fù)責(zé)分片和副本的數(shù)據(jù)寫入工作抛猖,單點寫入很有可能會成為系統(tǒng)性能的瓶頸,所有有接下來的第二種方案鼻听。

| Distributed + ReplicateMergeTree

在使用這種方案時 internal_replication 需要設(shè)為 true财著,向 Distributed 表寫入數(shù)據(jù)。Distributed 表在每個分片中選擇一個合適的副本并對其寫入數(shù)據(jù)撑碴。

分片內(nèi)多個副本之間的數(shù)據(jù)復(fù)制會由 ReplicatedMergeTree 自己處理撑教,不再由 Distributed 負(fù)責(zé)。

1. 配置文件

<physical_consistency_cluster>
    <shard>
        <internal_replication>true</internal_replication>
        <replica>
            <host>shard1-repl1</host>
            <port>9000</port>
        </replica>
        <replica>
            <host>shard1-repl2</host>
            <port>9000</port>
        </replica>
    </shard>
</physical_consistency_cluster>

2. 數(shù)據(jù)寫入

CREATE TABLE test.t_local on cluster  physical_consistency_cluster 
(
    EventDate DateTime,
    CounterID UInt32,
    UserID UInt32
)
ENGINE = ReplicatedMergeTree('{namespace}/test/t_local', '{replica}')
PARTITION BY toYYYYMM(EventDate)
ORDER BY (CounterID, EventDate, intHash32(UserID))
SAMPLE BY intHash32(UserID);



CREATE TABLE test.t_physical_Distributed on cluster physical_consistency_cluster
(
    EventDate DateTime,
    CounterID UInt32,
    UserID UInt32
)
ENGINE = Distributed(physical_consistency_cluster, test, t_local, CounterID);

INSERT INTO test.t_physical_Distributed VALUES ('2019-01-16 00:00:00', 1, 1),('2019-02-10 00:00:00',2, 2),('2019-03-10 00:00:00',3, 3)

3. 數(shù)據(jù)查詢

# shard1-repl1

SELECT *
FROM test.t_local

Query id: d2bafd2d-d0a8-41b4-8d79-ece37e8159e5

┌───────────EventDate──┬─CounterID─┬─UserID─┐
│ 2019-03-10 00:00:00 │         3 │      3 │
└─────────────────────┴───────────┴────────┘
┌───────────EventDate─┬─CounterID─┬─UserID─┐
│ 2019-02-10 00:00:00 │         2 │      2 │
└─────────────────────┴───────────┴────────┘
┌───────────EventDate─┬─CounterID─┬─UserID─┐
│ 2019-01-16 00:00:00 │         1 │      1 │
└─────────────────────┴───────────┴────────┘

3 rows in set. Elapsed: 0.004 sec. 

------------------------------------------

# shard1-repl2

SELECT *
FROM test.t_local

Query id: b5f0dc80-f73f-427e-b04e-e5b787876462

┌───────────EventDate─┬─CounterID─┬─UserID─┐
│ 2019-01-16 00:00:00 │         1 │      1 │
└─────────────────────┴───────────┴────────┘
┌───────────EventDate─┬─CounterID─┬─UserID─┐
│ 2019-03-10 00:00:00 │         3 │      3 │
└─────────────────────┴───────────┴────────┘
┌───────────EventDate─┬─CounterID─┬─UserID─┐
│ 2019-02-10 00:00:00 │         2 │      2 │
└─────────────────────┴───────────┴────────┘

3 rows in set. Elapsed: 0.005 sec. 

ReplicatedMergeTree 需要依靠 ZooKeeper 的事件監(jiān)聽機(jī)制以實現(xiàn)各個副本之間的協(xié)同醉拓,副本協(xié)同的核心流程主要有:INSERT伟姐、MERGE收苏、MUTATION 和 ALTER 四種。

通過寫入測試我們可以看到每個副本數(shù)據(jù)也是一致的愤兵,副本之間依靠 ZooKeeper 同步元數(shù)據(jù)鹿霸,保證文件存儲格式完全一致,可以理解這種方式是物理一致恐似。

ReplicatedMergeTree 也是在分布式集群中最常用的一種方案杜跷,但數(shù)據(jù)同步需要依賴 ZooKeeper,在一些 DDL 比較頻繁的業(yè)務(wù)中 Zookeeper 往往會成為系統(tǒng)性能的瓶頸矫夷,甚至?xí)?dǎo)致服務(wù)不可用葛闷。

我們需要考慮為 ZooKeeper 減負(fù),使用第一種方案 + 負(fù)載均衡輪詢的方式可以降低單節(jié)點寫入的壓力双藕。

總結(jié)

  • internal_replication = false

使用 Distributed + MergeTree 可實現(xiàn)邏輯一致分布式淑趾。

數(shù)據(jù)內(nèi)容完全一致,數(shù)據(jù)存儲格式不完全一致忧陪,數(shù)據(jù)同步不依賴 ZooKeeper扣泊,副本的數(shù)據(jù)可能會不一致,單點寫入壓力較大嘶摊。

  • internal_replication = true

使用 Distributed + ReplicateMergeTree 可實現(xiàn)物理一致分布式延蟹。

數(shù)據(jù)內(nèi)容完全一致,數(shù)據(jù)存儲格式完全一致叶堆。數(shù)據(jù)同步需要依賴 ZooKeeper阱飘,ZooKeeper 會成為系統(tǒng)瓶頸。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末虱颗,一起剝皮案震驚了整個濱河市沥匈,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌忘渔,老刑警劉巖高帖,帶你破解...
    沈念sama閱讀 212,718評論 6 492
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異畦粮,居然都是意外死亡散址,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,683評論 3 385
  • 文/潘曉璐 我一進(jìn)店門锈玉,熙熙樓的掌柜王于貴愁眉苦臉地迎上來爪飘,“玉大人,你說我怎么就攤上這事拉背∈ζ椋” “怎么了?”我有些...
    開封第一講書人閱讀 158,207評論 0 348
  • 文/不壞的土叔 我叫張陵椅棺,是天一觀的道長犁罩。 經(jīng)常有香客問我齐蔽,道長,這世上最難降的妖魔是什么床估? 我笑而不...
    開封第一講書人閱讀 56,755評論 1 284
  • 正文 為了忘掉前任含滴,我火速辦了婚禮,結(jié)果婚禮上丐巫,老公的妹妹穿的比我還像新娘谈况。我一直安慰自己,他們只是感情好递胧,可當(dāng)我...
    茶點故事閱讀 65,862評論 6 386
  • 文/花漫 我一把揭開白布碑韵。 她就那樣靜靜地躺著,像睡著了一般缎脾。 火紅的嫁衣襯著肌膚如雪祝闻。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 50,050評論 1 291
  • 那天遗菠,我揣著相機(jī)與錄音联喘,去河邊找鬼。 笑死辙纬,一個胖子當(dāng)著我的面吹牛豁遭,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播贺拣,決...
    沈念sama閱讀 39,136評論 3 410
  • 文/蒼蘭香墨 我猛地睜開眼堤框,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了纵柿?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 37,882評論 0 268
  • 序言:老撾萬榮一對情侶失蹤启绰,失蹤者是張志新(化名)和其女友劉穎昂儒,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體委可,經(jīng)...
    沈念sama閱讀 44,330評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡渊跋,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,651評論 2 327
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了着倾。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片拾酝。...
    茶點故事閱讀 38,789評論 1 341
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖卡者,靈堂內(nèi)的尸體忽然破棺而出蒿囤,到底是詐尸還是另有隱情,我是刑警寧澤崇决,帶...
    沈念sama閱讀 34,477評論 4 333
  • 正文 年R本政府宣布材诽,位于F島的核電站底挫,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏脸侥。R本人自食惡果不足惜建邓,卻給世界環(huán)境...
    茶點故事閱讀 40,135評論 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望睁枕。 院中可真熱鬧官边,春花似錦、人聲如沸外遇。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,864評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽臀规。三九已至滩援,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間塔嬉,已是汗流浹背玩徊。 一陣腳步聲響...
    開封第一講書人閱讀 32,099評論 1 267
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留谨究,地道東北人恩袱。 一個月前我還...
    沈念sama閱讀 46,598評論 2 362
  • 正文 我出身青樓,卻偏偏與公主長得像胶哲,于是被迫代替她去往敵國和親畔塔。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 43,697評論 2 351

推薦閱讀更多精彩內(nèi)容