TiDB的分布式事務(wù)原理探究

事務(wù)開(kāi)啟


獲取全局授時(shí)作為startTS構(gòu)建一個(gè)tikvTxn對(duì)象(包括snapshot)窿给。

事務(wù)寫(xiě)


txn.Set方法本質(zhì)上將kv值寫(xiě)入了一個(gè)內(nèi)存緩存(即kv/memdb_buffer.go中的memDbBuffer)中等舔。該內(nèi)存kv數(shù)據(jù)庫(kù)利用的是golevel提供的功能涉馁。

事務(wù)回滾


直接將tikvTxn的valid字段置為false羹膳,之后如果用戶再執(zhí)行提交或者回滾操作礁叔,會(huì)檢查valid拭荤,如果為false則直接返回錯(cuò)誤孟抗。

事務(wù)提交


操作映射

遍歷kv數(shù)據(jù)庫(kù)中所有的key润匙,并將每個(gè)key和其操作組裝到一起成為一個(gè)mutationEx對(duì)象诗眨,并且將其放到一個(gè)map中(map由key映射到mutationEx),最后將這個(gè)map放入twoPhaseCommitter的mutations字段孕讳。

操作也是通過(guò)key的內(nèi)容推斷出來(lái)的匠楚,推斷邏輯如下:

  • key的長(zhǎng)度為0,則操作為刪除(Op_Del)
  • 如果key的長(zhǎng)度大于0厂财,且不需要延遲檢查或者延遲檢查不通過(guò)(value的當(dāng)前長(zhǎng)度大于0)芋簿,則操作為Op_Put(即新增key或者更新key)
  • 如果key的長(zhǎng)度大于0,且延遲檢查(value的當(dāng)前長(zhǎng)度等于0)通過(guò)璃饱,則操作為Op_Insert(即新增key与斤,不允許更新key)
  • 對(duì)于tikvTxn中的lockKeys字段中的key,如果他在kv數(shù)據(jù)庫(kù)中不存在的話荚恶,則給予Op_Lock(即單純的作為鎖撩穿,事務(wù)結(jié)束就將這個(gè)key刪除)

Prewrite

Percolator事務(wù)模型有primary和secondaries的概念,TiDB的實(shí)現(xiàn)中直接將第一個(gè)key作為Primary谒撼,剩下的Key全部作為secondaries

TiDB上的操作:

  • 將所有的key按照Region進(jìn)行分組(從Region緩存或者PD中獲取key所處的Region)
  • 將每組的key再拆分成Batch(每個(gè)Batch在16k作為食寡,主要目的是為了縮小RPC packet的大小)廓潜,并發(fā)地對(duì)每個(gè)batch進(jìn)行處理(即給TiKV發(fā)送Prewrite指令)

注意:其實(shí)在Prewrite階段的實(shí)現(xiàn)并不太能看出primary和secondaries的區(qū)別抵皱,他們都被一起打成batch并發(fā)處理了善榛。

Tikv接收到指令之后對(duì)每個(gè)Batch分別進(jìn)行Prewrite:

遍歷batch中每個(gè)元素的mutationEx(之前操作映射時(shí)組裝的),然后分別進(jìn)行如下操作:

  • 如果操作是Op_Insert的話呻畸,則以事務(wù)開(kāi)始時(shí)間startTs進(jìn)行快照讀檢查key是否重復(fù)移盆,如果重復(fù)則標(biāo)記錯(cuò)誤,看batch中下一個(gè)元素
  • 編碼出一把鎖(所謂“鎖”就是指key的version為全0的64位bit伤为,正常情況下是時(shí)間戳味滞,所以鎖永遠(yuǎn)排在第一個(gè))
  • 檢查是否有其他事務(wù)給該key上鎖(即查看是否有version為全0的key),如果有則事務(wù)沖突
  • 上面的檢查通過(guò)了的話钮呀,則查看Rocksdb上緊接著鎖的下一個(gè)key(即最新的key)剑鞍,查看其時(shí)間戳是否大于等于startTs,如果這樣的話爽醋,說(shuō)明有其他事務(wù)先提交了蚁署,事務(wù)沖突。
  • 上面的檢查也通過(guò)了的話則將自己的鎖("鎖"的信息包括startTs蚂四,primary光戈,value以及操作碼等等,詳見(jiàn)store/mockstore/mocktikv/mvcc.go中的mvccLock結(jié)構(gòu))插入進(jìn)去

Commit

TiDB中的邏輯:

  • 重新獲得一個(gè)全局授時(shí)作為提交時(shí)間戳commitTs
  • Region分組遂赠,Batch拆分和上面是一樣的
  • 先提交Primary
  • 然后在后臺(tái)提交secondaries

TiKV中的邏輯:

新建一個(gè)Rocksdb的Batch進(jìn)行批量的增刪久妆,然后對(duì)于每個(gè)key

  • 除了Op_Lock操作的Key,都以CommitTS作為Key的版本號(hào)插入進(jìn)去跷睦,組裝Value的時(shí)候?qū)iKV的操作碼轉(zhuǎn)成底層mvcc store的操作碼(將Op_put轉(zhuǎn)成typePut筷弦,剩下的除了不可能出現(xiàn)的Op_Lock,都轉(zhuǎn)換成typeDelete)抑诸,然后刪除鎖
  • 對(duì)于Op_Lock操作的Key則直接刪除鎖即可

End


作者:元青

微信公眾號(hào) 「技樂(lè)書(shū)香」

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末烂琴,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子蜕乡,更是在濱河造成了極大的恐慌奸绷,老刑警劉巖,帶你破解...
    沈念sama閱讀 216,324評(píng)論 6 498
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件层玲,死亡現(xiàn)場(chǎng)離奇詭異号醉,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī)辛块,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,356評(píng)論 3 392
  • 文/潘曉璐 我一進(jìn)店門(mén)畔派,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人憨降,你說(shuō)我怎么就攤上這事父虑「眯铮” “怎么了授药?”我有些...
    開(kāi)封第一講書(shū)人閱讀 162,328評(píng)論 0 353
  • 文/不壞的土叔 我叫張陵士嚎,是天一觀的道長(zhǎng)。 經(jīng)常有香客問(wèn)我悔叽,道長(zhǎng)莱衩,這世上最難降的妖魔是什么? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 58,147評(píng)論 1 292
  • 正文 為了忘掉前任娇澎,我火速辦了婚禮笨蚁,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘趟庄。我一直安慰自己括细,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,160評(píng)論 6 388
  • 文/花漫 我一把揭開(kāi)白布戚啥。 她就那樣靜靜地躺著奋单,像睡著了一般。 火紅的嫁衣襯著肌膚如雪猫十。 梳的紋絲不亂的頭發(fā)上览濒,一...
    開(kāi)封第一講書(shū)人閱讀 51,115評(píng)論 1 296
  • 那天,我揣著相機(jī)與錄音拖云,去河邊找鬼贷笛。 笑死,一個(gè)胖子當(dāng)著我的面吹牛宙项,可吹牛的內(nèi)容都是我干的乏苦。 我是一名探鬼主播,決...
    沈念sama閱讀 40,025評(píng)論 3 417
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼尤筐,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼邑贴!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起叔磷,我...
    開(kāi)封第一講書(shū)人閱讀 38,867評(píng)論 0 274
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤拢驾,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后改基,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體繁疤,經(jīng)...
    沈念sama閱讀 45,307評(píng)論 1 310
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,528評(píng)論 2 332
  • 正文 我和宋清朗相戀三年秕狰,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了稠腊。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 39,688評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡鸣哀,死狀恐怖架忌,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情我衬,我是刑警寧澤叹放,帶...
    沈念sama閱讀 35,409評(píng)論 5 343
  • 正文 年R本政府宣布饰恕,位于F島的核電站,受9級(jí)特大地震影響井仰,放射性物質(zhì)發(fā)生泄漏埋嵌。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,001評(píng)論 3 325
  • 文/蒙蒙 一俱恶、第九天 我趴在偏房一處隱蔽的房頂上張望雹嗦。 院中可真熱鬧,春花似錦合是、人聲如沸了罪。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 31,657評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)捶惜。三九已至,卻和暖如春荔烧,著一層夾襖步出監(jiān)牢的瞬間吱七,已是汗流浹背。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 32,811評(píng)論 1 268
  • 我被黑心中介騙來(lái)泰國(guó)打工踊餐, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人臀稚。 一個(gè)月前我還...
    沈念sama閱讀 47,685評(píng)論 2 368
  • 正文 我出身青樓吝岭,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親吧寺。 傳聞我的和親對(duì)象是個(gè)殘疾皇子窜管,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,573評(píng)論 2 353