事務(wù)開(kāi)啟
獲取全局授時(shí)作為startTS構(gòu)建一個(gè)tikvTxn對(duì)象(包括snapshot)窿给。
事務(wù)寫(xiě)
txn.Set方法本質(zhì)上將kv值寫(xiě)入了一個(gè)內(nèi)存緩存(即kv/memdb_buffer.go中的memDbBuffer)中等舔。該內(nèi)存kv數(shù)據(jù)庫(kù)利用的是golevel提供的功能涉馁。
事務(wù)回滾
直接將tikvTxn的valid字段置為false羹膳,之后如果用戶再執(zhí)行提交或者回滾操作礁叔,會(huì)檢查valid拭荤,如果為false則直接返回錯(cuò)誤孟抗。
事務(wù)提交
操作映射
遍歷kv數(shù)據(jù)庫(kù)中所有的key润匙,并將每個(gè)key和其操作組裝到一起成為一個(gè)mutationEx對(duì)象诗眨,并且將其放到一個(gè)map中(map由key映射到mutationEx),最后將這個(gè)map放入twoPhaseCommitter的mutations字段孕讳。
操作也是通過(guò)key的內(nèi)容推斷出來(lái)的匠楚,推斷邏輯如下:
- key的長(zhǎng)度為0,則操作為刪除(Op_Del)
- 如果key的長(zhǎng)度大于0厂财,且不需要延遲檢查或者延遲檢查不通過(guò)(value的當(dāng)前長(zhǎng)度大于0)芋簿,則操作為Op_Put(即新增key或者更新key)
- 如果key的長(zhǎng)度大于0,且延遲檢查(value的當(dāng)前長(zhǎng)度等于0)通過(guò)璃饱,則操作為Op_Insert(即新增key与斤,不允許更新key)
- 對(duì)于tikvTxn中的lockKeys字段中的key,如果他在kv數(shù)據(jù)庫(kù)中不存在的話荚恶,則給予Op_Lock(即單純的作為鎖撩穿,事務(wù)結(jié)束就將這個(gè)key刪除)
Prewrite
Percolator事務(wù)模型有primary和secondaries的概念,TiDB的實(shí)現(xiàn)中直接將第一個(gè)key作為Primary谒撼,剩下的Key全部作為secondaries
TiDB上的操作:
- 將所有的key按照Region進(jìn)行分組(從Region緩存或者PD中獲取key所處的Region)
- 將每組的key再拆分成Batch(每個(gè)Batch在16k作為食寡,主要目的是為了縮小RPC packet的大小)廓潜,并發(fā)地對(duì)每個(gè)batch進(jìn)行處理(即給TiKV發(fā)送Prewrite指令)
注意:其實(shí)在Prewrite階段的實(shí)現(xiàn)并不太能看出primary和secondaries的區(qū)別抵皱,他們都被一起打成batch并發(fā)處理了善榛。
Tikv接收到指令之后對(duì)每個(gè)Batch分別進(jìn)行Prewrite:
遍歷batch中每個(gè)元素的mutationEx(之前操作映射時(shí)組裝的),然后分別進(jìn)行如下操作:
- 如果操作是Op_Insert的話呻畸,則以事務(wù)開(kāi)始時(shí)間startTs進(jìn)行快照讀檢查key是否重復(fù)移盆,如果重復(fù)則標(biāo)記錯(cuò)誤,看batch中下一個(gè)元素
- 編碼出一把鎖(所謂“鎖”就是指key的version為全0的64位bit伤为,正常情況下是時(shí)間戳味滞,所以鎖永遠(yuǎn)排在第一個(gè))
- 檢查是否有其他事務(wù)給該key上鎖(即查看是否有version為全0的key),如果有則事務(wù)沖突
- 上面的檢查通過(guò)了的話钮呀,則查看Rocksdb上緊接著鎖的下一個(gè)key(即最新的key)剑鞍,查看其時(shí)間戳是否大于等于startTs,如果這樣的話爽醋,說(shuō)明有其他事務(wù)先提交了蚁署,事務(wù)沖突。
- 上面的檢查也通過(guò)了的話則將自己的鎖("鎖"的信息包括startTs蚂四,primary光戈,value以及操作碼等等,詳見(jiàn)store/mockstore/mocktikv/mvcc.go中的mvccLock結(jié)構(gòu))插入進(jìn)去
Commit
TiDB中的邏輯:
- 重新獲得一個(gè)全局授時(shí)作為提交時(shí)間戳commitTs
- Region分組遂赠,Batch拆分和上面是一樣的
- 先提交Primary
- 然后在后臺(tái)提交secondaries
TiKV中的邏輯:
新建一個(gè)Rocksdb的Batch進(jìn)行批量的增刪久妆,然后對(duì)于每個(gè)key
- 除了Op_Lock操作的Key,都以CommitTS作為Key的版本號(hào)插入進(jìn)去跷睦,組裝Value的時(shí)候?qū)iKV的操作碼轉(zhuǎn)成底層mvcc store的操作碼(將Op_put轉(zhuǎn)成typePut筷弦,剩下的除了不可能出現(xiàn)的Op_Lock,都轉(zhuǎn)換成typeDelete)抑诸,然后刪除鎖
- 對(duì)于Op_Lock操作的Key則直接刪除鎖即可
End
作者:元青
微信公眾號(hào) 「技樂(lè)書(shū)香」