了解cephfs鎖必須要知道的事情

1掐场、本文討論的鎖不是flock翻斟。flock是posix標(biāo)準(zhǔn)中對(duì)文件某部分偏移加的鎖匿垄。而這里的鎖指的是MDS集中管理多客戶端對(duì)于文件并發(fā)訪問時(shí)嚣州,Dentry和Inode等數(shù)據(jù)結(jié)構(gòu)控制的鎖。每個(gè)鎖內(nèi)有parent變量記錄的就是該鎖相關(guān)的Dentry或者Inode硝拧。Cephfs采用和GPFS類似的并發(fā)更新元文件的方式。同一份元數(shù)據(jù)分散多個(gè)MDS節(jié)點(diǎn)葛假,但是有一個(gè)Auth節(jié)點(diǎn)障陶,該節(jié)點(diǎn)負(fù)責(zé)

- 串行更新(serializing updates)

- 將元數(shù)據(jù)持久化到磁盤上(committing changes to disks)

- 保證緩存一致性(consistency)

- 維護(hù)節(jié)點(diǎn)之間的一致性(cache coherence)

多路并發(fā)的MDS節(jié)點(diǎn)會(huì)更新每個(gè)副本,但是會(huì)周期性地向AUTH發(fā)送當(dāng)前節(jié)點(diǎn)最新的數(shù)據(jù)聊训。


2抱究、鎖的類型分為L(zhǎng)ocalLock、SimpleLock带斑、ScatterLock鼓寺、FileLock

無論何種類型的鎖,都有一個(gè)state變量記錄當(dāng)前鎖的狀態(tài)勋磕。每個(gè)鎖都有相關(guān)的狀態(tài)機(jī)控制狀態(tài)轉(zhuǎn)移妈候。根據(jù)狀態(tài)機(jī)可以確定:

- 下一步鎖的狀態(tài)(next_state)

- 其他副本(Object比如Inode在多mds的其他mds也有副本叫replica)的狀態(tài)

- 允許誰(shuí)可讀(can_read)、誰(shuí)可加讀鎖(can_rdlock)挂滓、誰(shuí)可加寫(can_wrlock)苦银、誰(shuí)可以加排他鎖(can_xlock)等。這里的誰(shuí)被抽象成為ANY赶站、AUTH幔虏、XCL等。ANY指的任何擁有Object副本的MDS贝椿,AUTH(authority)指的是被授權(quán)Object的MDS想括,XCL指的是被授權(quán)Object的MDS或者排他執(zhí)行的客戶端。

- 對(duì)應(yīng)的caps是什么烙博,包括擁有Object副本的MDS的此時(shí)應(yīng)該使用的caps(針對(duì)不同的角色也分為4種)

復(fù)雜程度而言瑟蜈,可以根據(jù)sm_state_t結(jié)構(gòu)體里面定義的條數(shù)判斷,LocalLock最簡(jiǎn)單习勤,SimpleLock/ScatterLock相對(duì)復(fù)雜踪栋,F(xiàn)ileLock最為復(fù)雜。


3图毕、鎖的狀態(tài)有很多夷都,都是以LOCK_開頭的(除了LOCK_AC_*之外,它代表鎖的某種行為)。一般而言囤官,LOCK_<狀態(tài)>都是穩(wěn)定狀態(tài)(標(biāo)準(zhǔn)是在狀態(tài)機(jī)其next_state為0冬阳,也有例外),比如LOCK_SYNC/LOCK_LOCK/LOCK_MIX等党饮。LOCK_<狀態(tài)1>_< 狀態(tài)2>是中間狀態(tài)肝陪,比如LOCK_SYNC_LOCK就是從LOCK_SYNC狀態(tài)向LOCK_LOCK狀態(tài)轉(zhuǎn)移的中間狀態(tài),日志中可以看到“sync->lock”就是這種狀態(tài)dump出來信息刑顺。


4氯窍、每個(gè)Inode里面有多個(gè)Lock,每個(gè)Lock對(duì)應(yīng)2中介紹的4種類型的鎖蹲堂。每種鎖關(guān)聯(lián)的是不同的文件系統(tǒng)資源狼讨。

LocalLock? -??versionlock

SimpleLock用在nlink、atime柒竞、mtime等屬性的處理上政供。其特點(diǎn)是"共享讀、互斥寫"朽基。

SimpleLock? -?authlock??linklock??xattrlock(擴(kuò)展屬性相關(guān))??snaplock(快照相關(guān))????flocklockpolicylock(layout相關(guān))??

ScatterLock用在需要處理迭代的數(shù)據(jù)結(jié)構(gòu)布隔,比如目錄樹或者目錄下面的統(tǒng)計(jì)信息,其特點(diǎn)是“共享讀稼虎、共享寫”

ScatterLock -??dirfragtreelock?nestlock?

FileLock既用在處理atime衅檀、ctime等需要互斥操作的屬性上,也有需要共享寫的統(tǒng)計(jì)信息上渡蜻。

FileLock - filelock


5术吝、Cap當(dāng)中的s代表share,意味著客戶端擁有讀相關(guān)信息的能力茸苇,比如刪除inodes時(shí)mds會(huì)設(shè)置CEPH_CAP_LINK_SHARED排苍,即Cap為L(zhǎng)s,客戶端讀到該標(biāo)志位学密,會(huì)判斷inode的nlink信息是否為0淘衙,0則代表刪除客戶端執(zhí)行針對(duì)刪除的操作。x代表允許客戶端更新相關(guān)信息的能力(獨(dú)占執(zhí)行的能力)腻暮。


6彤守、Cap和鎖的關(guān)系

客戶端是根據(jù)MDS賦予的cap確定相關(guān)行為。MDS則根據(jù)客戶端發(fā)來的請(qǐng)求和當(dāng)前鎖的狀態(tài)哭靖,確定授予(grant)或者剝奪(revoke)客戶端的caps具垫。


7、打算對(duì)一個(gè)inode或者dentry加鎖试幽,需要先確定給其中的哪些鎖加什么類型的操作筝蚕。一般有rdlock、wrlock、remote_wrlock起宽、xlock等洲胖。

rdlock? 讀鎖操作,當(dāng)一個(gè)資源加了讀鎖之后坯沪,不能再加獨(dú)占鎖對(duì)其修改绿映。

wrlock? 寫鎖操作

remote_wrlock? 遠(yuǎn)端寫鎖操作

xlock? 獨(dú)占鎖操作,比如修改某項(xiàng)資源腐晾,一定要讓鎖執(zhí)行該操作叉弦。

使用場(chǎng)景比如,

在創(chuàng)建快照的時(shí)候需要給執(zhí)行目錄的inode的snap鎖加上獨(dú)占操作藻糖。

xlocks.insert(&diri->snaplock));

ls的時(shí)候會(huì)對(duì)父目錄至根目錄的dentry都加rdlock防止被修改卸奉。

rdlock.insert(&dn->lock)

日志里面“isnap sync r=<NUM>”之類的輸出代表當(dāng)前snap鎖處在sync狀態(tài),鎖上有NUM個(gè)讀鎖操作(見SimpleLock.h SimpleLock::_print())颖御。


8、Locker中*_start 表示對(duì)某個(gè)鎖執(zhí)行某種類型的鎖操作凝颇。*_finish表示結(jié)束對(duì)某個(gè)鎖加某種類型的鎖操作潘拱。*_try代表嘗試去執(zhí)行某種類型的鎖操作是否能夠成功。這里的*代表rdlock拧略、wrlock芦岂、remote_wrlock蔓榄、xlock等忘朝。


9、Locker中有操作狀態(tài)的轉(zhuǎn)變函數(shù)毛嫉,將任何中間狀態(tài)變?yōu)?_sync同步狀態(tài)袱饭,*_excl 獨(dú)占執(zhí)行狀態(tài)川无、*_lock鎖狀態(tài)、*_xlock獨(dú)占鎖狀態(tài)虑乖。*可以是simple/scatter/file代表不同的鎖類型懦趋。比如Locker::file_xsyn函數(shù)會(huì)讓filelock進(jìn)入xsyn狀態(tài),XSYN狀態(tài)出現(xiàn)在如下場(chǎng)景中:

如果一個(gè)客戶端在執(zhí)行l(wèi)s –al的時(shí)候想要rdlock疹味。此時(shí)如果一個(gè)EXCL的客戶端正在緩存寫仅叫,那么MDS會(huì)讓鎖進(jìn)入XSYN狀態(tài),進(jìn)入這個(gè)狀態(tài)寫會(huì)被停止糙捺,但是緩存不會(huì)刷到磁盤(提升效率)诫咱。??


10、MDS和其他MDS處理鎖相互發(fā)的是MLock請(qǐng)求洪灯。執(zhí)行發(fā)送的函數(shù)是Locker::send_lock_message坎缭。內(nèi)容是鎖和相關(guān)的轉(zhuǎn)換操作(LOCK_AC_*定義的行為)。

由auth的MDS發(fā)給replica的MDS有如下所示。replica的MDS收到之后會(huì)將其本地保留的鎖狀態(tài)幻锁,盡可能轉(zhuǎn)換為消息中定義的鎖狀態(tài)凯亮。

LOCK_AC_SYNC? ? ? //向SYNC狀態(tài)轉(zhuǎn)換

LOCK_AC_MIX? ? ? ? ? //向MIX狀態(tài)轉(zhuǎn)換

LOCK_AC_LOCK? ? ??//向LOCK狀態(tài)轉(zhuǎn)換

LOCK_AC_LOCKFLUSHED? ? ??//向LOCKFLUSHED狀態(tài)轉(zhuǎn)換

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市哄尔,隨后出現(xiàn)的幾起案子假消,更是在濱河造成了極大的恐慌,老刑警劉巖岭接,帶你破解...
    沈念sama閱讀 219,270評(píng)論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件富拗,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡鸣戴,警方通過查閱死者的電腦和手機(jī)啃沪,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,489評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來窄锅,“玉大人创千,你說我怎么就攤上這事∪胪担” “怎么了追驴?”我有些...
    開封第一講書人閱讀 165,630評(píng)論 0 356
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)疏之。 經(jīng)常有香客問我殿雪,道長(zhǎng),這世上最難降的妖魔是什么锋爪? 我笑而不...
    開封第一講書人閱讀 58,906評(píng)論 1 295
  • 正文 為了忘掉前任丙曙,我火速辦了婚禮,結(jié)果婚禮上其骄,老公的妹妹穿的比我還像新娘亏镰。我一直安慰自己,他們只是感情好年栓,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,928評(píng)論 6 392
  • 文/花漫 我一把揭開白布拆挥。 她就那樣靜靜地躺著,像睡著了一般某抓。 火紅的嫁衣襯著肌膚如雪纸兔。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,718評(píng)論 1 305
  • 那天否副,我揣著相機(jī)與錄音汉矿,去河邊找鬼。 笑死备禀,一個(gè)胖子當(dāng)著我的面吹牛洲拇,可吹牛的內(nèi)容都是我干的奈揍。 我是一名探鬼主播,決...
    沈念sama閱讀 40,442評(píng)論 3 420
  • 文/蒼蘭香墨 我猛地睜開眼赋续,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼男翰!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起纽乱,我...
    開封第一講書人閱讀 39,345評(píng)論 0 276
  • 序言:老撾萬榮一對(duì)情侶失蹤蛾绎,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后鸦列,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體租冠,經(jīng)...
    沈念sama閱讀 45,802評(píng)論 1 317
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,984評(píng)論 3 337
  • 正文 我和宋清朗相戀三年薯嗤,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了顽爹。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 40,117評(píng)論 1 351
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡骆姐,死狀恐怖镜粤,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情玻褪,我是刑警寧澤繁仁,帶...
    沈念sama閱讀 35,810評(píng)論 5 346
  • 正文 年R本政府宣布,位于F島的核電站归园,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏稚矿。R本人自食惡果不足惜庸诱,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,462評(píng)論 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望晤揣。 院中可真熱鬧桥爽,春花似錦、人聲如沸昧识。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,011評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)跪楞。三九已至缀去,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間甸祭,已是汗流浹背缕碎。 一陣腳步聲響...
    開封第一講書人閱讀 33,139評(píng)論 1 272
  • 我被黑心中介騙來泰國(guó)打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留池户,地道東北人咏雌。 一個(gè)月前我還...
    沈念sama閱讀 48,377評(píng)論 3 373
  • 正文 我出身青樓凡怎,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親赊抖。 傳聞我的和親對(duì)象是個(gè)殘疾皇子统倒,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,060評(píng)論 2 355

推薦閱讀更多精彩內(nèi)容