CephFS 內(nèi)部實現(xiàn)(二):示例

之前面試時被問到描述下一個請求的完整流程,當時的結(jié)果很不理想坷衍,今天嘗試重新組織下寝优,記錄在這里。

ceph-fuse1.png

這里有篇文章通俗易懂地描述了VFS層頁緩存在cephfs中會有哪些“坑”以及相應(yīng)策略枫耳。

mount后發(fā)生了什么乏矾?

ceph-fuse在不指定rootpath參數(shù)時,client端的root inode和mds的root一樣。如果指定了rootpath參數(shù)钻心,那么client端的root inode則是rootpath中的最后一個dentry的inode凄硼,不過從這個inode的往上一直到mds root inode的路徑上的所有inode也都會在client端存一份副本(下圖紅色圓圈節(jié)點),這些父節(jié)點是為了計算quota時使用捷沸,比如quota可能設(shè)置在了mds root inode上摊沉,這時client端如果沒有mds root inode則無法正確得到quota值,除此之外這些父節(jié)點inode別無他用痒给。


rootpath=/dir時

ceph-fuse接收到的請求一定是關(guān)于一個inode的说墨,這點可以通過Client::ll_xxx函數(shù)定義看出。而且這個inode必須是已經(jīng)從mds獲取過的苍柏。舉例來說尼斧,剛mount完成時,client端的元數(shù)據(jù)信息只有root inode(及其父節(jié)點inode)试吁,這時FUSE是不會直接向client(即ceph-fuse)請求一個非root inode直接子節(jié)點的棺棵,這一點是由VFS+FUSE模塊保證的。

打開文件

通過open()系統(tǒng)調(diào)用打開文件時熄捍,傳入?yún)?shù)是一個路徑烛恤,F(xiàn)USE模塊會從root節(jié)點一個dentry一個dentry地遍歷(通過Client::ll_lookup())路徑,確保每個節(jié)點對應(yīng)的inode都已經(jīng)存在client端治唤。如果在一個剛mount好的client中請求一個目錄深度很深的路徑棒动,在系統(tǒng)調(diào)用上看只是一個請求,但實際上在client和mds間會產(chǎn)生多次通信宾添,路徑越深通信往返次數(shù)越多。
打開文件是需要給open()傳入flat_t表示讀寫權(quán)限柜裸,這些系統(tǒng)flag在client端會先轉(zhuǎn)換成CEPH_FILE_MODE_xxx缕陕,然后每個CEPH_FILE_MODE_xxx對應(yīng)到一組CAP CEPH_CAP_xxx,如果client已經(jīng)擁有所需CAP疙挺,則成功返回扛邑,否則向mds發(fā)起請求。

client側(cè)看open()

在只有一個client時铐然,client會作為loner擁有全部cap蔬崩,這種情況比較簡單,通常在一次請求內(nèi)就能完成搀暑。稍微復(fù)雜些的是多個client的情況沥阳。

第二個client調(diào)用open(path,O_RDWR)時mds中的處理

當client2 向mds發(fā)送OP_OPEN后,MDS端由Server::handle_client_open()來進行處理自点。處理過程主要是圖中的四步桐罕。
第一步加鎖是常規(guī)操作,為了防止父節(jié)點被刪除。
第二步issue_new_caps()在mds端記錄client2 聲稱需要的cap功炮,通過eval()驅(qū)動鎖的狀態(tài)進行轉(zhuǎn)換溅潜,因為有新的client加入,且兩個client都需要對文件進行寫操作薪伏,這時IFILE lock從之前的EXCL狀態(tài)向MIX轉(zhuǎn)換滚澜,在本例的情況下(client1成功打開文件后,client2發(fā)起打開請求)嫁怀,EXCL到MIX的狀態(tài)無法直接在MDS端完成设捐,因為client1在之前作為loner被授予了過多cap,這些cap要先收回眶掌,才能繼續(xù)向MIX轉(zhuǎn)換挡育。回收cap的是異步的朴爬,所以不會阻塞后續(xù)步驟即寒。
第三步check_inode_max_size()是為了記錄client2 對文件可寫入的范圍,這個數(shù)據(jù)作為client range被記錄到日志中召噩,用于故障恢復(fù)時使用母赵。這一步需要對IFILE進行wrlock,這次加寫鎖時不會有問題的具滴,因為根據(jù)狀態(tài)機凹嘲,EXCL->MIX狀態(tài)下是允許EXL角色進行wrlock的,剛好client1作為loner是XCL角色构韵,因此加鎖不會失敗周蹭。等日志落盤后鎖會被釋放,這時再根據(jù)當前狀態(tài)判斷是否發(fā)送新的cap給各個client疲恢,如果這時對client1的revoke cap還未完成凶朗,那么不會有新的cap發(fā)送給client,因為鎖的狀態(tài)沒有改變显拳,需要繼續(xù)等對client1 cap的收回(當然這個等待是異步的)棚愤。整個第三步也不會阻塞后續(xù)步驟。
第四步將inode信息發(fā)回給client2杂数。只有inode信息宛畦,沒有cap,cap會在其他過程中單獨發(fā)給client2(當mds完成對client1 的cap revoke時)揍移。

讀寫文件

文件打開后在系統(tǒng)層只是擁有了文件句柄次和,在實際調(diào)用read()write()前,文件的CAP可能還并沒有完全授予給client羊精,因此不論是Client::ll_read()還是Client::ll_write()都會先進行get_caps()斯够,確保已經(jīng)有相應(yīng)cap囚玫,如果沒有,就等待(通常情況下并不會向MDS發(fā)請求读规,因為沒有cap說明之前的open()調(diào)用還沒有真正結(jié)束抓督,open()調(diào)用完成時需要有兩個結(jié)果:1.inode信息被發(fā)回 2.cap被授予)。
讀寫文件需要的cap包括:

cap 用途
CEPH_CAP_FILE_RD 讀文件需要
CEPH_CAP_FILE_WR 寫文件需要
CEPH_CAP_FILE_CACHE 從本client的cache中讀文件需要
CEPH_CAP_FILE_CACHE 從本client的cache中寫文件需要

FILE_RDFILE_WR是必須讀寫文件時的CAP束亏。
FILE_CACHEFILE_BUFFER對應(yīng)常規(guī)文件系統(tǒng)里的緩沖概念铃在,每個client都可以把文件內(nèi)容cache在自己的內(nèi)存中,如果使用內(nèi)存中的數(shù)據(jù)碍遍,必須要有對應(yīng)的這兩個cap定铜。
這四個cap在get_caps()時會增加cap的引用計數(shù),在相應(yīng)的讀寫操作從RADOS返回后怕敬,引用計數(shù)被減小揣炕。當cap的引用計數(shù)不為0時,即使收到了mds的revoke cap請求东跪,client也是無法釋放cap的畸陡。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市虽填,隨后出現(xiàn)的幾起案子丁恭,更是在濱河造成了極大的恐慌,老刑警劉巖斋日,帶你破解...
    沈念sama閱讀 218,858評論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件牲览,死亡現(xiàn)場離奇詭異,居然都是意外死亡恶守,警方通過查閱死者的電腦和手機第献,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,372評論 3 395
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來兔港,“玉大人痊硕,你說我怎么就攤上這事⊙嚎颍” “怎么了?”我有些...
    開封第一講書人閱讀 165,282評論 0 356
  • 文/不壞的土叔 我叫張陵理逊,是天一觀的道長橡伞。 經(jīng)常有香客問我,道長晋被,這世上最難降的妖魔是什么兑徘? 我笑而不...
    開封第一講書人閱讀 58,842評論 1 295
  • 正文 為了忘掉前任,我火速辦了婚禮羡洛,結(jié)果婚禮上挂脑,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好崭闲,可當我...
    茶點故事閱讀 67,857評論 6 392
  • 文/花漫 我一把揭開白布肋联。 她就那樣靜靜地躺著,像睡著了一般刁俭。 火紅的嫁衣襯著肌膚如雪橄仍。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,679評論 1 305
  • 那天牍戚,我揣著相機與錄音侮繁,去河邊找鬼。 笑死如孝,一個胖子當著我的面吹牛宪哩,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播第晰,決...
    沈念sama閱讀 40,406評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼锁孟,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了但荤?” 一聲冷哼從身側(cè)響起罗岖,我...
    開封第一講書人閱讀 39,311評論 0 276
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎腹躁,沒想到半個月后桑包,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,767評論 1 315
  • 正文 獨居荒郊野嶺守林人離奇死亡纺非,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,945評論 3 336
  • 正文 我和宋清朗相戀三年哑了,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片烧颖。...
    茶點故事閱讀 40,090評論 1 350
  • 序言:一個原本活蹦亂跳的男人離奇死亡弱左,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出炕淮,到底是詐尸還是另有隱情拆火,我是刑警寧澤,帶...
    沈念sama閱讀 35,785評論 5 346
  • 正文 年R本政府宣布涂圆,位于F島的核電站们镜,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏润歉。R本人自食惡果不足惜模狭,卻給世界環(huán)境...
    茶點故事閱讀 41,420評論 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望踩衩。 院中可真熱鬧嚼鹉,春花似錦贩汉、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,988評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至宴树,卻和暖如春策菜,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背酒贬。 一陣腳步聲響...
    開封第一講書人閱讀 33,101評論 1 271
  • 我被黑心中介騙來泰國打工又憨, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人锭吨。 一個月前我還...
    沈念sama閱讀 48,298評論 3 372
  • 正文 我出身青樓蠢莺,卻偏偏與公主長得像,于是被迫代替她去往敵國和親零如。 傳聞我的和親對象是個殘疾皇子躏将,可洞房花燭夜當晚...
    茶點故事閱讀 45,033評論 2 355

推薦閱讀更多精彩內(nèi)容