CephFS 內(nèi)部實現(xiàn)（二）：示例

之前面試時被問到描述下一個請求的完整流程，當時的結(jié)果很不理想坷衍，今天嘗試重新組織下寝优，記錄在這里。

ceph-fuse1.png

這里有篇文章通俗易懂地描述了VFS層頁緩存在cephfs中會有哪些“坑”以及相應(yīng)策略枫耳。

mount后發(fā)生了什么乏矾？

ceph-fuse在不指定rootpath參數(shù)時，client端的root inode和mds的root一樣。如果指定了rootpath參數(shù)钻心，那么client端的root inode則是rootpath中的最后一個dentry的inode凄硼，不過從這個inode的往上一直到mds root inode的路徑上的所有inode也都會在client端存一份副本（下圖紅色圓圈節(jié)點），這些父節(jié)點是為了計算quota時使用捷沸，比如quota可能設(shè)置在了mds root inode上摊沉，這時client端如果沒有mds root inode則無法正確得到quota值，除此之外這些父節(jié)點inode別無他用痒给。

rootpath=/dir時

ceph-fuse接收到的請求一定是關(guān)于一個inode的说墨，這點可以通過Client::ll_xxx函數(shù)定義看出。而且這個inode必須是已經(jīng)從mds獲取過的苍柏。舉例來說尼斧，剛mount完成時，client端的元數(shù)據(jù)信息只有root inode（及其父節(jié)點inode）试吁，這時FUSE是不會直接向client（即ceph-fuse）請求一個非root inode直接子節(jié)點的棺棵，這一點是由VFS+FUSE模塊保證的。

打開文件

通過open()系統(tǒng)調(diào)用打開文件時熄捍，傳入?yún)?shù)是一個路徑烛恤，F(xiàn)USE模塊會從root節(jié)點一個dentry一個dentry地遍歷（通過Client::ll_lookup()）路徑，確保每個節(jié)點對應(yīng)的inode都已經(jīng)存在client端治唤。如果在一個剛mount好的client中請求一個目錄深度很深的路徑棒动，在系統(tǒng)調(diào)用上看只是一個請求，但實際上在client和mds間會產(chǎn)生多次通信宾添，路徑越深通信往返次數(shù)越多。
打開文件是需要給open()傳入flat_t表示讀寫權(quán)限柜裸，這些系統(tǒng)flag在client端會先轉(zhuǎn)換成CEPH_FILE_MODE_xxx缕陕，然后每個CEPH_FILE_MODE_xxx對應(yīng)到一組CAP CEPH_CAP_xxx，如果client已經(jīng)擁有所需CAP疙挺，則成功返回扛邑，否則向mds發(fā)起請求。

client側(cè)看open()

在只有一個client時铐然，client會作為loner擁有全部cap蔬崩，這種情況比較簡單，通常在一次請求內(nèi)就能完成搀暑。稍微復(fù)雜些的是多個client的情況沥阳。

第二個client調(diào)用open(path,O_RDWR)時mds中的處理

當client2 向mds發(fā)送OP_OPEN后，MDS端由Server::handle_client_open()來進行處理自点。處理過程主要是圖中的四步桐罕。
第一步加鎖是常規(guī)操作，為了防止父節(jié)點被刪除。
第二步issue_new_caps()在mds端記錄client2 聲稱需要的cap功炮，通過eval()驅(qū)動鎖的狀態(tài)進行轉(zhuǎn)換溅潜，因為有新的client加入，且兩個client都需要對文件進行寫操作薪伏，這時IFILE lock從之前的EXCL狀態(tài)向MIX轉(zhuǎn)換滚澜，在本例的情況下（client1成功打開文件后，client2發(fā)起打開請求）嫁怀，EXCL到MIX的狀態(tài)無法直接在MDS端完成设捐，因為client1在之前作為loner被授予了過多cap，這些cap要先收回眶掌，才能繼續(xù)向MIX轉(zhuǎn)換挡育。回收cap的是異步的朴爬，所以不會阻塞后續(xù)步驟即寒。
第三步check_inode_max_size()是為了記錄client2 對文件可寫入的范圍，這個數(shù)據(jù)作為client range被記錄到日志中召噩，用于故障恢復(fù)時使用母赵。這一步需要對IFILE進行wrlock，這次加寫鎖時不會有問題的具滴，因為根據(jù)狀態(tài)機凹嘲，EXCL->MIX狀態(tài)下是允許EXL角色進行wrlock的，剛好client1作為loner是XCL角色构韵，因此加鎖不會失敗周蹭。等日志落盤后鎖會被釋放，這時再根據(jù)當前狀態(tài)判斷是否發(fā)送新的cap給各個client疲恢，如果這時對client1的revoke cap還未完成凶朗，那么不會有新的cap發(fā)送給client，因為鎖的狀態(tài)沒有改變显拳，需要繼續(xù)等對client1 cap的收回（當然這個等待是異步的）棚愤。整個第三步也不會阻塞后續(xù)步驟。
第四步將inode信息發(fā)回給client2杂数。只有inode信息宛畦，沒有cap，cap會在其他過程中單獨發(fā)給client2（當mds完成對client1 的cap revoke時）揍移。

讀寫文件

文件打開后在系統(tǒng)層只是擁有了文件句柄次和，在實際調(diào)用read()或write()前，文件的CAP可能還并沒有完全授予給client羊精，因此不論是Client::ll_read()還是Client::ll_write()都會先進行get_caps()斯够，確保已經(jīng)有相應(yīng)cap囚玫，如果沒有，就等待（通常情況下并不會向MDS發(fā)請求读规，因為沒有cap說明之前的open()調(diào)用還沒有真正結(jié)束抓督，open()調(diào)用完成時需要有兩個結(jié)果：1.inode信息被發(fā)回 2.cap被授予）。
讀寫文件需要的cap包括：

cap	用途
CEPH_CAP_FILE_RD	讀文件需要
CEPH_CAP_FILE_WR	寫文件需要
CEPH_CAP_FILE_CACHE	從本client的cache中讀文件需要
CEPH_CAP_FILE_CACHE	從本client的cache中寫文件需要

FILE_RD和FILE_WR是必須讀寫文件時的CAP束亏。
FILE_CACHE和FILE_BUFFER對應(yīng)常規(guī)文件系統(tǒng)里的緩沖概念铃在，每個client都可以把文件內(nèi)容cache在自己的內(nèi)存中，如果使用內(nèi)存中的數(shù)據(jù)碍遍，必須要有對應(yīng)的這兩個cap定铜。
這四個cap在get_caps()時會增加cap的引用計數(shù)，在相應(yīng)的讀寫操作從RADOS返回后怕敬，引用計數(shù)被減小揣炕。當cap的引用計數(shù)不為0時，即使收到了mds的revoke cap請求东跪，client也是無法釋放cap的畸陡。

最后編輯于：2020.03.17 08:50:01

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市虽填，隨后出現(xiàn)的幾起案子丁恭，更是在濱河造成了極大的恐慌，老刑警劉巖斋日，帶你破解...
沈念sama閱讀 218,858評論 6贊 508
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件牲览，死亡現(xiàn)場離奇詭異，居然都是意外死亡恶守，警方通過查閱死者的電腦和手機第献，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 93,372評論 3贊 395
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來兔港，“玉大人痊硕，你說我怎么就攤上這事⊙嚎颍” “怎么了？”我有些...
開封第一講書人閱讀 165,282評論 0贊 356
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵理逊，是天一觀的道長橡伞。經(jīng)常有香客問我，道長晋被，這世上最難降的妖魔是什么兑徘？我笑而不...
開封第一講書人閱讀 58,842評論 1贊 295
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮羡洛，結(jié)果婚禮上挂脑，老公的妹妹穿的比我還像新娘。我一直安慰自己，他們只是感情好崭闲，可當我...
茶點故事閱讀 67,857評論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布肋联。她就那樣靜靜地躺著，像睡著了一般刁俭。火紅的嫁衣襯著肌膚如雪橄仍。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 51,679評論 1贊 305
城市分裂傳說
那天牍戚，我揣著相機與錄音侮繁，去河邊找鬼。笑死如孝，一個胖子當著我的面吹牛宪哩，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播第晰，決...
沈念sama閱讀 40,406評論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼锁孟，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了但荤？” 一聲冷哼從身側(cè)響起罗岖，我...
開封第一講書人閱讀 39,311評論 0贊 276
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎腹躁，沒想到半個月后桑包，有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 45,767評論 1贊 315
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡纺非，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 37,945評論 3贊 336
?白月光啟示錄
正文我和宋清朗相戀三年哑了，在試婚紗的時候發(fā)現(xiàn)自己被綠了。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片烧颖。...
茶點故事閱讀 40,090評論 1贊 350
活死人
序言：一個原本活蹦亂跳的男人離奇死亡弱左，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出炕淮，到底是詐尸還是另有隱情拆火，我是刑警寧澤，帶...
沈念sama閱讀 35,785評論 5贊 346
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布涂圆，位于F島的核電站们镜，受9級特大地震影響，放射性物質(zhì)發(fā)生泄漏润歉。R本人自食惡果不足惜模狭，卻給世界環(huán)境...
茶點故事閱讀 41,420評論 3贊 331
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望踩衩。院中可真熱鬧嚼鹉，春花似錦贩汉、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,988評論 0贊 22
一樁弒父案匹舞，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至宴树，卻和暖如春策菜，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背酒贬。一陣腳步聲響...
開封第一講書人閱讀 33,101評論 1贊 271
情欲美人皮
我被黑心中介騙來泰國打工又憨，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留，地道東北人锭吨。一個月前我還...
沈念sama閱讀 48,298評論 3贊 372
代替公主和親
正文我出身青樓蠢莺，卻偏偏與公主長得像，于是被迫代替她去往敵國和親零如。傳聞我的和親對象是個殘疾皇子躏将，可洞房花燭夜當晚...
茶點故事閱讀 45,033評論 2贊 355

CephFS 內(nèi)部實現(xiàn)（二）：示例

mount后發(fā)生了什么乏矾？

打開文件

讀寫文件

推薦閱讀更多精彩內(nèi)容