Linux inode 詳解以及MySQL如何利用硬鏈接刪除大表

操作系統(tǒng)的文件數(shù)據(jù)除了實(shí)際內(nèi)容之外干旧,通常含有非常多的屬性养筒,例如Linux操作系統(tǒng)的文件權(quán)限與文件屬性郑叠。文件系統(tǒng)通常會(huì)將這兩部分內(nèi)容分別存放在inode和block中裆装。


inode 和 block 概述

文件是存儲(chǔ)在硬盤上的秋泳,硬盤的最小存儲(chǔ)單位叫做扇區(qū)sector潦闲,每個(gè)扇區(qū)存儲(chǔ)512字節(jié)。操作系統(tǒng)讀取硬盤的時(shí)候迫皱,不會(huì)一個(gè)個(gè)扇區(qū)地讀取歉闰,這樣效率太低辖众,而是一次性連續(xù)讀取多個(gè)扇區(qū),即一次性讀取一個(gè)塊block和敬。這種由多個(gè)扇區(qū)組成的塊凹炸,是文件存取的最小單位。塊的大小昼弟,最常見的是4KB啤它,即連續(xù)八個(gè)sector組成一個(gè)block
文件數(shù)據(jù)存儲(chǔ)在塊中舱痘,那么還必須找到一個(gè)地方存儲(chǔ)文件的元信息变骡,比如文件的創(chuàng)建者、文件的創(chuàng)建日期芭逝、文件的大小等等塌碌。這種存儲(chǔ)文件元信息的區(qū)域就叫做inode,中文譯名為索引節(jié)點(diǎn)旬盯,也叫i節(jié)點(diǎn)台妆。因此,一個(gè)文件必須占用一個(gè)inode胖翰,但至少占用一個(gè)block接剩。

  • 元信息 → inode
  • 數(shù)據(jù) → block

inode 內(nèi)容

inode包含很多的文件元信息,但不包含文件名萨咳,例如:字節(jié)數(shù)搂漠、屬主UserID、屬組GroupID某弦、讀寫執(zhí)行權(quán)限桐汤、時(shí)間戳等。

而文件名存放在目錄當(dāng)中靶壮,但Linux系統(tǒng)內(nèi)部不使用文件名怔毛,而是使用inode號(hào)碼識(shí)別文件。對(duì)于系統(tǒng)來說文件名只是inode號(hào)碼便于識(shí)別的別稱腾降。

stat

  • 查看inode信息
[root@localhost ~]# mkdir test
[root@localhost ~]# echo "this is test file" > test.txt
[root@localhost ~]# stat test.txt
  File: ‘test.txt’
  Size: 18              Blocks: 8          IO Block: 4096   regular file
Device: fd00h/64768d    Inode: 33574994    Links: 1
Access: (0644/-rw-r--r--)  Uid: (    0/    root)   Gid: (    0/    root)
Context: unconfined_u:object_r:admin_home_t:s0
Access: 2019-08-28 19:55:05.920240744 +0800
Modify: 2019-08-28 19:55:05.920240744 +0800
Change: 2019-08-28 19:55:05.920240744 +0800
 Birth: -

三個(gè)主要的時(shí)間屬性:

  • ctime:change time是最后一次改變文件或目錄(屬性)的時(shí)間拣度,例如執(zhí)行chmod,chown等命令螃壤。
  • atime:access time是最后一次訪問文件或目錄的時(shí)間抗果。
  • mtime:modify time是最后一次修改文件或目錄(內(nèi)容)的時(shí)間。

file

  • 查看文件類型
[root@localhost ~]# file test
test: directory
[root@localhost ~]# file test.txt
test.txt: ASCII text

inode 號(hào)碼

表面上奸晴,用戶通過文件名打開文件冤馏,實(shí)際上,系統(tǒng)內(nèi)部將這個(gè)過程分為三步:

1.系統(tǒng)找到這個(gè)文件名對(duì)應(yīng)的inode號(hào)碼寄啼;
2.通過inode號(hào)碼逮光,獲取inode信息代箭;
3.根據(jù)inode信息,找到文件數(shù)據(jù)所在的block涕刚,并讀出數(shù)據(jù)嗡综。

其實(shí)系統(tǒng)還要根據(jù)inode信息,看用戶是否具有訪問的權(quán)限杜漠,有就指向?qū)?yīng)的數(shù)據(jù)block极景,沒有就返回權(quán)限拒絕。

ls -i

  • 直接查看文件i節(jié)點(diǎn)號(hào)驾茴,也可以通過stat查看文件inode信息查看i節(jié)點(diǎn)號(hào)戴陡。
[root@localhost ~]# ls -i
33574991 anaconda-ks.cfg      2086 test  33574994 test.txt

inode 大小

inode也會(huì)消耗硬盤空間,所以格式化的時(shí)候沟涨,操作系統(tǒng)自動(dòng)將硬盤分成兩個(gè)區(qū)域恤批。一個(gè)是數(shù)據(jù)區(qū),存放文件數(shù)據(jù)裹赴;另一個(gè)是inode區(qū)喜庞,存放inode所包含的信息。每個(gè)inode的大小棋返,一般是128字節(jié)或256字節(jié)延都。通常情況下不需要關(guān)注單個(gè)inode的大小,而是需要重點(diǎn)關(guān)注inode總數(shù)睛竣。inode總數(shù)在格式化的時(shí)候就確定了晰房。

df -i

  • 查看硬盤分區(qū)的inode總數(shù)和已使用情況
[root@localhost ~]# df -i
Filesystem               Inodes IUsed   IFree IUse% Mounted on
/dev/mapper/centos-root 8910848 26029 8884819    1% /
devtmpfs                 230602   384  230218    1% /dev
tmpfs                    233378     1  233377    1% /dev/shm
tmpfs                    233378   487  232891    1% /run
tmpfs                    233378    16  233362    1% /sys/fs/cgroup
/dev/sda1                524288   328  523960    1% /boot
tmpfs                    233378     1  233377    1% /run/user/0

特有現(xiàn)象

由于inode號(hào)碼與文件名分離,導(dǎo)致一些Unix/Linux系統(tǒng)具備以下幾種特有的現(xiàn)象射沟。

  1. 文件名包含特殊字符殊者,可能無法正常刪除。這時(shí)直接刪除inode验夯,能夠起到刪除文件的作用猖吴;
find ./* -inum 節(jié)點(diǎn)號(hào) -delete
  1. 移動(dòng)文件或重命名文件,只是改變文件名挥转,不影響inode號(hào)碼海蔽;
  2. 打開一個(gè)文件以后,系統(tǒng)就以inode號(hào)碼來識(shí)別這個(gè)文件绑谣,不再考慮文件名党窜。

這種情況使得軟件更新變得簡單,可以在不關(guān)閉軟件的情況下進(jìn)行更新借宵,不需要重啟幌衣。因?yàn)橄到y(tǒng)通過inode號(hào)碼,識(shí)別運(yùn)行中的文件暇务,不通過文件名泼掠。更新的時(shí)候怔软,新版文件以同樣的文件名垦细,生成一個(gè)新的inode择镇,不會(huì)影響到運(yùn)行中的文件。等到下一次運(yùn)行這個(gè)軟件的時(shí)候括改,文件名就自動(dòng)指向新版文件腻豌,舊版文件的inode則被回收。

inode耗盡故障

由于硬盤分區(qū)的inode總數(shù)在格式化后就已經(jīng)固定嘱能,而每個(gè)文件必須有一個(gè)inode吝梅,因此就有可能發(fā)生inode節(jié)點(diǎn)用光,但硬盤空間還剩不少惹骂,卻無法創(chuàng)建新文件苏携。同時(shí)這也是一種攻擊的方式,所以一些公用的文件系統(tǒng)就要做磁盤限額对粪,以防止影響到系統(tǒng)的正常運(yùn)行右冻。

至于修復(fù),很簡單著拭,只要找出哪些大量占用i節(jié)點(diǎn)的文件刪除就可以了纱扭。
demo:

  1. 先準(zhǔn)備一個(gè)比較小的硬盤分區(qū)/dev/sdb1,并格式化掛載儡遮,這里掛載到了/data目錄下乳蛾。
[root@localhost ~]# df -hT /data/
Filesystem     Type  Size  Used Avail Use% Mounted on
/dev/sdb1      xfs    29M  1.8M   27M   6% /data
  1. 先測(cè)試可以正常創(chuàng)建文件。
[root@localhost ~]# touch /data/test{1..5}.txt
[root@localhost ~]# ls /data/
test1.txt  test2.txt  test3.txt  test4.txt  test5.txt
  1. 查看i節(jié)點(diǎn)的使用情況鄙币。
[root@localhost ~]# df -i /data/
Filesystem     Inodes IUsed IFree IUse% Mounted on
/dev/sdb1       16384     8 16376    1% /data
  1. 編寫一個(gè)測(cè)試程序肃叶,創(chuàng)建大量空文件,用于耗盡此分區(qū)中的i節(jié)點(diǎn)數(shù)十嘿。
[root@localhost ~]# vim killinode.sh
#!/bin/bash
i=1
while [ $i -le 16376 ]
do
touch /data/file$i
let i++
done
  1. 運(yùn)行測(cè)試程序被环,結(jié)束后查看i節(jié)點(diǎn)占用情況,磁盤分區(qū)空間使用情況详幽。
[root@localhost ~]# sh killinode.sh
[root@localhost ~]# df -i /data/
Filesystem     Inodes IUsed IFree IUse% Mounted on
/dev/sdb1       16384 16384     0  100% /data
[root@localhost ~]# df -hT /data/
Filesystem     Type  Size  Used Avail Use% Mounted on
/dev/sdb1      xfs    29M   11M   19M  36% /data
  1. 雖然還有很多剩余空間筛欢,但是i節(jié)點(diǎn)耗盡了,也無法創(chuàng)建創(chuàng)建新文件唇聘,這就是i節(jié)點(diǎn)耗盡故障版姑。
[root@localhost ~]# touch /data/newfile.txt
touch: cannot touch ‘/data/newfile.txt’: No space left on device

硬鏈接和軟連接

硬鏈接

通過文件系統(tǒng)的inode鏈接來產(chǎn)生的新的文件名,而不是產(chǎn)生新的文件迟郎,稱為硬鏈接剥险。
一般情況下,每個(gè)inode號(hào)碼對(duì)應(yīng)一個(gè)文件名宪肖,但是Linux允許多個(gè)文件名指向同一個(gè)inode號(hào)碼表制。意味著可以使用不同的文件名訪問相同的內(nèi)容健爬。

ln 源文件 目標(biāo)

運(yùn)行該命令以后,源文件與目標(biāo)文件的inode號(hào)碼相同么介,都指向同一個(gè)inode娜遵。inode信息中的鏈接數(shù)這時(shí)就會(huì)增加1。

當(dāng)一個(gè)文件擁有多個(gè)硬鏈接時(shí)壤短,對(duì)文件內(nèi)容修改设拟,會(huì)影響到所有文件名;但是刪除一個(gè)文件名久脯,不影響另一個(gè)文件名的訪問纳胧。刪除一個(gè)文件名,只會(huì)使得inode中的鏈接數(shù)減1帘撰。

需要注意的是不能對(duì)目錄做硬鏈接跑慕。

通過mkdir命令創(chuàng)建一個(gè)新目錄,其硬鏈接數(shù)應(yīng)該有2個(gè)摧找,因?yàn)槌R姷哪夸洷旧頌?個(gè)硬鏈接核行,而目錄下面的隱藏目錄.(點(diǎn)號(hào))是該目錄的又一個(gè)硬鏈接,也算是1個(gè)連接數(shù)慰于。

軟鏈接

類似于Windows的快捷方式功能的文件钮科,可以快速連接到目標(biāo)文件或目錄,稱為軟鏈接婆赠。

ln -s 源文件或目錄 目標(biāo)文件或目錄

軟鏈接就是再創(chuàng)建一個(gè)獨(dú)立的文件绵脯,而這個(gè)文件會(huì)讓數(shù)據(jù)的讀取指向它連接的那個(gè)文件的文件名。例如休里,文件A和文件B的inode號(hào)碼雖然不一樣蛆挫,但是文件A的內(nèi)容是文件B的路徑。讀取文件A時(shí)妙黍,系統(tǒng)會(huì)自動(dòng)將訪問者導(dǎo)向文件B悴侵。這時(shí),文件A就稱為文件B的軟鏈接soft link或者符號(hào)鏈接symbolic link拭嫁。

這意味著可免,文件A依賴于文件B而存在,如果刪除了文件B做粤,打開文件A就會(huì)報(bào)錯(cuò)浇借。這是軟鏈接與硬鏈接最大的不同:文件A指向文件B的文件名,而不是文件B的inode號(hào)碼怕品,文件B的inode鏈接數(shù)不會(huì)因此發(fā)生變化妇垢。


MySQL利用硬鏈接刪除大表

Introduce

MySQL中刪除比較大的表時(shí),如果直接用drop table的方式進(jìn)行刪除,有可能會(huì)對(duì)整個(gè)實(shí)例產(chǎn)生影響甚至使得實(shí)例夯住闯估。因此可以通過硬鏈接的方式對(duì)表進(jìn)行刪除灼舍,使得對(duì)生產(chǎn)環(huán)境的影響降到最低。

drop table 的過程

1.持有 buffer pool mutex涨薪;

2.持有 buffer pool 中的 flush list mutex骑素;

3.開始掃描 LRU list:

1.如果 dirty page 屬于 drop table,那么就直接從 LRU list 中移除尤辱;

2.如果刪除的 page 個(gè)數(shù)超過了define buf_lru_drop_search_size 1024的話砂豌,則釋放 buffer pool mutex 和 flush list mutex 厢岂,強(qiáng)制通過 pthread_yield 進(jìn)行一次 os context switch 光督,釋放 cpu 時(shí)間片;

3.重新持有 buffer pool mutex 和 flush list mutex塔粒,繼續(xù)遍歷 LRU list结借,直到 LRU 的表頭。

4.釋放 flush list mutex卒茬;

5.釋放 buffer pool mutex船老。

6.再次重復(fù)上述的 1-5 步驟,只不過 1-5 是刪除 dirty page圃酵,這次的重復(fù)執(zhí)行柳畔,刪除的是 buffer pool 中的 clean page。

簡單來看郭赐,整個(gè)過程可以簡化為:

1.獲取 buffer pool mutex 和 flush list mutex薪韩;

2.從尾部開始遍歷 LRU 鏈表;

3.如果是 dirty page捌锭,那么將 dirty page 置為 clean page俘陷,并從 flush list 中刪除;

4.然后進(jìn)行第二次遍歷 LRU观谦,將 page 從 LRU 中移動(dòng)到 free list 中拉盾;

5.釋放 buffer pool mutex 和 flush list mutex。

在整個(gè)刪除表的過程中豁状,持有了 buffer pool mutex 和 flush list mutex 捉偏,如果整個(gè) buffer pool 比較大,或者表有較多的臟頁泻红,那么持有鎖的時(shí)間會(huì)比較長夭禽,導(dǎo)致其他事務(wù)在用到這個(gè) buffer pool 的時(shí)候被阻塞,現(xiàn)象上來看就是這個(gè)實(shí)例被夯住承桥。

硬鏈接刪除表

1. 主庫和從庫上對(duì)表建立硬鏈接
ln table_1.ibd table_1.ibd.hdlk

ln table_1.frm table_1.frm.hdlk
2. 在主庫進(jìn)行 drop table
drop table table_1;
3. 在 os 層刪除物理文件
rm table_1.ibd.hdlk
rm table_1.frm.hdlk
4. 如果表達(dá)到 500G 或者上 TB驻粟,則可以用 truncate 命令進(jìn)行截?cái)鄤h除
truncate -s 2G table_1.ibd.hdlk

參考鏈接:
https://www.cnblogs.com/llife/p/11470668.html

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子蜀撑,更是在濱河造成了極大的恐慌挤巡,老刑警劉巖,帶你破解...
    沈念sama閱讀 218,682評(píng)論 6 507
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件酷麦,死亡現(xiàn)場(chǎng)離奇詭異矿卑,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)沃饶,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,277評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門母廷,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人糊肤,你說我怎么就攤上這事琴昆。” “怎么了馆揉?”我有些...
    開封第一講書人閱讀 165,083評(píng)論 0 355
  • 文/不壞的土叔 我叫張陵业舍,是天一觀的道長。 經(jīng)常有香客問我升酣,道長舷暮,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,763評(píng)論 1 295
  • 正文 為了忘掉前任噩茄,我火速辦了婚禮下面,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘绩聘。我一直安慰自己沥割,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,785評(píng)論 6 392
  • 文/花漫 我一把揭開白布君纫。 她就那樣靜靜地躺著驯遇,像睡著了一般。 火紅的嫁衣襯著肌膚如雪蓄髓。 梳的紋絲不亂的頭發(fā)上叉庐,一...
    開封第一講書人閱讀 51,624評(píng)論 1 305
  • 那天,我揣著相機(jī)與錄音会喝,去河邊找鬼陡叠。 笑死,一個(gè)胖子當(dāng)著我的面吹牛肢执,可吹牛的內(nèi)容都是我干的枉阵。 我是一名探鬼主播,決...
    沈念sama閱讀 40,358評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼预茄,長吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼兴溜!你這毒婦竟也來了侦厚?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,261評(píng)論 0 276
  • 序言:老撾萬榮一對(duì)情侶失蹤拙徽,失蹤者是張志新(化名)和其女友劉穎刨沦,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體膘怕,經(jīng)...
    沈念sama閱讀 45,722評(píng)論 1 315
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡想诅,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,900評(píng)論 3 336
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了岛心。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片来破。...
    茶點(diǎn)故事閱讀 40,030評(píng)論 1 350
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖忘古,靈堂內(nèi)的尸體忽然破棺而出徘禁,到底是詐尸還是另有隱情,我是刑警寧澤存皂,帶...
    沈念sama閱讀 35,737評(píng)論 5 346
  • 正文 年R本政府宣布晌坤,位于F島的核電站逢艘,受9級(jí)特大地震影響旦袋,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜它改,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,360評(píng)論 3 330
  • 文/蒙蒙 一疤孕、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧央拖,春花似錦祭阀、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,941評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至遏餐,卻和暖如春伦腐,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背失都。 一陣腳步聲響...
    開封第一講書人閱讀 33,057評(píng)論 1 270
  • 我被黑心中介騙來泰國打工柏蘑, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人粹庞。 一個(gè)月前我還...
    沈念sama閱讀 48,237評(píng)論 3 371
  • 正文 我出身青樓咳焚,卻偏偏與公主長得像,于是被迫代替她去往敵國和親庞溜。 傳聞我的和親對(duì)象是個(gè)殘疾皇子革半,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,976評(píng)論 2 355