操作系統(tǒng)的文件數(shù)據(jù)除了實(shí)際內(nèi)容之外干旧,通常含有非常多的屬性养筒,例如Linux操作系統(tǒng)的文件權(quán)限與文件屬性郑叠。文件系統(tǒng)通常會(huì)將這兩部分內(nèi)容分別存放在inode和block中裆装。
inode 和 block 概述
文件是存儲(chǔ)在硬盤上的秋泳,硬盤的最小存儲(chǔ)單位叫做扇區(qū)sector
潦闲,每個(gè)扇區(qū)存儲(chǔ)512字節(jié)
。操作系統(tǒng)讀取硬盤的時(shí)候迫皱,不會(huì)一個(gè)個(gè)扇區(qū)地讀取歉闰,這樣效率太低辖众,而是一次性連續(xù)讀取多個(gè)扇區(qū),即一次性讀取一個(gè)塊block
和敬。這種由多個(gè)扇區(qū)組成的塊凹炸,是文件存取的最小單位。塊的大小昼弟,最常見的是4KB啤它,即連續(xù)八個(gè)sector
組成一個(gè)block
。
文件數(shù)據(jù)存儲(chǔ)在塊中舱痘,那么還必須找到一個(gè)地方存儲(chǔ)文件的元信息变骡,比如文件的創(chuàng)建者、文件的創(chuàng)建日期芭逝、文件的大小等等塌碌。這種存儲(chǔ)文件元信息的區(qū)域就叫做inode,中文譯名為索引節(jié)點(diǎn)旬盯,也叫i節(jié)點(diǎn)台妆。因此,一個(gè)文件必須占用一個(gè)inode胖翰,但至少占用一個(gè)block接剩。
- 元信息 → inode
- 數(shù)據(jù) → block
inode 內(nèi)容
inode包含很多的文件元信息,但不包含文件名萨咳,例如:字節(jié)數(shù)搂漠、屬主UserID、屬組GroupID某弦、讀寫執(zhí)行權(quán)限桐汤、時(shí)間戳等。
而文件名存放在目錄當(dāng)中靶壮,但Linux系統(tǒng)內(nèi)部不使用文件名怔毛,而是使用inode號(hào)碼識(shí)別文件。對(duì)于系統(tǒng)來說文件名只是inode號(hào)碼便于識(shí)別的別稱腾降。
stat
- 查看inode信息
[root@localhost ~]# mkdir test
[root@localhost ~]# echo "this is test file" > test.txt
[root@localhost ~]# stat test.txt
File: ‘test.txt’
Size: 18 Blocks: 8 IO Block: 4096 regular file
Device: fd00h/64768d Inode: 33574994 Links: 1
Access: (0644/-rw-r--r--) Uid: ( 0/ root) Gid: ( 0/ root)
Context: unconfined_u:object_r:admin_home_t:s0
Access: 2019-08-28 19:55:05.920240744 +0800
Modify: 2019-08-28 19:55:05.920240744 +0800
Change: 2019-08-28 19:55:05.920240744 +0800
Birth: -
三個(gè)主要的時(shí)間屬性:
- ctime:change time是最后一次改變文件或目錄(屬性)的時(shí)間拣度,例如執(zhí)行chmod,chown等命令螃壤。
- atime:access time是最后一次訪問文件或目錄的時(shí)間抗果。
- mtime:modify time是最后一次修改文件或目錄(內(nèi)容)的時(shí)間。
file
- 查看文件類型
[root@localhost ~]# file test
test: directory
[root@localhost ~]# file test.txt
test.txt: ASCII text
inode 號(hào)碼
表面上奸晴,用戶通過文件名打開文件冤馏,實(shí)際上,系統(tǒng)內(nèi)部將這個(gè)過程分為三步:
1.系統(tǒng)找到這個(gè)文件名對(duì)應(yīng)的inode號(hào)碼寄啼;
2.通過inode號(hào)碼逮光,獲取inode信息代箭;
3.根據(jù)inode信息,找到文件數(shù)據(jù)所在的block涕刚,并讀出數(shù)據(jù)嗡综。
其實(shí)系統(tǒng)還要根據(jù)inode信息,看用戶是否具有訪問的權(quán)限杜漠,有就指向?qū)?yīng)的數(shù)據(jù)block极景,沒有就返回權(quán)限拒絕。
ls -i
- 直接查看文件i節(jié)點(diǎn)號(hào)驾茴,也可以通過stat查看文件inode信息查看i節(jié)點(diǎn)號(hào)戴陡。
[root@localhost ~]# ls -i
33574991 anaconda-ks.cfg 2086 test 33574994 test.txt
inode 大小
inode也會(huì)消耗硬盤空間,所以格式化的時(shí)候沟涨,操作系統(tǒng)自動(dòng)將硬盤分成兩個(gè)區(qū)域恤批。一個(gè)是數(shù)據(jù)區(qū),存放文件數(shù)據(jù)裹赴;另一個(gè)是inode區(qū)喜庞,存放inode所包含的信息。每個(gè)inode的大小棋返,一般是128字節(jié)或256字節(jié)延都。通常情況下不需要關(guān)注單個(gè)inode的大小,而是需要重點(diǎn)關(guān)注inode總數(shù)睛竣。inode總數(shù)在格式化的時(shí)候就確定了晰房。
df -i
- 查看硬盤分區(qū)的inode總數(shù)和已使用情況
[root@localhost ~]# df -i
Filesystem Inodes IUsed IFree IUse% Mounted on
/dev/mapper/centos-root 8910848 26029 8884819 1% /
devtmpfs 230602 384 230218 1% /dev
tmpfs 233378 1 233377 1% /dev/shm
tmpfs 233378 487 232891 1% /run
tmpfs 233378 16 233362 1% /sys/fs/cgroup
/dev/sda1 524288 328 523960 1% /boot
tmpfs 233378 1 233377 1% /run/user/0
特有現(xiàn)象
由于inode號(hào)碼與文件名分離,導(dǎo)致一些Unix/Linux系統(tǒng)具備以下幾種特有的現(xiàn)象射沟。
- 文件名包含特殊字符殊者,可能無法正常刪除。這時(shí)直接刪除inode验夯,能夠起到刪除文件的作用猖吴;
find ./* -inum 節(jié)點(diǎn)號(hào) -delete
- 移動(dòng)文件或重命名文件,只是改變文件名挥转,不影響inode號(hào)碼海蔽;
- 打開一個(gè)文件以后,系統(tǒng)就以inode號(hào)碼來識(shí)別這個(gè)文件绑谣,不再考慮文件名党窜。
這種情況使得軟件更新變得簡單,可以在不關(guān)閉軟件的情況下進(jìn)行更新借宵,不需要重啟幌衣。因?yàn)橄到y(tǒng)通過inode號(hào)碼,識(shí)別運(yùn)行中的文件暇务,不通過文件名泼掠。更新的時(shí)候怔软,新版文件以同樣的文件名垦细,生成一個(gè)新的inode择镇,不會(huì)影響到運(yùn)行中的文件。等到下一次運(yùn)行這個(gè)軟件的時(shí)候括改,文件名就自動(dòng)指向新版文件腻豌,舊版文件的inode則被回收。
inode耗盡故障
由于硬盤分區(qū)的inode總數(shù)在格式化后就已經(jīng)固定嘱能,而每個(gè)文件必須有一個(gè)inode吝梅,因此就有可能發(fā)生inode節(jié)點(diǎn)用光,但硬盤空間還剩不少惹骂,卻無法創(chuàng)建新文件苏携。同時(shí)這也是一種攻擊的方式,所以一些公用的文件系統(tǒng)就要做磁盤限額对粪,以防止影響到系統(tǒng)的正常運(yùn)行右冻。
至于修復(fù),很簡單著拭,只要找出哪些大量占用i節(jié)點(diǎn)的文件刪除就可以了纱扭。
demo:
- 先準(zhǔn)備一個(gè)比較小的硬盤分區(qū)/dev/sdb1,并格式化掛載儡遮,這里掛載到了/data目錄下乳蛾。
[root@localhost ~]# df -hT /data/
Filesystem Type Size Used Avail Use% Mounted on
/dev/sdb1 xfs 29M 1.8M 27M 6% /data
- 先測(cè)試可以正常創(chuàng)建文件。
[root@localhost ~]# touch /data/test{1..5}.txt
[root@localhost ~]# ls /data/
test1.txt test2.txt test3.txt test4.txt test5.txt
- 查看i節(jié)點(diǎn)的使用情況鄙币。
[root@localhost ~]# df -i /data/
Filesystem Inodes IUsed IFree IUse% Mounted on
/dev/sdb1 16384 8 16376 1% /data
- 編寫一個(gè)測(cè)試程序肃叶,創(chuàng)建大量空文件,用于耗盡此分區(qū)中的i節(jié)點(diǎn)數(shù)十嘿。
[root@localhost ~]# vim killinode.sh
#!/bin/bash
i=1
while [ $i -le 16376 ]
do
touch /data/file$i
let i++
done
- 運(yùn)行測(cè)試程序被环,結(jié)束后查看i節(jié)點(diǎn)占用情況,磁盤分區(qū)空間使用情況详幽。
[root@localhost ~]# sh killinode.sh
[root@localhost ~]# df -i /data/
Filesystem Inodes IUsed IFree IUse% Mounted on
/dev/sdb1 16384 16384 0 100% /data
[root@localhost ~]# df -hT /data/
Filesystem Type Size Used Avail Use% Mounted on
/dev/sdb1 xfs 29M 11M 19M 36% /data
- 雖然還有很多剩余空間筛欢,但是i節(jié)點(diǎn)耗盡了,也無法創(chuàng)建創(chuàng)建新文件唇聘,這就是i節(jié)點(diǎn)耗盡故障版姑。
[root@localhost ~]# touch /data/newfile.txt
touch: cannot touch ‘/data/newfile.txt’: No space left on device
硬鏈接和軟連接
硬鏈接
通過文件系統(tǒng)的inode鏈接來產(chǎn)生的新的文件名,而不是產(chǎn)生新的文件迟郎,稱為硬鏈接剥险。
一般情況下,每個(gè)inode號(hào)碼對(duì)應(yīng)一個(gè)文件名宪肖,但是Linux允許多個(gè)文件名指向同一個(gè)inode號(hào)碼表制。意味著可以使用不同的文件名訪問相同的內(nèi)容健爬。
ln 源文件 目標(biāo)
運(yùn)行該命令以后,源文件與目標(biāo)文件的inode號(hào)碼相同么介,都指向同一個(gè)inode娜遵。inode信息中的鏈接數(shù)這時(shí)就會(huì)增加1。
當(dāng)一個(gè)文件擁有多個(gè)硬鏈接時(shí)壤短,對(duì)文件內(nèi)容修改设拟,會(huì)影響到所有文件名;但是刪除一個(gè)文件名久脯,不影響另一個(gè)文件名的訪問纳胧。刪除一個(gè)文件名,只會(huì)使得inode中的鏈接數(shù)減1帘撰。
需要注意的是不能對(duì)目錄做硬鏈接跑慕。
通過mkdir命令創(chuàng)建一個(gè)新目錄,其硬鏈接數(shù)應(yīng)該有2個(gè)摧找,因?yàn)槌R姷哪夸洷旧頌?個(gè)硬鏈接核行,而目錄下面的隱藏目錄.(點(diǎn)號(hào))是該目錄的又一個(gè)硬鏈接,也算是1個(gè)連接數(shù)慰于。
軟鏈接
類似于Windows的快捷方式功能的文件钮科,可以快速連接到目標(biāo)文件或目錄,稱為軟鏈接婆赠。
ln -s 源文件或目錄 目標(biāo)文件或目錄
軟鏈接就是再創(chuàng)建一個(gè)獨(dú)立的文件绵脯,而這個(gè)文件會(huì)讓數(shù)據(jù)的讀取指向它連接的那個(gè)文件的文件名。例如休里,文件A和文件B的inode號(hào)碼雖然不一樣蛆挫,但是文件A的內(nèi)容是文件B的路徑。讀取文件A時(shí)妙黍,系統(tǒng)會(huì)自動(dòng)將訪問者導(dǎo)向文件B悴侵。這時(shí),文件A就稱為文件B的軟鏈接soft link或者符號(hào)鏈接symbolic link拭嫁。
這意味著可免,文件A依賴于文件B而存在,如果刪除了文件B做粤,打開文件A就會(huì)報(bào)錯(cuò)浇借。這是軟鏈接與硬鏈接最大的不同:文件A指向文件B的文件名,而不是文件B的inode號(hào)碼怕品,文件B的inode鏈接數(shù)不會(huì)因此發(fā)生變化妇垢。
MySQL利用硬鏈接刪除大表
Introduce
MySQL中刪除比較大的表時(shí),如果直接用drop table的方式進(jìn)行刪除,有可能會(huì)對(duì)整個(gè)實(shí)例產(chǎn)生影響甚至使得實(shí)例夯住闯估。因此可以通過硬鏈接的方式對(duì)表進(jìn)行刪除灼舍,使得對(duì)生產(chǎn)環(huán)境的影響降到最低。
drop table 的過程
1.持有 buffer pool mutex涨薪;
2.持有 buffer pool 中的 flush list mutex骑素;
3.開始掃描 LRU list:
1.如果 dirty page 屬于 drop table,那么就直接從 LRU list 中移除尤辱;
2.如果刪除的 page 個(gè)數(shù)超過了define buf_lru_drop_search_size 1024的話砂豌,則釋放 buffer pool mutex 和 flush list mutex 厢岂,強(qiáng)制通過 pthread_yield 進(jìn)行一次 os context switch 光督,釋放 cpu 時(shí)間片;
3.重新持有 buffer pool mutex 和 flush list mutex塔粒,繼續(xù)遍歷 LRU list结借,直到 LRU 的表頭。
4.釋放 flush list mutex卒茬;
5.釋放 buffer pool mutex船老。
6.再次重復(fù)上述的 1-5 步驟,只不過 1-5 是刪除 dirty page圃酵,這次的重復(fù)執(zhí)行柳畔,刪除的是 buffer pool 中的 clean page。
簡單來看郭赐,整個(gè)過程可以簡化為:
1.獲取 buffer pool mutex 和 flush list mutex薪韩;
2.從尾部開始遍歷 LRU 鏈表;
3.如果是 dirty page捌锭,那么將 dirty page 置為 clean page俘陷,并從 flush list 中刪除;
4.然后進(jìn)行第二次遍歷 LRU观谦,將 page 從 LRU 中移動(dòng)到 free list 中拉盾;
5.釋放 buffer pool mutex 和 flush list mutex。
在整個(gè)刪除表的過程中豁状,持有了 buffer pool mutex 和 flush list mutex 捉偏,如果整個(gè) buffer pool 比較大,或者表有較多的臟頁泻红,那么持有鎖的時(shí)間會(huì)比較長夭禽,導(dǎo)致其他事務(wù)在用到這個(gè) buffer pool 的時(shí)候被阻塞,現(xiàn)象上來看就是這個(gè)實(shí)例被夯住承桥。
硬鏈接刪除表
1. 主庫和從庫上對(duì)表建立硬鏈接
ln table_1.ibd table_1.ibd.hdlk
ln table_1.frm table_1.frm.hdlk
2. 在主庫進(jìn)行 drop table
drop table table_1;
3. 在 os 層刪除物理文件
rm table_1.ibd.hdlk
rm table_1.frm.hdlk
4. 如果表達(dá)到 500G 或者上 TB驻粟,則可以用 truncate 命令進(jìn)行截?cái)鄤h除
truncate -s 2G table_1.ibd.hdlk