在Linux下Redis啟動(dòng)時(shí)可能會(huì)看到如下警告日志:
WARNING you have Transparent Huge Pages (THP) support enabled in your kernel. This will create latency and memory usage issues with Redis. To fix this issue run the command 'echo never > /sys/kernel/mm/transparent_hugepage/enabled' as root, and add it to your /etc/rc.local in order to retain the setting after a reboot. Redis must be restarted after THP is disabled.
從提示看Redis建議關(guān)閉Transparent Huge Pages(THP)榄檬。
那么什么是Transparent Huge Pages(THP)(透明大頁)呢卜范?
在說THP之前先說一下Hugepages(注意:大頁(Huge Pages和透明大頁(Transparent Huge Pages)有區(qū)別)
內(nèi)存是由塊管理,即眾所周知的頁面鹿榜。在Linux 64位系統(tǒng)里面,默認(rèn)內(nèi)存是以4K的頁面(Page)來管理的海雪。也就是說一個(gè)頁面有 4096 字節(jié)。1MB 內(nèi)存等于 256 個(gè)頁面舱殿。2MB內(nèi)存等于512個(gè)頁面奥裸。如果是一個(gè)比較大的服務(wù)器內(nèi)存,那么管理大內(nèi)存管理需要形成的頁面列表(相當(dāng)于索引表)就很大沪袭,CPU 有內(nèi)嵌的內(nèi)存管理單元TLB湾宙,這些單元中包含這些頁面列表,每個(gè)頁面都使用頁表?xiàng)l目冈绊。頁表(Page Table)用來存放虛擬內(nèi)存和物理內(nèi)存頁對(duì)應(yīng)關(guān)系的內(nèi)存結(jié)構(gòu)创倔。如果page size較小,那么相應(yīng)的頁表內(nèi)存結(jié)構(gòu)就會(huì)比較大焚碌。而Hugepages的默認(rèn)值page size為2M畦攘,是4KB的500倍,所以可以大大減小Page Table的大小十电。通過啟用 HugePages使用大頁面知押,可以用一個(gè)頁表?xiàng)l目代表一個(gè)大頁面叹螟,而不是使用許多條目代表較小的頁面,從而可以管理更多內(nèi)存台盯,減少操作系統(tǒng)對(duì)頁面狀態(tài)的維護(hù)并提高 TLB 緩存命中率罢绽。注意,Hugepagesize的大小默認(rèn)為2M静盅,這個(gè)也是可以調(diào)整的良价。區(qū)間范圍為2MB to 256MB。
標(biāo)準(zhǔn)大頁管理是預(yù)分配的方式蒿叠,而透明大頁管理則是動(dòng)態(tài)分配的方式明垢。相信有不少人將Huge Page和Transparent Huge Pages混為一談。目前透明大頁與傳統(tǒng)HugePages聯(lián)用會(huì)出現(xiàn)一些問題市咽,導(dǎo)致性能問題和系統(tǒng)重啟痊银。Oracle 建議禁用透明大頁(Transparent Huge Pages)。在 Oracle Linux 6.5 版中施绎,已刪除透明 HugePages溯革。
透明大頁除了機(jī)制問題以外,在增大頁面大小縮小頁面索引列表這點(diǎn)上是一樣的原理谷醉。
為什么Redsi使用透明大頁會(huì)存在問題致稀?
這里就涉及到Redis在持久化AOF過程中都存在創(chuàng)建子進(jìn)程的情況。
Redis 在AOF持久化過程中會(huì)fork一個(gè)子進(jìn)程進(jìn)行AOF操作俱尼。這塊又涉及到一個(gè)fork過程的CopyOnWrite機(jī)制抖单。
copy-on-write技術(shù),在fork出子進(jìn)程后号显,與父進(jìn)程共享內(nèi)存空間臭猜,兩者只是虛擬空間不同躺酒,但是其對(duì)應(yīng)的物理空間是同一個(gè)押蚤;
這里有兩個(gè)關(guān)鍵地方:
? ? ? ①fork子進(jìn)程會(huì)拷貝父進(jìn)程的頁面索引列表,如果索引列表小羹应,那么fork拷貝的內(nèi)存就會(huì)小揽碘,那么fork子進(jìn)程的速度就會(huì)快。
? ? ? ②當(dāng)fork()之后园匹,kernel把父進(jìn)程中所有的內(nèi)存頁的權(quán)限都設(shè)為read-only雳刺,然后子進(jìn)程的地址空間指向父進(jìn)程。當(dāng)父子進(jìn)程都只讀內(nèi)存時(shí)裸违,相安無事掖桦。當(dāng)其中某個(gè)進(jìn)程寫內(nèi)存時(shí),CPU硬件檢測(cè)到內(nèi)存頁是read-only的供汛,于是觸發(fā)頁異常中斷(page-fault)枪汪,陷入kernel的一個(gè)中斷例程涌穆。中斷例程中,kernel就會(huì)把觸發(fā)的異常的頁復(fù)制一份雀久,于是父子進(jìn)程各自持有獨(dú)立的一份宿稀。如果使用大頁每次有頁面要修改,那么就要拷貝一個(gè)2MB的大頁面赖捌,會(huì)大幅增加重Redis寫期間父進(jìn)程內(nèi)存消耗祝沸。同時(shí)每次寫命令引起的復(fù)制內(nèi)存頁單位為2MB,會(huì)拖慢寫操作的執(zhí)行時(shí)間越庇,導(dǎo)致大量寫操作慢查詢罩锐,
所以除了“透明大頁與傳統(tǒng)HugePages聯(lián)用會(huì)出現(xiàn)一些問題,導(dǎo)致性能問題和系統(tǒng)重啟"外悦荒,上面這兩點(diǎn)是Redis建議關(guān)閉THP的更重要的原因唯欣。