本人從事UTM的開發(fā)工作框产,最近遇到out of memory killer.這里整理一下資料秉宿。
簡述
當系統(tǒng)內(nèi)存不足時膊存,系統(tǒng)會觸發(fā) oom-killer隔崎。
oom-killer的機制就是選擇殺掉最適合的進程,釋放內(nèi)存钓株,增加系統(tǒng)的可用內(nèi)存。
什么時候觸發(fā)oom-killer受葛?
觸發(fā)oom-killer不是在malloc分配內(nèi)存時纲堵;而是在真正使用分配的內(nèi)存時鸯隅,虛擬內(nèi)存映射到物理地址時炕舵。
malloc的manual中有說明
By default, Linux follows an optimistic memory allocation
strategy. This means that when malloc() returns non-NULL
there is no guarantee that the memory really is available.
This is a really bad bug. In case it turns out that the sys‐
tem is out of memory, one or more processes will be killed by
the infamous OOM killer. In case Linux is employed under cir‐
cumstances where it would be less desirable to suddenly lose
some randomly picked processes, and moreover the kernel ver‐
sion is sufficiently recent, one can switch off this overcom‐
mitting behavior using a command like:
# echo 2 > /proc/sys/vm/overcommit_memory
overcommit是Linux的一種內(nèi)存使用機制。通過/proc/sys/vm/overcommit_memory配置,有三種取值:
Overcommit_memory | Description | Comment |
---|---|---|
0 | 啟發(fā)式策略 | 拒絕明顯過大的內(nèi)存分配睹耐。用于典型系統(tǒng)。root比普通用戶可分配更多的內(nèi)存。 |
1 | 允許overcommit | 這種策略適合那些不能承受內(nèi)存分配失敗的應用纵刘,例如科學計算。 |
2 | 禁止overcommit | 總內(nèi)存使用空間不能超過swap+RAM*系數(shù).當malloc時位谋,內(nèi)存不足會返回error。系數(shù)可以通過/proc/sys/vm/overcommit_ratio配置赊淑,默認50。 |
只要有overcomit機制掺出,內(nèi)存不足時百框,必定會觸發(fā)oom-killer柬泽。
為什么使用oom-killer锨并?
大多數(shù)主流發(fā)行版的內(nèi)核都將/proc/sys/vm/overcommit_memory設置為0闸拿,意味著進程可以申請的內(nèi)存比實際可用的更多揽趾。這是基于分配的內(nèi)存并不一定立即使用的啟發(fā)式策略和可能進程在它整個運行過程中沒完全使用它分配的所有內(nèi)存。
假如禁止overcommit俐筋,系統(tǒng)無法完全使用所有的內(nèi)存,因此會浪費一部分赠幕。
overcommit允許系統(tǒng)以更有效的方式使用內(nèi)存榕堰,但是有OOM的風險康二。
占用內(nèi)存比較貪婪的進程可能會耗盡系統(tǒng)的內(nèi)存挨约,讓系統(tǒng)停頓。
這就導致了一種情形馆衔,當內(nèi)存很低時减细,甚至一個頁也不夠分配時,允許管理員殺掉合適的進程,讓內(nèi)核可以采取一些重要的操作例如釋放內(nèi)存纸型。在這種情形下,oom-killer挑選并殺掉合適的進程為了系統(tǒng)其余的任務考慮皂岔。
oom-killer的處理機制
怎么選擇最適合的進程圾笨?
通過一個評分機制(badness score)選擇最適合的進程土铺。badness score 通過/proc/<pid>/oom_score體現(xiàn)。
基于的原則就是用最小的損失換最大的內(nèi)存。
badness score與該進程占用的內(nèi)存瓢湃,它的cpu時間绵患,運行時間作煌,它的/proc/<pid>/oom_adj粟誓,運行級別nice有關(guān)病瞳。
占用內(nèi)存越多亲善,運行時間越短,badness score越高旷祸。
相反骚烧,占用內(nèi)存越少辫诅,運行時間越長者冤,badness score越低。
假如badness進程是父進程衬廷,它和它的子進程都會被kill掉。
具體的實現(xiàn)參考內(nèi)核oom_kill.c中 badness()函數(shù)酗宋。
參考鏈接:
Taming the OOM killer
When Linux Runs Out of Memory
How the Linux OOM killer works