文章來(lái)源
以下文章來(lái)源于阿里巴巴中間件
之前上學(xué)的時(shí)候有這個(gè)一個(gè)梗,說(shuō)在食堂里吃飯,吃完把餐盤端走清理的涎跨,是 C++ 程序員邑彪,吃完直接就走的,是 Java 程序員骤宣。
確實(shí)秦爆,在 Java 的世界里,似乎我們不用對(duì)垃圾回收那么的專注憔披,很多初學(xué)者不懂 GC等限,也依然能寫(xiě)出一個(gè)能用甚至還不錯(cuò)的程序或系統(tǒng)爸吮。但其實(shí)這并不代表 Java 的 GC 就不重要。相反望门,它是那么的重要和復(fù)雜形娇,以至于出了問(wèn)題,那些初學(xué)者除了打開(kāi) GC 日志筹误,看著一堆0101的天文桐早,啥也做不了。??
今天我們就從頭到尾完整地聊一聊 Java 的垃圾回收厨剪。
一哄酝、什么是垃圾回收
垃圾回收(Garbage Collection,GC)祷膳,顧名思義就是釋放垃圾占用的空間陶衅,防止內(nèi)存泄露。有效的使用可以使用的內(nèi)存直晨,對(duì)內(nèi)存堆中已經(jīng)死亡的或者長(zhǎng)時(shí)間沒(méi)有使用的對(duì)象進(jìn)行清除和回收万哪。
Java 語(yǔ)言出來(lái)之前,大家都在拼命的寫(xiě) C 或者 C++ 的程序抡秆,而此時(shí)存在一個(gè)很大的矛盾奕巍,C++ 等語(yǔ)言創(chuàng)建對(duì)象要不斷的去開(kāi)辟空間,不用的時(shí)候又需要不斷的去釋放控件儒士,既要寫(xiě)構(gòu)造函數(shù)的止,又要寫(xiě)析構(gòu)函數(shù),很多時(shí)候都在重復(fù)的 allocated着撩,然后不停的析構(gòu)诅福。于是,有人就提出拖叙,能不能寫(xiě)一段程序?qū)崿F(xiàn)這塊功能氓润,每次創(chuàng)建,釋放控件的時(shí)候復(fù)用這段代碼薯鳍,而無(wú)需重復(fù)的書(shū)寫(xiě)呢咖气?
1960年,基于 MIT 的 Lisp 首先提出了垃圾回收的概念挖滤,而這時(shí) Java 還沒(méi)有出世呢崩溪!所以實(shí)際上 GC 并不是Java的專利,GC 的歷史遠(yuǎn)遠(yuǎn)大于 Java 的歷史斩松!
二伶唯、怎么定義垃圾
既然我們要做垃圾回收,首先我們得搞清楚垃圾的定義是什么惧盹,哪些內(nèi)存是需要回收的乳幸。
三瞪讼、引用計(jì)數(shù)算法
引用計(jì)數(shù)算法(Reachability Counting)是通過(guò)在對(duì)象頭中分配一個(gè)空間來(lái)保存該對(duì)象被引用的次數(shù)(Reference Count)。如果該對(duì)象被其它對(duì)象引用粹断,則它的引用計(jì)數(shù)加1符欠,如果刪除對(duì)該對(duì)象的引用,那么它的引用計(jì)數(shù)就減1姿染,當(dāng)該對(duì)象的引用計(jì)數(shù)為0時(shí)背亥,那么該對(duì)象就會(huì)被回收秒际。
String m = new String("jack");
先創(chuàng)建一個(gè)字符串悬赏,這時(shí)候"jack"有一個(gè)引用,就是 m娄徊。
然后將 m 設(shè)置為 null闽颇,這時(shí)候"jack"的引用次數(shù)就等于0了,在引用計(jì)數(shù)算法中寄锐,意味著這塊內(nèi)容就需要被回收了兵多。
m = null;
引用計(jì)數(shù)算法是將垃圾回收分?jǐn)偟秸麄€(gè)應(yīng)用程序的運(yùn)行當(dāng)中了,而不是在進(jìn)行垃圾收集時(shí)橄仆,要掛起整個(gè)應(yīng)用的運(yùn)行剩膘,直到對(duì)堆中所有對(duì)象的處理都結(jié)束。因此盆顾,采用引用計(jì)數(shù)的垃圾收集不屬于嚴(yán)格意義上的"Stop-The-World"的垃圾收集機(jī)制怠褐。
看似很美好,但我們知道JVM的垃圾回收就是"Stop-The-World"的您宪,那是什么原因?qū)е挛覀冏罱K放棄了引用計(jì)數(shù)算法呢奈懒?看下面的例子。
public class ReferenceCountingGC {
public Object instance;
public ReferenceCountingGC(String name){}
}
public static void testGC(){
ReferenceCountingGC a = new ReferenceCountingGC("objA");
ReferenceCountingGC b = new ReferenceCountingGC("objB");
a.instance = b;
b.instance = a;
a = null;
b = null;
}
定義2個(gè)對(duì)象
相互引用
置空各自的聲明引用
我們可以看到宪巨,最后這2個(gè)對(duì)象已經(jīng)不可能再被訪問(wèn)了磷杏,但由于他們相互引用著對(duì)方,導(dǎo)致它們的引用計(jì)數(shù)永遠(yuǎn)都不會(huì)為0捏卓,通過(guò)引用計(jì)數(shù)算法极祸,也就永遠(yuǎn)無(wú)法通知GC收集器回收它們。
四怠晴、可達(dá)性分析算法
可達(dá)性分析算法(Reachability Analysis)的基本思路是贿肩,通過(guò)一些被稱為引用鏈(GC Roots)的對(duì)象作為起點(diǎn),從這些節(jié)點(diǎn)開(kāi)始向下搜索龄寞,搜索走過(guò)的路徑被稱為(Reference Chain)汰规,當(dāng)一個(gè)對(duì)象到 GC Roots 沒(méi)有任何引用鏈相連時(shí)(即從 GC Roots 節(jié)點(diǎn)到該節(jié)點(diǎn)不可達(dá)),則證明該對(duì)象是不可用的物邑。
通過(guò)可達(dá)性算法溜哮,成功解決了引用計(jì)數(shù)所無(wú)法解決的問(wèn)題-“循環(huán)依賴”滔金,只要你無(wú)法與 GC Root 建立直接或間接的連接,系統(tǒng)就會(huì)判定你為可回收對(duì)象茂嗓。那這樣就引申出了另一個(gè)問(wèn)題餐茵,哪些屬于 GC Root。
五述吸、Java 內(nèi)存區(qū)域
在 Java 語(yǔ)言中忿族,可作為 GC Root 的對(duì)象包括以下4種:
- 虛擬機(jī)棧(棧幀中的本地變量表)中引用的對(duì)象
- 方法區(qū)中類靜態(tài)屬性引用的對(duì)象
- 方法區(qū)中常量引用的對(duì)象
- 本地方法棧中 JNI(即一般說(shuō)的 Native 方法)引用的對(duì)象
虛擬機(jī)棧(棧幀中的本地變量表)中引用的對(duì)象
此時(shí)的 s,即為 GC Root蝌矛,當(dāng)s置空時(shí)道批,localParameter 對(duì)象也斷掉了與 GC Root 的引用鏈,將被回收入撒。
public class StackLocalParameter {
public StackLocalParameter(String name){}
}
public static void testGC(){
StackLocalParameter s = new StackLocalParameter("localParameter");
s = null;
}
方法區(qū)中類靜態(tài)屬性引用的對(duì)象
s 為 GC Root隆豹,s 置為 null,經(jīng)過(guò) GC 后茅逮,s 所指向的 properties 對(duì)象由于無(wú)法與 GC Root 建立關(guān)系被回收璃赡。
而 m 作為類的靜態(tài)屬性,也屬于 GC Root献雅,parameter 對(duì)象依然與 GC root 建立著連接碉考,所以此時(shí) parameter 對(duì)象并不會(huì)被回收。
public class MethodAreaStaicProperties {
public static MethodAreaStaicProperties m;
public MethodAreaStaicProperties(String name){}
}
public static void testGC(){
MethodAreaStaicProperties s = new MethodAreaStaicProperties("properties");
s.m = new MethodAreaStaicProperties("parameter");
s = null;
}
方法區(qū)中常量引用的對(duì)象
m 即為方法區(qū)中的常量引用挺身,也為 GC Root侯谁,s 置為 null 后,final 對(duì)象也不會(huì)因沒(méi)有與 GC Root 建立聯(lián)系而被回收瞒渠。
public class MethodAreaStaicProperties {
public static final MethodAreaStaicProperties m = MethodAreaStaicProperties("final");
public MethodAreaStaicProperties(String name){}
}
public static void testGC(){
MethodAreaStaicProperties s = new MethodAreaStaicProperties("staticProperties");
s = null;
}
本地方法棧中引用的對(duì)象
任何 Native 接口都會(huì)使用某種本地方法棧良蒸,實(shí)現(xiàn)的本地方法接口是使用 C 連接模型的話,那么它的本地方法棧就是 C 棧伍玖。當(dāng)線程調(diào)用 Java 方法時(shí)嫩痰,虛擬機(jī)會(huì)創(chuàng)建一個(gè)新的棧幀并壓入 Java 棧。然而當(dāng)它調(diào)用的是本地方法時(shí)窍箍,虛擬機(jī)會(huì)保持 Java 棧不變串纺,不再在線程的 Java 棧中壓入新的幀,虛擬機(jī)只是簡(jiǎn)單地動(dòng)態(tài)連接并直接調(diào)用指定的本地方法椰棘。
怎么回收垃圾
在確定了哪些垃圾可以被回收后纺棺,垃圾收集器要做的事情就是開(kāi)始進(jìn)行垃圾回收,但是這里面涉及到一個(gè)問(wèn)題是:如何高效地進(jìn)行垃圾回收邪狞。由于Java虛擬機(jī)規(guī)范并沒(méi)有對(duì)如何實(shí)現(xiàn)垃圾收集器做出明確的規(guī)定祷蝌,因此各個(gè)廠商的虛擬機(jī)可以采用不同的方式來(lái)實(shí)現(xiàn)垃圾收集器,這里我們討論幾種常見(jiàn)的垃圾收集算法的核心思想帆卓。
標(biāo)記 --- 清除算法
標(biāo)記清除算法(Mark-Sweep)是最基礎(chǔ)的一種垃圾回收算法巨朦,它分為2部分米丘,先把內(nèi)存區(qū)域中的這些對(duì)象進(jìn)行標(biāo)記,哪些屬于可回收標(biāo)記出來(lái)糊啡,然后把這些垃圾拎出來(lái)清理掉拄查。就像上圖一樣,清理掉的垃圾就變成未使用的內(nèi)存區(qū)域棚蓄,等待被再次使用堕扶。
這邏輯再清晰不過(guò)了,并且也很好操作梭依,但它存在一個(gè)很大的問(wèn)題稍算,那就是內(nèi)存碎片。
上圖中等方塊的假設(shè)是 2M睛挚,小一些的是 1M邪蛔,大一些的是 4M急黎。等我們回收完扎狱,內(nèi)存就會(huì)切成了很多段。我們知道開(kāi)辟內(nèi)存空間時(shí)勃教,需要的是連續(xù)的內(nèi)存區(qū)域淤击,這時(shí)候我們需要一個(gè) 2M的內(nèi)存區(qū)域,其中有2個(gè) 1M 是沒(méi)法用的故源。這樣就導(dǎo)致污抬,其實(shí)我們本身還有這么多的內(nèi)存的,但卻用不了绳军。
復(fù)制算法
復(fù)制算法(Copying)是在標(biāo)記清除算法上演化而來(lái)印机,解決標(biāo)記清除算法的內(nèi)存碎片問(wèn)題。它將可用內(nèi)存按容量劃分為大小相等的兩塊门驾,每次只使用其中的一塊射赛。當(dāng)這一塊的內(nèi)存用完了,就將還存活著的對(duì)象復(fù)制到另外一塊上面奶是,然后再把已使用過(guò)的內(nèi)存空間一次清理掉楣责。保證了內(nèi)存的連續(xù)可用,內(nèi)存分配時(shí)也就不用考慮內(nèi)存碎片等復(fù)雜情況聂沙,邏輯清晰秆麸,運(yùn)行高效。
上面的圖很清楚及汉,也很明顯的暴露了另一個(gè)問(wèn)題沮趣,合著我這140平的大三房,只能當(dāng)70平米的小兩房來(lái)使坷随?代價(jià)實(shí)在太高房铭。
標(biāo)記整理算法
標(biāo)記整理算法(Mark-Compact)標(biāo)記過(guò)程仍然與標(biāo)記 --- 清除算法一樣漫贞,但后續(xù)步驟不是直接對(duì)可回收對(duì)象進(jìn)行清理,而是讓所有存活的對(duì)象都向一端移動(dòng)育叁,再清理掉端邊界以外的內(nèi)存區(qū)域迅脐。
標(biāo)記整理算法一方面在標(biāo)記-清除算法上做了升級(jí),解決了內(nèi)存碎片的問(wèn)題豪嗽,也規(guī)避了復(fù)制算法只能利用一半內(nèi)存區(qū)域的弊端谴蔑。看起來(lái)很美好龟梦,但從上圖可以看到隐锭,它對(duì)內(nèi)存變動(dòng)更頻繁,需要整理所有存活對(duì)象的引用地址计贰,在效率上比復(fù)制算法要差很多钦睡。
分代收集算法分代收集算法(Generational Collection)嚴(yán)格來(lái)說(shuō)并不是一種思想或理論,而是融合上述3種基礎(chǔ)的算法思想躁倒,而產(chǎn)生的針對(duì)不同情況所采用不同算法的一套組合拳荞怒。對(duì)象存活周期的不同將內(nèi)存劃分為幾塊。一般是把 Java 堆分為新生代和老年代秧秉,這樣就可以根據(jù)各個(gè)年代的特點(diǎn)采用最適當(dāng)?shù)氖占惴ê肿馈T谛律校看卫占瘯r(shí)都發(fā)現(xiàn)有大批對(duì)象死去象迎,只有少量存活荧嵌,那就選用復(fù)制算法,只需要付出少量存活對(duì)象的復(fù)制成本就可以完成收集砾淌。而老年代中因?yàn)閷?duì)象存活率高啦撮、沒(méi)有額外空間對(duì)它進(jìn)行分配擔(dān)保,就必須使用標(biāo)記-清理或者標(biāo)記 --- 整理算法來(lái)進(jìn)行回收汪厨。so赃春,另一個(gè)問(wèn)題來(lái)了,那內(nèi)存區(qū)域到底被分為哪幾塊骄崩,每一塊又有什么特別適合什么算法呢聘鳞?
內(nèi)存模型與回收策略
Java 堆(Java Heap)是JVM所管理的內(nèi)存中最大的一塊,堆又是垃圾收集器管理的主要區(qū)域要拂,這里我們主要分析一下 Java 堆的結(jié)構(gòu)抠璃。
Java 堆主要分為2個(gè)區(qū)域-年輕代與老年代,其中年輕代又分 Eden 區(qū)和 Survivor 區(qū)脱惰,其中 Survivor 區(qū)又分 From 和 To 2個(gè)區(qū)搏嗡。可能這時(shí)候大家會(huì)有疑問(wèn),為什么需要 Survivor 區(qū)采盒,為什么Survivor 還要分2個(gè)區(qū)旧乞。不著急,我們從頭到尾磅氨,看看對(duì)象到底是怎么來(lái)的尺栖,而它又是怎么沒(méi)的。
Eden 區(qū)
IBM 公司的專業(yè)研究表明烦租,有將近98%的對(duì)象是朝生夕死延赌,所以針對(duì)這一現(xiàn)狀,大多數(shù)情況下叉橱,對(duì)象會(huì)在新生代 Eden 區(qū)中進(jìn)行分配挫以,當(dāng) Eden 區(qū)沒(méi)有足夠空間進(jìn)行分配時(shí),虛擬機(jī)會(huì)發(fā)起一次 Minor GC窃祝,Minor GC 相比 Major GC 更頻繁掐松,回收速度也更快。
通過(guò) Minor GC 之后粪小,Eden 會(huì)被清空大磺,Eden 區(qū)中絕大部分對(duì)象會(huì)被回收,而那些無(wú)需回收的存活對(duì)象糕再,將會(huì)進(jìn)到 Survivor 的 From 區(qū)(若 From 區(qū)不夠量没,則直接進(jìn)入 Old 區(qū))玉转。
Survivor 區(qū)
Survivor 區(qū)相當(dāng)于是 Eden 區(qū)和 Old 區(qū)的一個(gè)緩沖突想,類似于我們交通燈中的黃燈。Survivor 又分為2個(gè)區(qū)究抓,一個(gè)是 From 區(qū)猾担,一個(gè)是 To 區(qū)。每次執(zhí)行 Minor GC刺下,會(huì)將 Eden 區(qū)和 From 存活的對(duì)象放到 Survivor 的 To 區(qū)(如果 To 區(qū)不夠绑嘹,則直接進(jìn)入 Old 區(qū))。
為啥需要橘茉?
不就是新生代到老年代么工腋,直接 Eden 到 Old 不好了嗎,為啥要這么復(fù)雜畅卓。想想如果沒(méi)有 Survivor 區(qū)擅腰,Eden 區(qū)每進(jìn)行一次 Minor GC,存活的對(duì)象就會(huì)被送到老年代翁潘,老年代很快就會(huì)被填滿趁冈。而有很多對(duì)象雖然一次 Minor GC 沒(méi)有消滅,但其實(shí)也并不會(huì)蹦跶多久蕊程,或許第二次堪置,第三次就需要被清除。這時(shí)候移入老年區(qū)川梅,很明顯不是一個(gè)明智的決定旺坠。
所以乔遮,Survivor 的存在意義就是減少被送到老年代的對(duì)象,進(jìn)而減少 Major GC 的發(fā)生取刃。Survivor 的預(yù)篩選保證申眼,只有經(jīng)歷16次 Minor GC 還能在新生代中存活的對(duì)象,才會(huì)被送到老年代蝉衣。
為啥需要倆括尸?
設(shè)置兩個(gè) Survivor 區(qū)最大的好處就是解決內(nèi)存碎片化。
我們先假設(shè)一下病毡,Survivor 如果只有一個(gè)區(qū)域會(huì)怎樣濒翻。Minor GC 執(zhí)行后,Eden 區(qū)被清空了啦膜,存活的對(duì)象放到了 Survivor 區(qū)有送,而之前 Survivor 區(qū)中的對(duì)象,可能也有一些是需要被清除的僧家。問(wèn)題來(lái)了雀摘,這時(shí)候我們?cè)趺辞宄鼈儯吭谶@種場(chǎng)景下八拱,我們只能標(biāo)記清除阵赠,而我們知道標(biāo)記清除最大的問(wèn)題就是內(nèi)存碎片,在新生代這種經(jīng)常會(huì)消亡的區(qū)域肌稻,采用標(biāo)記清除必然會(huì)讓內(nèi)存產(chǎn)生嚴(yán)重的碎片化清蚀。因?yàn)?Survivor 有2個(gè)區(qū)域,所以每次 Minor GC爹谭,會(huì)將之前 Eden 區(qū)和 From 區(qū)中的存活對(duì)象復(fù)制到 To 區(qū)域枷邪。第二次 Minor GC 時(shí),F(xiàn)rom 與 To 職責(zé)兌換诺凡,這時(shí)候會(huì)將 Eden 區(qū)和 To 區(qū)中的存活對(duì)象再?gòu)?fù)制到 From 區(qū)域东揣,以此反復(fù)。
這種機(jī)制最大的好處就是腹泌,整個(gè)過(guò)程中嘶卧,永遠(yuǎn)有一個(gè) Survivor space 是空的,另一個(gè)非空的 Survivor space 是無(wú)碎片的真屯。那么脸候,Survivor 為什么不分更多塊呢?比方說(shuō)分成三個(gè)、四個(gè)运沦、五個(gè)?顯然泵额,如果 Survivor 區(qū)再細(xì)分下去,每一塊的空間就會(huì)比較小携添,容易導(dǎo)致 Survivor 區(qū)滿嫁盲,兩塊 Survivor 區(qū)可能是經(jīng)過(guò)權(quán)衡之后的最佳方案。
Old 區(qū)
老年代占據(jù)著2/3的堆內(nèi)存空間烈掠,只有在 Major GC 的時(shí)候才會(huì)進(jìn)行清理羞秤,每次 GC 都會(huì)觸發(fā)“Stop-The-World”。內(nèi)存越大左敌,STW 的時(shí)間也越長(zhǎng)瘾蛋,所以內(nèi)存也不僅僅是越大就越好。由于復(fù)制算法在對(duì)象存活率較高的老年代會(huì)進(jìn)行很多次的復(fù)制操作矫限,效率很低哺哼,所以老年代這里采用的是標(biāo)記 --- 整理算法。
除了上述所說(shuō)叼风,在內(nèi)存擔(dān)保機(jī)制下取董,無(wú)法安置的對(duì)象會(huì)直接進(jìn)到老年代,以下幾種情況也會(huì)進(jìn)入老年代无宿。
大對(duì)象
大對(duì)象指需要大量連續(xù)內(nèi)存空間的對(duì)象茵汰,這部分對(duì)象不管是不是“朝生夕死”,都會(huì)直接進(jìn)到老年代孽鸡。這樣做主要是為了避免在 Eden 區(qū)及2個(gè) Survivor 區(qū)之間發(fā)生大量的內(nèi)存復(fù)制蹂午。當(dāng)你的系統(tǒng)有非常多“朝生夕死”的大對(duì)象時(shí),得注意了梭灿。
長(zhǎng)期存活對(duì)象
虛擬機(jī)給每個(gè)對(duì)象定義了一個(gè)對(duì)象年齡(Age)計(jì)數(shù)器画侣。正常情況下對(duì)象會(huì)不斷的在 Survivor 的 From 區(qū)與 To 區(qū)之間移動(dòng),對(duì)象在 Survivor 區(qū)中每經(jīng)歷一次 Minor GC堡妒,年齡就增加1歲。當(dāng)年齡增加到15歲時(shí)溉卓,這時(shí)候就會(huì)被轉(zhuǎn)移到老年代皮迟。當(dāng)然,這里的15桑寨,JVM 也支持進(jìn)行特殊設(shè)置伏尼。
動(dòng)態(tài)對(duì)象年齡
虛擬機(jī)并不重視要求對(duì)象年齡必須到15歲,才會(huì)放入老年區(qū)尉尾,如果 Survivor 空間中相同年齡所有對(duì)象大小的總合大于 Survivor 空間的一半爆阶,年齡大于等于該年齡的對(duì)象就可以直接進(jìn)去老年區(qū),無(wú)需等你“成年”。
這其實(shí)有點(diǎn)類似于負(fù)載均衡辨图,輪詢是負(fù)載均衡的一種班套,保證每臺(tái)機(jī)器都分得同樣的請(qǐng)求」屎樱看似很均衡吱韭,但每臺(tái)機(jī)的硬件不通,健康狀況不同鱼的,我們還可以基于每臺(tái)機(jī)接受的請(qǐng)求數(shù)理盆,或每臺(tái)機(jī)的響應(yīng)時(shí)間等,來(lái)調(diào)整我們的負(fù)載均衡算法凑阶。