為什么要將Java字節(jié)碼翻譯為C代碼?
Java字節(jié)碼是基于棧的一種編碼柠傍。這種編碼方式十分方便解釋器的設(shè)計(jì)掷酗,但同時(shí)不利于程序分析,因此一些高效的代碼優(yōu)化技術(shù)無法方便的Java字節(jié)碼上實(shí)現(xiàn)。
先大體說說Java字節(jié)碼的特點(diǎn)。目前版本的Java大概有200+的字節(jié)碼指令,其中大部分都是1字節(jié)指令抚垃,這也是為什么叫做字節(jié)碼。少部分指令是多字節(jié)或不定長指令趟大。
對于解釋器來說鹤树,解釋指令時(shí)一般都是在操作兩個(gè)區(qū)域。一個(gè)是棧逊朽,一個(gè)是局部變量表罕伯。舉例來說,iload1指令叽讳,就是從局部變量表的1號槽位的數(shù)據(jù)放入操作數(shù)棧中追他,即*stack++ = locals[1]。
與C或者其他常用的編程語言不同的是岛蚤,Java字節(jié)碼的操作數(shù)類型是隱含的邑狸,操作的類型的顯示的,而C語言中操作數(shù)類型都是顯示的涤妒,但是操作是多態(tài)的单雾。比如“+”,在C語言中“+”兩邊的操作數(shù)類型可以是int型,可以是double硅堆。Java字節(jié)碼中iadd指令明確表示了要操作相加的兩個(gè)數(shù)一定是int型屿储。但是當(dāng)拋開iadd指令而直接觀測操作數(shù)棧時(shí),并不知道棧上操作數(shù)的類型渐逃。
直接說結(jié)論够掠。
Java字節(jié)碼在每一條指令執(zhí)行時(shí),操作數(shù)棧的深度茄菊,局部變量表的大小疯潭,以及它們上面的操作數(shù)類型都是可以確定的。而且袁勺,無論從何種路徑執(zhí)行到某一條指令,操作數(shù)棧深度及操作數(shù)類型都是確定的[1]畜普。Java虛擬機(jī)規(guī)范的4.10.2章節(jié)介紹了字節(jié)碼校驗(yàn)的一個(gè)算法,可以參考群叶。
以一個(gè)簡單的a=b+c的例子來說明這個(gè)翻譯過程吃挑。
對應(yīng)的Java字節(jié)碼如下:
iload1
iload2
iadd
istore1
我們可以暫時(shí)將操作數(shù)棧和局部變量表的每一個(gè)槽位看成一個(gè)局部變量。上面的代碼就翻譯為:
s0 = l1;
s1 = l2;
s0 = s0 + s1;
l1 = s0;
其中局部變量的類型都是已知的街立〔俺模可以看到s0,s1跟Java操作數(shù)棧的功能一樣赎离,是為了存放臨時(shí)的計(jì)算結(jié)果逛犹。上面的代碼完全可以化簡為“l(fā)1 = l1 + l2”。但前期沒有必要引入這種復(fù)雜性梁剔,這種化簡完全可以由后續(xù)的各種優(yōu)化完成虽画。
上面的例子實(shí)際上的存在一些問題的。雖然Java操作數(shù)棧和局部變量表里面存放的數(shù)據(jù)都是有類型荣病,但是棧和局部變量表本身只是一個(gè)存儲(chǔ)空間罷了码撰,并沒有規(guī)定里面必須存放什么類型的數(shù)據(jù)。所以每次在給椄雠瑁空間或者局部變量賦值的時(shí)候脖岛,我們有必要新聲明一個(gè)局部變量。上面的例子翻譯為:
s0 = l1;
s1 = l2;
s0_1 = s0 + s1;
l1_1 = s0;
通過數(shù)據(jù)流分析可以求出def-use颊亮,方便做上面的這種變量分裂柴梆,這里不詳細(xì)說了。
最近在研究Soot终惑,由于Soot的目的是對字節(jié)碼做優(yōu)化绍在,所以里面也有將字節(jié)碼翻譯為Jimple的邏輯。但是不明白Soot為什么需要類型推導(dǎo),目前我感覺將Java字節(jié)碼翻譯為Jimple完全不需要推導(dǎo)類型揣苏。
[1] Toba: Java For ApplicationsA Way Ahead of Time (WAT) Compiler